[TYPO3-german] crawler beschleunigen

Thomas Scholze tscholze at fh-lausitz.de
Mon Jun 25 13:21:20 CEST 2007


Peter Russ schrieb:
> Thomas Scholze schrieb:
>> Hallo,
>> eine kurze Frage: Ist es möglich den crawler etwas zu beschleunigen?
>>
>> Ich möchte (da Mitternachts der Cache geleert wird) mit dem crawler 
>> die Seiten neu cachen und in dem Zug auch im Index updaten.
>>
>> Das ganze läuft mit folgender config:
>> -- TypoScript --
>> ## http://wiki.typo3.org/index.php/Ext_crawler
>> tx_crawler.crawlerCfg.paramSets.main =
>> tx_crawler.crawlerCfg.paramSets.main {
>>     procInstrFilter = 
>> tx_indexedsearch_crawler,tx_indexedsearch_reindex,tx_cachemgm_recache
>>     cHash = 1
>>     baseUrl = http://www.domain.de/
>> }
>> #set up a crawl for users who have group id of 1
>> tx_crawler.crawlerCfg.paramSets.grp1 < 
>> tx_crawler.crawlerCfg.paramSets.main
>> tx_crawler.crawlerCfg.paramSets.grp1 {
>>     userGroups = 1
>> }
>>
>> -- crawler-aufruf in der Shell --
>> $ time 
>> /home/www/vh/www.fh-lausitz.de/typo3/sites/typo3_FHL_test/typo3/cli_dispatch.phpsh 
>> crawler_im 2 -d 999 -n 999 -ss -proc 
>> tx_cachemgm_recache,tx_indexedsearch_reindex,tx_indexedsearch_crawler 
>> -o exec
>>
>> -- mit dem Ergebnis --
>> real    981m14.729s
>> user    0m15.978s
>> sys     0m2.571s
>>
>> ------------------------
>> Also nicht für jeden Tag geeignet.
>>
>> Was mir ebenfalls aufgefallen ist, dass wenn man über CLI nur
>> -proc tx_cachemgm_recache
>> angibt auch alle anderen Parameter automatisch mit abgearbeitet 
>> werden, in dem fall tx_indexedsearch_crawler,tx_indexedsearch_reindex.
>> Lässt sich nur beheben, wenn man ein separates paramSets definiert in 
>> der die nicht gewünschten parameter auch nich drin sind.
>>
>> Abgesehen davon läuft tx_cachemgm_recache alleine auch nicht schneller 
>> ...
>>
>>
>> Vielen Dank für eure Hilfe, ich würde dann auch versuchen 
>> http://wiki.typo3.org/index.php/Ext_crawler ein Update zu verschaffen.
>>
>> Grüße
>> Thomas
> 
> Um wieviele Seiten handelt es sich?
> Deine Seiten werden 2mal gecrawlt: 1 mal ohne Group in main, einmal mit 
> Group 1 (was m.E eigentlich so lauten sollte: 0,-2,1)
> 
> Eine Beschleinigung könnte erreicht werden, wenn die Gruppenberechtigung 
> sich auf Seiten und nicht auf Inhaltebene beschränkt. Hier kommt in der 
> nächsten Woche ein Patch, um dies zu vereinfachen.
> 
> Ansonsten.....
> 
> 
> Gruss. Peter.
> 

Hallo Peter,
es handelt sich in dem Fall um knappe 1000 Seiten.

Kann ich das crawlen auf einmal beschränken wenn ich als 
userGroups=0,-2,1 angebe? ... gleich probieren.

Bisher war ich der Meinung, dass der crawler das ganze Seitenweise 
abwickelt... denn eine URL wird wie gesagt immer 2x durchgegangen.
1x Die Seite mit dem gesamten Content für keine Gruppe und 1x für die 
Gruppe mit der Nummer 1.

Ggf. habe ich einen Hänger beimnachvollziehen des Grundprinzips. Dabei 
noch eine Frage: Was macht in diesem Fall der cHash?

Vielen Dank.
Grüße, Thomas.


More information about the TYPO3-german mailing list