[TYPO3-german] crawler beschleunigen
Thomas Scholze
tscholze at fh-lausitz.de
Mon Jun 25 13:21:20 CEST 2007
Peter Russ schrieb:
> Thomas Scholze schrieb:
>> Hallo,
>> eine kurze Frage: Ist es möglich den crawler etwas zu beschleunigen?
>>
>> Ich möchte (da Mitternachts der Cache geleert wird) mit dem crawler
>> die Seiten neu cachen und in dem Zug auch im Index updaten.
>>
>> Das ganze läuft mit folgender config:
>> -- TypoScript --
>> ## http://wiki.typo3.org/index.php/Ext_crawler
>> tx_crawler.crawlerCfg.paramSets.main =
>> tx_crawler.crawlerCfg.paramSets.main {
>> procInstrFilter =
>> tx_indexedsearch_crawler,tx_indexedsearch_reindex,tx_cachemgm_recache
>> cHash = 1
>> baseUrl = http://www.domain.de/
>> }
>> #set up a crawl for users who have group id of 1
>> tx_crawler.crawlerCfg.paramSets.grp1 <
>> tx_crawler.crawlerCfg.paramSets.main
>> tx_crawler.crawlerCfg.paramSets.grp1 {
>> userGroups = 1
>> }
>>
>> -- crawler-aufruf in der Shell --
>> $ time
>> /home/www/vh/www.fh-lausitz.de/typo3/sites/typo3_FHL_test/typo3/cli_dispatch.phpsh
>> crawler_im 2 -d 999 -n 999 -ss -proc
>> tx_cachemgm_recache,tx_indexedsearch_reindex,tx_indexedsearch_crawler
>> -o exec
>>
>> -- mit dem Ergebnis --
>> real 981m14.729s
>> user 0m15.978s
>> sys 0m2.571s
>>
>> ------------------------
>> Also nicht für jeden Tag geeignet.
>>
>> Was mir ebenfalls aufgefallen ist, dass wenn man über CLI nur
>> -proc tx_cachemgm_recache
>> angibt auch alle anderen Parameter automatisch mit abgearbeitet
>> werden, in dem fall tx_indexedsearch_crawler,tx_indexedsearch_reindex.
>> Lässt sich nur beheben, wenn man ein separates paramSets definiert in
>> der die nicht gewünschten parameter auch nich drin sind.
>>
>> Abgesehen davon läuft tx_cachemgm_recache alleine auch nicht schneller
>> ...
>>
>>
>> Vielen Dank für eure Hilfe, ich würde dann auch versuchen
>> http://wiki.typo3.org/index.php/Ext_crawler ein Update zu verschaffen.
>>
>> Grüße
>> Thomas
>
> Um wieviele Seiten handelt es sich?
> Deine Seiten werden 2mal gecrawlt: 1 mal ohne Group in main, einmal mit
> Group 1 (was m.E eigentlich so lauten sollte: 0,-2,1)
>
> Eine Beschleinigung könnte erreicht werden, wenn die Gruppenberechtigung
> sich auf Seiten und nicht auf Inhaltebene beschränkt. Hier kommt in der
> nächsten Woche ein Patch, um dies zu vereinfachen.
>
> Ansonsten.....
>
>
> Gruss. Peter.
>
Hallo Peter,
es handelt sich in dem Fall um knappe 1000 Seiten.
Kann ich das crawlen auf einmal beschränken wenn ich als
userGroups=0,-2,1 angebe? ... gleich probieren.
Bisher war ich der Meinung, dass der crawler das ganze Seitenweise
abwickelt... denn eine URL wird wie gesagt immer 2x durchgegangen.
1x Die Seite mit dem gesamten Content für keine Gruppe und 1x für die
Gruppe mit der Nummer 1.
Ggf. habe ich einen Hänger beimnachvollziehen des Grundprinzips. Dabei
noch eine Frage: Was macht in diesem Fall der cHash?
Vielen Dank.
Grüße, Thomas.
More information about the TYPO3-german
mailing list