[TYPO3-german] Fragen zum crawler und indexed search

Marius Shekow info at planetnexuiz.de
Tue Sep 25 09:14:24 CEST 2007


Olivier Dobberkau schrieb:
> Marius Shekow schrieb:
> 
> Hallo Marius,
> 
> Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt...
> 
> Prinzipiell wird der Crawler mittels Cronjob getriggert.
> 
> Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach 
> dem wie diese eingestellt ist abgearbeitet wird oder nicht.
> 
> Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie 
> ein regelmäßiger Herzschlag, der den Crawler an Leben hält.
> 
> Einmal eingerichtet sollte das Crawlen von alleine gehen.
Allerdings stellt sich mir die Frage: ich richte einen Job auf der Queue 
ein (z.B: für Mitternacht alles crawlen), der Cronjob erledigt das dann 
z.B. "heute" um Mitternacht. Dann müsste (per Definition einer "queue") 
diese dann leer sein (insofern der Job um Mitternacht erfolgreich 
beendet wurde). D.h. wenn der Crawler dann morgen um Mitternacht 
nachsieht wird er keine Aufgabe in der Queue finden, und also auch 
nichts machen. So verstehe ich das.
> 
>> Frage 1)
>> Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die 
>> Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs 
>> klicke, und danach das Log anschaue, steht folgendes in der Status 
>> Spalte: ".."
>> Was bedeutet das denn nun ? Fehlschlag oder Erfolg?
> 
> Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner 
> Config nicht.
Bei mir steht durchaus auch "12 URLs submitted". Wenn ich dann auf 
Continue gehe und dann zum Crawler Log wechsle, habe ich, wie erwähnt, 
den Status "..", und eben nicht "OK" o.ä.
> 
> 
> 
>> Frage 2)
>> Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B. 
>> "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job 
>> zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was 
>> muss man tun damit das JEDEN TAG so ist?
> 
> siehe oben.
> 
>> Frage 3)
>> Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann 
>> im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now" 
>> klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt 
>> meines Mausklicks), dann läuft das Script trotzdem durch. Was 
>> natürlich Schwachsinn ist, da das Script ja erst um Mitternacht aktiv 
>> werden sollte --> Warum läuft das Script trotzdem?
>>
> 
> Weil Run now! Run now bedeutet....
okok :)
> 
> 
> 
>> Frage 4)
>> Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der 
>> Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal 
>> irgendwie stark verdächtig --> Vorschläge ?
> 
> Das liegt an der Keep alive Anweisung im Code.
> 
> http://wiki.typo3.org/index.php/Ext_crawler#Performance
> Version aus dem SVN nutzen...
> 
> http://typo3xdev.sourceforge.net/
Ich habe die "alte" Crawler Extension deinstalliert, gelöscht, diese 
hier 
(http://typo3xdev.sourceforge.net/T3X/T3X_crawler-2_0_0_-2007-09-24.t3x) 
importiert und installiert. Da ich jetzt leider gleich weg muss kann ich 
nich nochmal (400 Sekunden?) warten, denn auf jeden Fall ist es, seit 
dem Update der Extension, nicht wirklich schneller geworden nach dem ich 
auf "Run now" geklickt habe (nach ca 4 Minuten habe ich abgebrochen).
> 
> 
>> Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld 
>> aufgebracht habe und danach das Crawler Log anschaue, steht in der 
>> Status spalte die höchst aussagekräftige Meldung "Error: .."
> 
> Wahrscheinlich ein Memoryproblem?
> Was passiert, wenn Du das Script mittels Konsole steuerst?

Memory Limit ist auf 96 MB. Da ich leider nicht selbst Admin des Servers 
  bin kann ich noch nicht sagen, was beim ausführen des CLI's auf der 
Konsole passiert. Ich habe dem Admin den Befehl genannt, und seine 
Antwort war dann, dass es sich nicht ausführen ließ, da php in /usr/bin 
nicht gefunden wurde. Habe ihn gebeten, php dementsprechend zu 
installieren und es erneut zu versuchen. Bleibt abzuwarten.

Danke auch für deine Konfiguration des crawlers, die sieht schlanker aus.

Viele Grüße,
Marius


More information about the TYPO3-german mailing list