[TYPO3-german] Fragen zum crawler und indexed search
Marius Shekow
info at planetnexuiz.de
Tue Sep 25 09:14:24 CEST 2007
Olivier Dobberkau schrieb:
> Marius Shekow schrieb:
>
> Hallo Marius,
>
> Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt...
>
> Prinzipiell wird der Crawler mittels Cronjob getriggert.
>
> Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach
> dem wie diese eingestellt ist abgearbeitet wird oder nicht.
>
> Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie
> ein regelmäßiger Herzschlag, der den Crawler an Leben hält.
>
> Einmal eingerichtet sollte das Crawlen von alleine gehen.
Allerdings stellt sich mir die Frage: ich richte einen Job auf der Queue
ein (z.B: für Mitternacht alles crawlen), der Cronjob erledigt das dann
z.B. "heute" um Mitternacht. Dann müsste (per Definition einer "queue")
diese dann leer sein (insofern der Job um Mitternacht erfolgreich
beendet wurde). D.h. wenn der Crawler dann morgen um Mitternacht
nachsieht wird er keine Aufgabe in der Queue finden, und also auch
nichts machen. So verstehe ich das.
>
>> Frage 1)
>> Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die
>> Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs
>> klicke, und danach das Log anschaue, steht folgendes in der Status
>> Spalte: ".."
>> Was bedeutet das denn nun ? Fehlschlag oder Erfolg?
>
> Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner
> Config nicht.
Bei mir steht durchaus auch "12 URLs submitted". Wenn ich dann auf
Continue gehe und dann zum Crawler Log wechsle, habe ich, wie erwähnt,
den Status "..", und eben nicht "OK" o.ä.
>
>
>
>> Frage 2)
>> Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B.
>> "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job
>> zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was
>> muss man tun damit das JEDEN TAG so ist?
>
> siehe oben.
>
>> Frage 3)
>> Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann
>> im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now"
>> klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt
>> meines Mausklicks), dann läuft das Script trotzdem durch. Was
>> natürlich Schwachsinn ist, da das Script ja erst um Mitternacht aktiv
>> werden sollte --> Warum läuft das Script trotzdem?
>>
>
> Weil Run now! Run now bedeutet....
okok :)
>
>
>
>> Frage 4)
>> Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der
>> Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal
>> irgendwie stark verdächtig --> Vorschläge ?
>
> Das liegt an der Keep alive Anweisung im Code.
>
> http://wiki.typo3.org/index.php/Ext_crawler#Performance
> Version aus dem SVN nutzen...
>
> http://typo3xdev.sourceforge.net/
Ich habe die "alte" Crawler Extension deinstalliert, gelöscht, diese
hier
(http://typo3xdev.sourceforge.net/T3X/T3X_crawler-2_0_0_-2007-09-24.t3x)
importiert und installiert. Da ich jetzt leider gleich weg muss kann ich
nich nochmal (400 Sekunden?) warten, denn auf jeden Fall ist es, seit
dem Update der Extension, nicht wirklich schneller geworden nach dem ich
auf "Run now" geklickt habe (nach ca 4 Minuten habe ich abgebrochen).
>
>
>> Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld
>> aufgebracht habe und danach das Crawler Log anschaue, steht in der
>> Status spalte die höchst aussagekräftige Meldung "Error: .."
>
> Wahrscheinlich ein Memoryproblem?
> Was passiert, wenn Du das Script mittels Konsole steuerst?
Memory Limit ist auf 96 MB. Da ich leider nicht selbst Admin des Servers
bin kann ich noch nicht sagen, was beim ausführen des CLI's auf der
Konsole passiert. Ich habe dem Admin den Befehl genannt, und seine
Antwort war dann, dass es sich nicht ausführen ließ, da php in /usr/bin
nicht gefunden wurde. Habe ihn gebeten, php dementsprechend zu
installieren und es erneut zu versuchen. Bleibt abzuwarten.
Danke auch für deine Konfiguration des crawlers, die sieht schlanker aus.
Viele Grüße,
Marius
More information about the TYPO3-german
mailing list