[TYPO3-german] Fragen zum crawler und indexed search

Olivier Dobberkau olivier.dobberkau at dkd.de
Mon Sep 24 23:51:15 CEST 2007


Marius Shekow schrieb:

Hallo Marius,

Ich habe neulich auch ein wenig mit dem Crawler mal wieder gespielt...

Prinzipiell wird der Crawler mittels Cronjob getriggert.

Du setzt mit dem Infomodul eine Konfiguration aktiv, die dann je nach 
dem wie diese eingestellt ist abgearbeitet wird oder nicht.

Der Cronjob kann alle 5 Minuten laufen oder so. Dieser ist so was wie 
ein regelmäßiger Herzschlag, der den Crawler an Leben hält.

Einmal eingerichtet sollte das Crawlen von alleine gehen.

> Frage 1)
> Wenn ich auf InfoModule->Site Crawler->Start Crawling gehe, dann die 
> Processing Instruction auf Re-indexing (now) stelle und auf Crawl URLs 
> klicke, und danach das Log anschaue, steht folgendes in der Status 
> Spalte: ".."
> Was bedeutet das denn nun ? Fehlschlag oder Erfolg?

Bei mir steht dann hier: 35 URLs submitted. Also stimmt was mit Deiner 
Config nicht.



> Frage 2)
> Im Backend Menü (Start Crawling) kann ich das Re-indexing auf z.B. 
> "Midnight" stellen. Im Log sehe ich dann die Bestätigung, dass ein Job 
> zur Indexierung aller Seiten um Mitternacht angelegt wurde. Aber was 
> muss man tun damit das JEDEN TAG so ist?

siehe oben.

> Frage 3)
> Angenommen ich adde so einen Job für Midnight zur Queue. Wenn ich dann 
> im Dropdown Menü auf die "CLI Status" Seite wechsle und auf "Run now" 
> klicke (Anmerkung: es ist noch NICHT!!! Mitternacht zum Zeitpunkt meines 
> Mausklicks), dann läuft das Script trotzdem durch. Was natürlich 
> Schwachsinn ist, da das Script ja erst um Mitternacht aktiv werden 
> sollte --> Warum läuft das Script trotzdem?
> 

Weil Run now! Run now bedeutet....



> Frage 4)
> Wenn ich, wie in Frage 3 beschrieben, nun auf Run klicke, braucht der 
> Vorgang knapp 400 Sekunden für 12 Rows. Das ist insoweit schonmal 
> irgendwie stark verdächtig --> Vorschläge ?

Das liegt an der Keep alive Anweisung im Code.

http://wiki.typo3.org/index.php/Ext_crawler#Performance
Version aus dem SVN nutzen...

http://typo3xdev.sourceforge.net/



> Frage 5) Wenn ich auf Run now geklickt und 400 Sekunden Geduld 
> aufgebracht habe und danach das Crawler Log anschaue, steht in der 
> Status spalte die höchst aussagekräftige Meldung "Error: .."

Wahrscheinlich ein Memoryproblem?
Was passiert, wenn Du das Script mittels Konsole steuerst?


meine Konfig.

tx_crawler.crawlerCfg.paramSets {

language = &L=[|_TABLE:pages_language_overlay;_FIELD:sys_language_uid]

language.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache
language.baseUrl = http://directmail.dev/

tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:24]
tt_news.procInstrFilter = tx_indexedsearch_reindex, tx_cachemgm_recache
tt_news.pidsOnly = 23
tt_news.cHash = 1
tt_news.baseUrl = http://directmail.dev/
}

olivier


More information about the TYPO3-german mailing list