[TYPO3-german] Crawler, crawled nur manchmal...

Wed Jun 10 09:17:53 CEST 2009

Tolleiv Nietsch schrieb:
> Hi,
> 
>> Hi,
>> irgendwie hat mein crawler noch nie so richtig funktioniert.
>>
>> Also der cronjob geht schonmal gar nicht.
>> Ich hab den cj über das domainfactory interface laufen, als "Direkter 
>> Scriptaufruf":
>>
>> /www/web1234.com/1234/123456/typo3conf/ext/crawler/cli/crawler_cli.phpsh
>>
> 
> aktuelle Vrsionen des Crawlers sollten per cli_dispatch also
> # typo3/cli_dispatch.phpsh crawler
> gestartet werden.
> 

/www/web1234.com/1234/123456/typo3/cli_dispatch.phpsh crawler

wenn ich diesen pfad bei den cronjobs angebe, dann bekomme ich:

Die Datei 1234/123456/typo3/cli_dispatch.phpsh crawler existiert nicht

Muss man diesen cj irgendwie anders anlegen?

>> Der cj läuft jeden abend, aber er crawled wiegesagt nichts. Und die 
>> "Letzte Ausgabe des Scriptes:" zeigt auch nichts an, keinen Fehler 
>> nichts.
>>
>> Den BE user "_cli_crawler" habe ich natürlich auch angelegt.
>>
>> Momentan habe ich 6 seiten in meinem typo3. 1 deutsch und engl. und 
>> die anderen 5 nur mit einer Sprache.
>>
>> Das ist die TSConfig der multipage:
>>
>> tx_crawler.crawlerCfg.paramSets {
>> content = &L=[|_TABLE:pages_language_overlay;_FIELD:sys_language_uid]
>> content.procInstrFilter = tx_indexedsearch_reindex, 
>> tx_indexedsearch_crawler
>> content.baseUrl = http://www.web123456.de/
>> }
>>
>>
>>
>> Und so sieht einer der Seiten aus, die nur eine Sprache besitzen:
>>
>> tx_crawler.crawlerCfg.paramSets {
>> content.procInstrFilter = tx_indexedsearch_reindex, 
>> tx_indexedsearch_crawler
>> content.baseUrl = http://www.web12345.de/
>> }
>>
> 
> Sieht schonmal beides richtig aus - die Frage ist dann ja ob die für die 
> Crawler-Queue generierten URLs richtig sind und ob der Crawler auch 
> darauf zugreifen kann.
> 

Wie könnte ich das denn testen?

>>
>> Auch wenn ich unter Info, den crawler manuell laufen lasse, dann 
>> erhalte ich einen Fehler 500.
>>
>> Nur einmal hat er bis jetzt gecrawled, aber da fehlt noch einiges.
>>
> 
> Im Crawler-Log kannst du dir mit "Show Result Log:" details anzeigen 
> lassen (btw kannst du in der Result-Log Liste auch auf die qui Klicken 
> um den Response vom Server zu erhalten.
> 
> Hast du jemals versucht den crawler von der Kommandozeile per Hand zu 
> starten? Hat das funktioniert?
> 

Ich weiss ganz ehrlich gesagt nicht wie das geht, ich habs schonmal mit 
putty versucht (falls du das meinst) aber nie hin bekommen.
Ich wäre über jede hilfe dankbar.

> Viele Grüße
> Tolleiv
> 
> 
>