[TYPO3-german] Frage zu crawler (für indexed_search)

Thomas Scholze tscholze at fh-lausitz.de
Thu Sep 20 08:43:29 CEST 2007


Peter Russ schrieb:
>> Der CLI-Aufruf ".../typo3/cli_dispatch.phpsh crawler"
>>
>> - arbeitet die queue ab
> richtig
>> - wertet die Indexing Configurations aus
> welche meinst Du damit, die TSconfig oder...
Ich meine damit die Indexkonfigurationen, welche auf Seiten als 
Inhaltselemente abgelegt werden können (Tabelle: index_config)

>> - PDFs werden "richtig" indiziert
> was ist "richtig"
Diesen Punkt streichen, hat mit der falschen Interpretation zum Cache zu 
tun.

>> Der CLI-Aufruf ".../typo3/cli_dispatch.phpsh crawler_im 10 -o exec 
>> -n=2 -d=999 -proc tx_indexedsearch_reindex"
>>
>> - egal was als "proc" angegeben ist, der crawler nimmt alles aus dem 
>> PageTS
>> - PDFs werden nicht ordentlich indiziert (wenn in nicht cachebaren 
>> content-elementen verlinkt)
> Diese Verhalten ist normal, da nur cachebare Elemente indiziert werden 
> (diese Ausssage widerspricht Deinem Fazit)
Richtig, wir haben 2 verschidene Inhaltselemente, welche Dateien 
ausliefern. Eine davon ist cacheable die andere nicht, deshalf diese 
falsche Feststellung.

>> Mein Fazit:
>> ".../typo3/cli_dispatch.phpsh crawler" jede Minute laufen lassen, 
>> damit die Queue abgearbeitet wird
> Genau so sinnvoll bei bei directmail
> 
>> a.) um die Queue zu füllen crawler_im -o queue laufen lassen (Tiefe 
>> von 999 möglich)
>> b.) auf der Seite Indexing Configurations verteilen um die Queue zu 
>> füllen, nicht cachebare Inhaltselemente werden indiziert (nur eine 
>> Tiefe von 3 möglich?
> Das indizieren von nicht cachebaren Elementen ist mir nocht nicht 
> gelungen. Es scheitern ganze Seiten, wenn sich darin nur eine Element 
> befindet, dass zwar vom Typ USER ist, aber einen cHash voraussetzt!
Richtig, nochmal zum Schluss...Kein Cache kein Index

>> ".../typo3/cli_dispatch.phpsh crawler_im -o exec"
>> verwenden wenn es mal schnell gehen soll...dumm dabei, dass sich das 
>> access.log extrem füllt
> 
> access.log vom Apache? Gibt es da nicht eine Option die Zugriffe zu 
> filtern?
Wie?
Ich habe gefiltert, dass der Server nicht in Awstats erscheint, aber für 
das access.log bisher nichts gefunden.

Für mich bleibt nun noch die Frage offen...Unter welchen Umständen wird 
in der Tabelle index_phash die Spalte freeIndexUid gefüllt (außer 0)?


> Gruss. Peter.
Viele Grüße
Thomas

PS: Ist es sinnvoll die Unterschiede zw. crawler & crawler_im im Wiki zu 
erfassen?


More information about the TYPO3-german mailing list