[TYPO3-german] crawler beschleunigen
Peter Russ
peter.russ at 4many.net
Wed Jun 27 12:10:13 CEST 2007
--- Original Nachricht ---
Absender: Andreas Otto
Datum: 27.06.2007 11:25:
> Hallo Peter,
>
> Peter Russ wrote:
>> danke, das war es. Bei uns wird nun deutlich schneller gecrawlt.
>> Allerdings müssen wir den Timeout parametrisierbar machen. Gerade bei
>> externen Dokumenten stoßen wir schnell ans Timeout bei 2 s. Umfangreiche
>> Dokumente verlangen hier m.E. eine flexibele Einstellmöglichkeit.
>
> Die Methode requestUrl($url, $crawlerId, $timeout=2) selbst kann mit der
> Variablen $timeout aufgerufen werden, 2 Sekunden ist der Standard-Wert wenn
> nichts gesetzt wurde.
>
> In Zeile 721 wird die Methode mit $this->requestUrl($parameters['url']
> $crawlerId) aufgerufen. Also ohne Angabe eines Timeouts.
>
> Prüfe doch mal wie sich der Crawler verhält wenn Du in Zeile 742 die Angabe
> des Timeouts weglässt:
>
> $fp = fsockopen ($url['host'], ($url['port'] > 0 ? $url['port'] : 80),
> $errno, $errstr);
>
> Vielleicht kannst Du mal ein paar Vorschläge in Form von Patches machen, wie
> man das ändern könnte. Soweit ich weiss, ist Kapser der Maintainer der
> Crawler Extension.
>
>
> Liebe Grüße,
> Andreas
Bevor der Patch kommt:
Haben das über einen Parameter in ext_conf_template.txt gelöst und
anstatt der 2 Sekunden in der function requestUrl diese mit -1
vorbelegt, als Zeichen den Conf-Wert zu lesen. Es könnte ja sein, dass
die Funktion von anderer Stelle mit einem Parameter aufgerufen wird, den
wir nicht beeinflussen wollen.
Als maximal Wert lassen wir 3600 s zu, da das der maximale Wert für den
Crawler ist.
Pretty straight.
Regs. Peter
--
Fiat lux!
Docendo discimus.
_____________________________
4Many® Services
XING: http://www.xing.com/go/invuid/Peter_Russ
More information about the TYPO3-german
mailing list