[TYPO3-german] crawler beschleunigen

Peter Russ peter.russ at 4many.net
Wed Jun 27 12:10:13 CEST 2007


--- Original Nachricht ---
Absender:   Andreas Otto
Datum:       27.06.2007 11:25:
> Hallo Peter,
> 
> Peter Russ wrote:
>> danke, das war es. Bei uns wird nun deutlich schneller gecrawlt.
>> Allerdings müssen wir den Timeout parametrisierbar machen. Gerade bei
>> externen Dokumenten stoßen wir schnell ans Timeout bei 2 s. Umfangreiche
>> Dokumente verlangen hier m.E. eine flexibele Einstellmöglichkeit.
> 
> Die Methode requestUrl($url, $crawlerId, $timeout=2) selbst kann mit der
> Variablen $timeout aufgerufen werden, 2 Sekunden ist der Standard-Wert wenn
> nichts gesetzt wurde.
> 
> In Zeile 721 wird die Methode mit $this->requestUrl($parameters['url']
> $crawlerId) aufgerufen. Also ohne Angabe eines Timeouts.
> 
> Prüfe doch mal wie sich der Crawler verhält wenn Du in Zeile 742 die Angabe
> des Timeouts weglässt:
> 
> $fp = fsockopen ($url['host'], ($url['port'] > 0 ? $url['port'] : 80),
> $errno, $errstr);
> 
> Vielleicht kannst Du mal ein paar Vorschläge in Form von Patches machen, wie
> man das ändern könnte. Soweit ich weiss, ist Kapser der Maintainer der
> Crawler Extension.
> 
> 
> Liebe Grüße,
> Andreas
  Bevor der Patch kommt:
Haben das über einen Parameter in ext_conf_template.txt gelöst und 
anstatt der 2 Sekunden in der function requestUrl diese mit -1 
vorbelegt, als Zeichen den Conf-Wert zu lesen. Es könnte ja sein, dass 
die Funktion von anderer Stelle mit einem Parameter aufgerufen wird, den 
wir nicht beeinflussen wollen.
Als maximal Wert lassen wir 3600 s zu, da das der maximale Wert für den 
Crawler ist.

Pretty straight.

Regs. Peter

-- 
Fiat lux!
Docendo discimus.
_____________________________
4Many® Services
XING: http://www.xing.com/go/invuid/Peter_Russ


More information about the TYPO3-german mailing list