[Typo3-german] "Massenimport" bestehender HTML-Seiten

Elmar Hinz elmar.hinz at vcd-berlin.de
Tue Nov 15 19:54:50 CET 2005


Daniel Angileri wrote:
> Hallo,
> 
> Es besteht im Moment folgendes Problem:
> Auf meiner jetzigen Filestruktur sind etwa 5000-6000 HTML-Seiten
> vorhanden. Es ist also nahezu unmöglich diese von Hand in Typo3 zu
> integrieren.
> 
> Gibt es die Möglichkeit diese weitestgehend automatisch zu importieren?
> 
> -- Daniel
> 

Ich würde versuchen mir bei so vielen Seiten gezielt ein Script 
schreiben mit etwa folgenden Stufen:

1.) Einlesen der Bestehenden Seite, z.B. mit wget
2.) Auswertung der Pfade, um die neue Seitenstruktur danach zu generieren
3.) Aufarbeitung der bestehenden Seiteninhalte mittels tidy, xml parser 
etc. um die relevanten Inhalte und Seitenüberschriften zu extrahieren.
4.) Einspielen in die richtigen Datenbankfelder.

Das Schwierigste dürfte 3.) sein. Ob und weiweit es geht, hängt da 
extrem von der Eigenheit Deiner bisherigen Seite ab. Ich denke das muss 
ziemlich maßgeschneidert sein, z.B. um die relevanten Inhalte aus dem 
Rest drumrum "auszustanzen". Je mehr Tabellen da drin sind, desto 
schwieriger.

Vermutlich hat schon mal jemand sowas geschrieben. Dann müßtest Du es 
immer noch anpassen.

Elmar


-- 
Climate change 2005: Mexico, Guatemala, New Orleans, Sahel, Bangladesh,
Spain, Portugal, Austria, Swiss, France, ...
Production of CO2 is killing people.
Production of CO2 just for fun is killing people just for fun.



More information about the TYPO3-german mailing list