[Typo3-german] "Massenimport" bestehender HTML-Seiten

Daniel Angileri daniel.angileri at psi.ch
Wed Nov 16 08:12:42 CET 2005


On Tue, 2005-11-15 at 19:54 +0100, Elmar Hinz wrote:
> Daniel Angileri wrote:
> > Hallo,
> > 
> > Es besteht im Moment folgendes Problem:
> > Auf meiner jetzigen Filestruktur sind etwa 5000-6000 HTML-Seiten
> > vorhanden. Es ist also nahezu unmöglich diese von Hand in Typo3 zu
> > integrieren.
> > 
> > Gibt es die Möglichkeit diese weitestgehend automatisch zu importieren?
> > 
> > -- Daniel
> > 
> 
> Ich würde versuchen mir bei so vielen Seiten gezielt ein Script 
> schreiben mit etwa folgenden Stufen:
> 
> 1.) Einlesen der Bestehenden Seite, z.B. mit wget
> 2.) Auswertung der Pfade, um die neue Seitenstruktur danach zu generieren
> 3.) Aufarbeitung der bestehenden Seiteninhalte mittels tidy, xml parser 
> etc. um die relevanten Inhalte und Seitenüberschriften zu extrahieren.
> 4.) Einspielen in die richtigen Datenbankfelder.
> 
> Das Schwierigste dürfte 3.) sein. Ob und weiweit es geht, hängt da 
> extrem von der Eigenheit Deiner bisherigen Seite ab. Ich denke das muss 
> ziemlich maßgeschneidert sein, z.B. um die relevanten Inhalte aus dem 
> Rest drumrum "auszustanzen". Je mehr Tabellen da drin sind, desto 
> schwieriger.
> 
> Vermutlich hat schon mal jemand sowas geschrieben. Dann müßtest Du es 
> immer noch anpassen.
> 
> Elmar
> 

Na dann werde ich mich mal auf die Suche begeben, oder lange Programmiernächte einlegen ;)
Der 3. Punkt ist auf jeden Fall der Schwierigste... vor allem wenn es
sich nicht ausschliesslich um HTML-Seiten handelt und wenn komplexe
Strukturen erhalten bleiben sollen.

Danke für die Hilfe

-- Daniel




More information about the TYPO3-german mailing list