[Typo3-german] "Massenimport" bestehender HTML-Seiten
Daniel Angileri
daniel.angileri at psi.ch
Wed Nov 16 08:12:42 CET 2005
On Tue, 2005-11-15 at 19:54 +0100, Elmar Hinz wrote:
> Daniel Angileri wrote:
> > Hallo,
> >
> > Es besteht im Moment folgendes Problem:
> > Auf meiner jetzigen Filestruktur sind etwa 5000-6000 HTML-Seiten
> > vorhanden. Es ist also nahezu unmöglich diese von Hand in Typo3 zu
> > integrieren.
> >
> > Gibt es die Möglichkeit diese weitestgehend automatisch zu importieren?
> >
> > -- Daniel
> >
>
> Ich würde versuchen mir bei so vielen Seiten gezielt ein Script
> schreiben mit etwa folgenden Stufen:
>
> 1.) Einlesen der Bestehenden Seite, z.B. mit wget
> 2.) Auswertung der Pfade, um die neue Seitenstruktur danach zu generieren
> 3.) Aufarbeitung der bestehenden Seiteninhalte mittels tidy, xml parser
> etc. um die relevanten Inhalte und Seitenüberschriften zu extrahieren.
> 4.) Einspielen in die richtigen Datenbankfelder.
>
> Das Schwierigste dürfte 3.) sein. Ob und weiweit es geht, hängt da
> extrem von der Eigenheit Deiner bisherigen Seite ab. Ich denke das muss
> ziemlich maßgeschneidert sein, z.B. um die relevanten Inhalte aus dem
> Rest drumrum "auszustanzen". Je mehr Tabellen da drin sind, desto
> schwieriger.
>
> Vermutlich hat schon mal jemand sowas geschrieben. Dann müßtest Du es
> immer noch anpassen.
>
> Elmar
>
Na dann werde ich mich mal auf die Suche begeben, oder lange Programmiernächte einlegen ;)
Der 3. Punkt ist auf jeden Fall der Schwierigste... vor allem wenn es
sich nicht ausschliesslich um HTML-Seiten handelt und wenn komplexe
Strukturen erhalten bleiben sollen.
Danke für die Hilfe
-- Daniel
More information about the TYPO3-german
mailing list