[TYPO3-german] Import vorhandener News

Stephan Bäcker baeckoff at gmail.com
Thu Nov 23 11:44:17 CET 2006


Daniel Selinger schrieb:
> Hi,
> 
> wie willst Du das genau machen?
> Server- oder Clientseitig?
> Hast Du da evtl eine Software die Dein HTML parsen kann?
> 
> Gruß
> Ling
> 
> 
> 2006/11/22, Stephan Bäcker <baeckoff at gmail.com>:
>>
>> Ingo Schmitt schrieb:
>> > Hi Stephan,
>> >> Hallo,
>> >>
>> >> ich habe ca. 30000 einzelne News im HTML-Format vorliegen, die von
>> >> einem proprietären CMS stammen und nun möglichst in tt_news integriert
>> >> werden sollen. Das proprietäre CMS hat jede eingetragene News als
>> >> einzelnes HTML-File abgelegt. :-(
>> >>
>> >> Die Frage ist nun: Wie kann ich die News in die Datenbank von Typo3
>> >> importieren?
>> >>
>> >> Habe da zwei Ansätze:
>> >>
>> >> 1. Alle Files in XML-Files konvertieren und  dann über
>> >> cc_rdf_news_import + xml_ttnews_import importieren
>> >>
>> >> wie in diesem Post beschrieben:
>> >>
>> http://lists.netfielders.de/pipermail/typo3-german/2005-October/004071.html 
>>
>> >>
>> >>
>> >> 2. Wie unter Punkt 1 den reinen Text aus den HTML-Files ziehen und im
>> >> XML-Format speichern. Über XSLT ein anderes Datenformat, z.B.(X)HTML,
>> >> PDF, erzeugen. Dann über die Extensions DAM + news_dam_con die
>> >> Verbindung zwischen Typo3 und den News herstellen.
>> >>
>> >
>> > Den Text / das HTML extrahieren und direkt in die tabelle tt_news
>> kippen?
>> >
>> > ingo
>> >
>> >> Was meint Ihr? Bin ich auf dem Holzweg?
>> >>
>> >> Besten Gruß,
>> >> Stephan
>> >
>> >
>> > Mit freundlichen Gruessen
>>
>>
>> Hallo Ingo,
>>
>> so werde ich es jetzt wohl durchführen. Den Text einer alten News
>> extrahieren und direkt in die Tabelle tt_news kippen, also die News in
>> sql-Files konvertieren. Die nächste Herausforderung für uns ist das
>> Aulesen des Datums und des Zeitpunktes der Erstellung der News, um diese
>> Werte vernünftig als Timestamp in die tt_news Tabelle zu überführen.
>>
>> Besten Gruß,
>> Stephan
>> _______________________________________________
>> TYPO3-german mailing list
>> TYPO3-german at lists.netfielders.de
>> http://lists.netfielders.de/cgi-bin/mailman/listinfo/typo3-german
>>

Hallo,

wir haben vorgestern Abend verschiedene Methoden getestet, die 
statischen html-News zu parsen und sind auf diverse Probleme im Bereich 
des Encodings gestossen. In den alten News wurden viele Sonderzeichen 
verwendet. Das Aufarbeiten der Daten dauert also noch und wir müssen 
noch Einiges testen. Deshalb bitte ich noch etwas um Geduld. Wenn alles 
so läuft, wie wir uns das vorstellen, werden wir an dieser Stelle die 
Vorgehensweise + die verwendeten Tools posten.

Besten Gruß,
Stephan



More information about the TYPO3-german mailing list