[TYPO3-german] Glossar mit Autotagging

Wed Oct 29 09:52:15 CET 2008

Hallo Manfred,

ich bin der Entwickler von contagged. Ich denke prinzipiell, dass eine 
Zusammenarbeit hier sinvoll wäre. Mit einem zusätzlichen Hook könnte der 
  Parser ausgetauscht werden kann oder sogar mehrere Parser nacheinander 
aufgerufen werden (nur serverseitig).

> Allerdings hat er die Dinge, die ich brauche und gerade umsetze, in der 
> ToDo-List stehen ... ;-)

Dann werfen wir zunächst einen Blick auf die Möglichkeiten von contagged ;-)

Anforderungen und wünsche von Dir:
>     - ein einfaches Glossar bietet (Schlüsselwort, Beschreibung + optionale Daten)
Ok.
>     - die Wörter einer Seite gegen das Glossar prüft und bei Funden ein Tag einfügt
Ok.
>     - dieser Auto-Tag Mechanismus sollte folgendes können (konfigurierbar)
>         1. bestimmte HTML-Elemente nicht taggen (default: 'A')
Ok.
>         2. einstellbare CSS-Klassen auslassen (default: eigene Klasse)
Geht nicht.
>         3. nur bestimmte CSS-Klassen taggen (z.B. nur content-Container von Templates)
Geht nicht.
>         4. optional Tool-Tipps unterstützen
Geht. Beispielkonfiguration wird mitgeliefert.
>         5. das Tag ist frei konfigurierbar  (für Links oder Span-Tags)
Ok. Sehr flexibel konfigurierbar.

Anforderungen/Wünsche von Christian (Schani):
> - Gute integration in die Indexed Search Engine. Also Anker zum Begriff in einer Listendarstellung des Glossars.
Müsste über die Detailansicht funktionieren.
> - Bilder bzw besser noch FCE´s im Detail eines Eintrags
Ein Bild ist istvorgesehen. Da man aber jede Datenbanktabelle als Quelle 
heranziehen hat man alle Freiheiten.
> - Übergabe von Keywords an die page
Geht uber ein eigenes Datenbankfeld oder das Feld keywords.
> - Tags selbst konfigurierbar mit evtl. Titel Text und Bild beim over.
Ok (siehe oben).

Contagged bietet noch ein paar Sachen mehr (z.B. findet es auch mit 
Bindestrich verbundene Begriffe; außerdem können einzelne Äste oder 
Seiten des Seitenbaums aus- bzw. eingeschlossen werden).

> Und ich parse das Dokument im DOM mit JavaScript, ich will ganz sauber 
> über das DOM und nicht über den HMTL-Code noch in TYPO3 gehen. Vortei: 
> ich erwische alles, kann aber durch meinen Node- und Class-Filter 
> ungewolltes ausblenden! Gerade das, was Jochen unten im Wiki als 
> Problematik beim Parsen beschreibt, konnte ich mit meiner Methode 
> umgehen. Der Parser findet alle Texte und ihre Wörter zuverlässig, ich 
> hatte bis dato keine Ausreisser, dass irgendein Tag zerhackt worden 
> wäre, und durch das neu Taggen über das DOM ist hier auch alles sehr 
> sauber und wenig fehleranfällig. Die Hautparbeit steck wirklich im 
> JS-Parser, der hat mich echte Nerven gekostet, das Drumherum und die 
> Anbindung als Extension ist an dieser Stelle nur Beiwerk.

Das Parsen des 'fertigen' HTML-Dokuments hat den entscheidenden 
Nachteil, dass man jegliche Information über den Ursprung (z.B. Uid des 
  tt_news-Datensatzes) verliert.

Die Problematik, die ich beschreibe, betrifft die a21glossary, die eben 
mit einem Regulären Ausdruck die komplett fertige HTML-Seite parst. Ich 
bin ein Fan von Regulären Ausdrücken, aber das würde ich mir nicht 
antun, dafür einen passenden Ausdruck zu schreiben ;-)

Vielleicht können wir ja das Beste aus Deinem und meinem Ansatz vereinen.

Grüße
Jochen