[TYPO3-german] Sonderzeichen in Dateinamen erlauben - Speziell das Paragraphenzeichen "§"

Peter Linzenkirchner liste at lisardo.de
Sun Dec 29 12:53:51 CET 2013


Hallo 

Ich versuche mich zu dem Thema gerade schlau zu machen, was nicht so einfach ist, weil ich viel widersprüchliche Information dazu finde, und viele Artikel/Infos zum Thema veraltet sind. 

Gemäß RFC sind in URLs nur die druckbaren Zeichen des ASCI Zeichensatzes erlaubt: 
http://tools.ietf.org/html/rfc1738
Dieses RFC stammt von 1994 und wurde in dieser Hinsicht nicht erneuert, ich kann diesbezüglich zumindest nichts finden. Gemäß dieser RFC kann man aber trotzdem Unicode-Zeichen verwenden, wenn man sie URL-kodiert. 

Und das funktioniert heute offenbar gut, moderne Browser sind in der Lage mit solchen URIs benutzerfreundlich umzugehen. Wenn ich das hier in Safari eingebe: 
http://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EC%82%AC%EC%9A%A9%EC%9E%90_%EB%AA%A8%EC%9E%84
lande ich auf der richtigen Seite und erhalte in der URL-Zeile diese URL: 
http://ko.wikipedia.org/wiki/위키백과:사용자_모임
welche ich aus Safari in meinen Editor kopieren kann und von da aus problemlos wieder in anderen Browsern einsetzen kann. Auch in Chrome oder Firefox kann ich URLs mit Unicode-Zeichen einfach einkopieren und sie funktionieren. Im HTML-Quelltext werden die URLs kodiert verwendet. 

Der IE 11 verhält sich etwas anders, er zeigt in der URL-Zeile immer die kodierten URLs. Aber man kann trotzdem Unicode-URLs über die Zwischenablage einfügen und sie werden vom IE intern kodiert und richtig angewendet. 

Offenbar setzen die Browser die Unicode-URLs also automatisch in URL-kodierte URLs um und vice-versa, zumindest wenn diese URLs über die URL-Zeile eingegeben werden. Das vereint das gute zweier Welten: wir haben unsere zuverlässigen URLs aus druckbaren ASCI-Zeichen, sehen aber in der URL-Zeile die echten Unicode-Zeichen (nun ja, in allen ausser IE :-)). (Das kann wohl auch für Phishing missbraucht werden, aber das lasse ich jetzt mal aussen vor). 

Ergo gibt es für Dateinamen in URLs keine Beschränkung (mehr): wenn wir mit chinesischen Dateinamen klarkommen, dann funktioniert auch alles andere. Einzige Bedingung: der Link auf die Datei muss URL-kodiert werden, weil sonst ältere Browser nicht klarkommen. 

TYPO3 kann nach allem was ich weiß auch damit umgehen. Man kann im Installtool diese Einstellung machen: 

[SYS][UTF8filesystem] = 1
Boolean: If TRUE then TYPO3 uses utf-8 to store file names. This allows for accented Latin letters as well as any other non-latin characters like Cyrillic and Chinese.
Dass das nicht standardmäßig aktiviert ist, erscheint mir aktuell noch halbwegs sinnvoll, obwohl sich das bald ändern kann. Es sollte nur aktiviert werden, wenn das Betriebssystem das auch unterstützt. Nach meinen Informationen ist das unter aktuellen Linux oder UNIX-Systemen aber der Fall (unter OSX auf jeden Fall), und unter aktuellen Windows-System zumindest teilweise. Da kenne ich mich aber nicht ausreichend aus, vielleicht weiß hier jemand genauer Bescheid.  

Ich habe dazu das gefunden: http://unix.stackexchange.com/questions/38055/utf-8-filenames
Das klingt für mich plausibel. 

Meine Tests in TYPO3 (6.1) geben keine völlig konsistenten Ergebnisse, ich konnte allerdings noch nicht viel testen. Aber im Großen und Ganzen scheinen Unicode-Dateinamen zu funktionieren: 

1. ich kann im Datei-Modul  problemlos Ordner mit Umlauten anlegen, aber nicht mit Leerzeichen. Diese werden durch Unterstriche ersetzt. (Weiß jemand warum das so ist?)
2. Ich kann problemlos Bilder mit oder ohne Umlaute im Dateinamen in diese Ordner hochladen. 
3. Ich kann diese Bilder im Frontend ausgeben und im RTE direkt verlinken (als Downloadlink). 
4. naw_secureid funktioniert nicht, warum habe ich noch testen können
5. anfangs hat mein lokales Imagemagick (Vs. 6.7.2) die Bilder nicht verarbeitet, nach ein paar Minuten hat es aber geklappt, vermutlich also nur ein Cache-Problem. Das Graphicsmagick, das Mittwald grad verwendet, scheint es nicht zu können.

Mein Fazit: 
Unicode-Dateinamen funktionieren in TYPO3 6.1 prinzipiell. Ob in allen Lebenslagen, das muss sich zeigen, aber ich bin optimistisch. Diverse Tools und Extensions funktionieren (noch) nicht. 

Mein Gesamtfazit: 
Unicode-Dateinamen sind in modernen Web-Anwendungen möglich und werden zunehmend obligatorisch. Ein modernes, zukunftsorientiertes System muss sie deshalb zwingend unterstützen. TYPO3 kann es, was ich sehr gut finde. Tools, die es (noch) nicht können müssen nachbessern, oder sie gehen den Weg des Dodo. 

Gruß
Peter


Am 28.12.2013 um 22:33 schrieb Henning Nelihsen <hn at maixit.de>:

> Hallo Mike,
> 
> ich bestätige das beschriebene Problem aber nicht Deine Schlußfolgerung. Die Einschränkung ist durch die Definition von URLs * gegeben - dort darf/sollte man immer noch keine Sonderzeichen, Leerzeichen, etc verwenden.  Und in dem Fall, dass man Freigaben in der Dateiliste mit FTP „mischt“ kann das beschriebene Problem entstehen. TYPO3 hat i.d.R. kein Problem damit, wie Du das richtig beschieben hast.
> 
> Mit FAL ergeben sich neue Möglichkeiten, externe Freigaben zu integrieren - wie z.B. owncloud.
> 
> * evtl- hilft das FRC zu URLs ja in der Auseinandersetzung mit den Benutzern, die Probeme mit Dateinamen beim FTP-Upload haben. Der kleinste gemeinsame Nenner ist m.E. der Webserver und *nicht* TYPO3.
> 
> -- 
> Gruss, Henning
> 
> Am 28.12.2013 um 21:20 schrieb Mike Minyades <Mike.Minyades at gmail.com>:
> 
>> Ich richte mich nun danach, wie empfohlen, die "Anforderungen" zu ändern. Eine gute Lösung ist das allerdings nicht.
>> 
>> Selbstverständlich will/muß ein ein Nutzer (Redaktuer) heute eigentlich Dateinamen ohne solch strikte Restriktionen nutzen können.
>> 
>> In meinem Fall pflegen die User Dokumente via TYPO3 und FTP. Während beim Upload in der TYPO3-Umgebung Dateien automatisch umbenannt werden, ist beim Upload via FTP anders und diverse Sonderzeichen und Leerzeichen sind möglich. Hier beißt es sich dann und es ist den Leuten nicht mehr nahezubringen warum Dateinamen angepasst werden müssen, denn beim Rest der EDV wo die Dokumente genutzt werden, gibt es diese Probleme ohnehin nicht in der Form.
>> Der hier angemerkte "kleinste gemeinsame Nenner", nach dem man sich richten muß, ist in meinem Beispiel also erstmal TYPO3!
>> Und der Aufwand und Ärger der durch nötiges Umbenennen von Dateien entsteht, ist bei den Nutzern groß genug das dies für andauernde Kritik am System sorgt. Die User werden sich definitiv absolut nicht an Vorgaben halten und es wird zwangsläufig darauf hinauslaufen das das über kurz oder lang ein Ersatz zu TYPO3 zum Einsatz kommen wird, wenn keine Möglichkeit besteht das hier komfortabler gearbeitet werden kann.
>> 
>> Der eigentlich erwartete "gemeinsame Nenner" ist für User heutzutage eher etwas das mindestens eine Bequemlichkeit aufweist wie z.b. von iOS-Appz, Dropbox, Windows, OSX usw. gewohnt - Da arbeitet man mit, so soll es mindestens auch woanders sein.
>> 
>> Und da ich davon ausgehe, das ich nich der Einzige bin der mit so einer Situation konfrontiert ist, frage ich hier nochmals:
>> Was für sinnvolle Möglichkeiten/Lösungen gibt es, um hier entgegenkommen zu können?
>> Es muß sie ja geben - mindestens für die nahe Zukunft. Soll nicht z.B. in den neuen TYPO3-Versionen auch Cloudspeicher wie DropBox angebunden werden können? Auch hier würden sich ja vermutlich wieder Konflikte ergeben.
>> 
>> 
>> MfG
>> 
>> 
>> 
>> Am 20.12.13 14:44, schrieb Peter Linzenkirchner:
>>> Hallo Gert
>>> 
>>>>> Im internationalen Bereich gilt oft der kleinste gemeinsame Nenner. Denk mal an Domänen mit Umlauten…
>>> 
>>> Nun, es gibt sie. Insofern verstehe ich das eigentlich als Argument in meine Richtung.
>>>> 
>>>> Das ist der Kasus Knacktus, alle Linux Versionen sollen/müssen
>>>> weltweit funktionieren.
>>>> 
>>>> und da ist eine nationale Sicht sehr engstirnig.
>>> 
>>> Linux-Systeme können Unicode und auch Unicode-Dateinamen, es gibt Umlautdomains und Unicode-URLs. Funktioniert also. Wir dürfen Unicode-Dateinamen eigentlich nur deshalb nicht verwenden, weil einige häufig genutzte Tools damit nicht umgehen können. Was das mit Engstirnigkeit zu tun haben soll, erschließt sich mir nicht.
>>> 
>>>> Welcher Amerikaner kann deutsche Umlaute aufrufen oder welcher
>>>> Kanadier kann schwedische Zeichen eintippen, von Finnland, Russland,
>>>> Südamerika oder Afrika wollen wir gar nicht reden.
>>> 
>>> Ich habe eine höhere Meinung von der durchschnittlichen Intelligenz der Menschen. Das geht sogar auf Tablets ziemlich einfach. Und wer Arabisch lesen kann, kann es sicher auch eingeben.
>>> 
>>>> und darum ist es so sinnvoll : "Der kleinste gemeinsame Nenner"
>>>> und das ist und bleibt nun mal "ascii"
>>> 
>>> Das höre ich seit 20 Jahren. Aber während das System zu Zeiten der 8-Bit-Prozessoren stimmig war (Erweiterter ASCI-Zeichensatz = 8 Bit bzw. ein Prozessorzyklus), gilt das heute nicht mehr. Heute ist es in erster Linie Tradition.
>>> 
>>>> Wie sagte der Bär im Djungelbuch: Geh weg, die machen nur Ärger.
>>> 
>>> Du meinst das hier:
>>> 
>>> http://www.youtube.com/watch?v=73ctpnWJhyI
>>> 
>>> Aber ist das jetzt Selbstironie, oder weiß du nicht, wie es danach weiter geht?
>>> 
>>> http://www.youtube.com/watch?v=Ta1mzaqOp4Q
>>> 
>>> Sorry, aber Baghira hat Recht, nicht Balu :-)
>>> 
>>> Gruß
>>> Peter
>>> 
>>> --
>>> Xing: http://www.xing.com/profile/Peter_Linzenkirchner
>>> Web: http://www.typo3-lisardo.de
>>> Facebook: http://tinyurl.com/lisardo-multimedia
>>> 
>> 
>> _______________________________________________
>> TYPO3-german mailing list
>> TYPO3-german at lists.typo3.org
>> http://lists.typo3.org/cgi-bin/mailman/listinfo/typo3-german
> 
> 
> 
> _______________________________________________
> TYPO3-german mailing list
> TYPO3-german at lists.typo3.org
> http://lists.typo3.org/cgi-bin/mailman/listinfo/typo3-german

--
Xing: http://www.xing.com/profile/Peter_Linzenkirchner
Web: http://www.typo3-lisardo.de
Facebook: http://tinyurl.com/lisardo-multimedia



More information about the TYPO3-german mailing list