UnHTML - entfernt lästige HTML-Entities aus HTML-Dateien
Es gibt 3 gute Gründe, auf Entities wie ä usw. zu verzichten:
* HTML wird 8-bit-breit übertragen; Entities blasen den Quelltext auf
* Entities machen den Quelltext schwer leserlich
* Entities wurden in der Vergangenheit für die "Kodierung" arabischer und kyrillischer
Zeichen missbraucht; dieses Verhalten ist leider auch in heutigen Browsern
vorhanden und widerspricht der Idee der "aussagenden" Entities
Aber: Das Entfernen von Entities ist nur erlaubt mit der Angabe der Quelltext-Kodierung!
In der Regel:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
Das Programm arbeitet in 2 Modi (und hat keine Kommandozeilen-Hilfe):
* Pipe-Modus (ohne Kommandozeilen-Argumente):
unhtml <infile >outfile
* Konvertier-Modus (mit Dateinamen auf Kommandozeile):
unhtml file [file...]
Dateien werden überschrieben!
Vorgefundene Kodierung: UTF-8 | 0
|