Source file: /~heha/hs/unhtml.zip/unhtml.txt

UnHTML - entfernt lästige HTML-Entities aus HTML-Dateien

Es gibt 3 gute Gründe, auf Entities wie ä usw. zu verzichten:

* HTML wird 8-bit-breit übertragen; Entities blasen den Quelltext auf
* Entities machen den Quelltext schwer leserlich
* Entities wurden in der Vergangenheit für die "Kodierung" arabischer und kyrillischer
  Zeichen missbraucht; dieses Verhalten ist leider auch in heutigen Browsern
  vorhanden und widerspricht der Idee der "aussagenden" Entities

Aber: Das Entfernen von Entities ist nur erlaubt mit der Angabe der Quelltext-Kodierung!
In der Regel:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

Das Programm arbeitet in 2 Modi (und hat keine Kommandozeilen-Hilfe):
* Pipe-Modus (ohne Kommandozeilen-Argumente):
    unhtml <infile >outfile
* Konvertier-Modus (mit Dateinamen auf Kommandozeile):
    unhtml file [file...]
  Dateien werden überschrieben!
Detected encoding: UTF-80