|
Der Computer speichert Text in Form von Zahlen. Ein Zeichencode ordnet den einzelnen Zeichen Zahlen zu, d. h. die Zahlen des Zeichencodes werden digitalisiert, beispielsweise kann man mit dem ASCII-Code 256 Zeichen darstellen. Für viele Sprachen (z. B. Chinesisch) und für internationale Anwendungen reicht der Zeichenvorrat von ASCII nicht aus. Daher wird der Unicode-Zeichensatz benutzt.
- UTF-16: Benutzt zwei Bytes, womit 65.356 Zeichen (= 216) darstellbar sind.
- UTF-8: erweitert den ASCII-Code
Gemäß XML-Spezifikation muss ein XML-Prozessor intern Unicode verwenden. Durch die Encoding-Deklaration kann der Parser das Dokument richtig lesen und intern in Unicode übersetzen. Wird keine Encoding-Deklaration angegeben und das Dokument ist nicht UTF-8 oder UTF-16, tritt ein Fehler auf.
Die gängigsten Codes sind
- Windows-1252: Standard-Code von Windows
- ISO-8859-1: ähnlich dem Windows-1252 Code
Mit Notepad kann man unter Windows NT und ab Windows 2000 eine Textdatei auch in Unicode abspeichern.
|