Fachkonzept - Unicode
Andere Sprachen, andere Symbole!
Jede Sprache benutzt einen bestimmten Zeichensatz, um die Wörter der Sprache darzustellen. Wechselt man, die
Sprache, so muss man gegebenenfalls spezielle Sonderzeichen
benutzen. So benutzt man im Deutschen
und Türkischen das Zeichen ö
,
im Norwegischen das Zeichen ø
und im Französischen das Zeichen œ
.
Viele Sprachen benutzen Zeichen, die sich vollkommen von denen aus unserem Standardalphabet unterscheiden.
So benutzt man im Arabischen u. a. die folgenden Zeichen:
ا,ب,ت,ث,ج,ح,خ,د,ذ,ر, ز,س,ش,ص,ض,ط,ظ,ع,غ,ف, ق,ك,ل,م,ن,ه,و,ي
Weitere Zeichen werden von speziellen Interessengruppen verwendet.
Mathematiker benutzen z. B. das Zeichen ∅
zur Darstellung der leeren Menge. Leute, die Geldbeträge beschreiben, benutzen das Zeichen €
zur Darstellung des Euros.
Will man alle diese Zeichen binär darstellen, so reichen 8 Bit (bzw. 1 Byte) zur Codierung nicht mehr aus, da man nur maximal 256 verschiedene Zeichen mit 8 Bit kodieren kann. Ein Ausweg besteht darin, mehr als 8 Bit zur Codierung zu verwenden. Überlicherweise verwendet man dann mehrere Bytes. Mit 2 Bytes lassen sich schon 216 = 65.536, mit 4 Bytes 4.294.967.296 verschiedene Zeichen kodieren. Eine solche Erweiterung der Bitlänge ermöglicht es also, sämtliche Zeichen aller (gängigen) Sprachen auf der Erde einheitlich zu kodieren.
Fachkonzept: Unicode
Unicode ist ein internationaler Standard, mit dem alle bekannten Textzeichen in einem Zeichensatz zusammengefasst werden sollen.
Ursprünglich war der Unicode als 2-Byte-Code konzipiert, so dass man insgesamt 65.536 Zeichen darstellen konnte. Inzwischen gibt es auch eine 4-Byte-Variante mit der Möglichkeit, die Codierung weiterer Zeichen zu standardisieren.
Am Beispiel des Telefonzeichens ☎
soll die Unicode-Codierung kurz erläutert werden.
Die Binärkodierung des Telefonzeichens wird durch die Hexadezimalzahl 260E
beschrieben.
Ersetzt man die einzelnen Hexadezimalziffern durch die entsprechenden Binärcodes, so ergibt
sich eine Binärkodierung 0010 0110 0000 1110
für das Zeichen ☎
.
UTF
UTF (Abkürzung für Unicode Transformation Format) ist ein Verfahren zur Abbildung von Unicode-Zeichen auf Byte-Folgen.
UTF-8 benutzt 8-Bit-Einheiten (Bytes) zur Darstellung von Zeichen des Unicode-Zeichensatzes. Je nach Zeichen kann diese Darstellung 1, 2, 3 oder 4 Bytes umfassen. UTF-8 benutzt ein ausgefeiltes Verfahren, um Texte, die auf dem lateinischen Alphabet basieren, mit möglichst wenig Bytes darzustellen. Alle Zeichen des ASCII-Zeichensatzes werden wie in der erweiterten ASCII-Code-Tabelle festgelegt kodiert und "passen" daher in ein Byte zur Darstellung (davon nur 7 Bit belegt). Umlaute und viele andere Sonderzeichen werden mit 2 Bytes kodiert. Weitere Informationen findet man im entsprechenden Wikipedia-Artikel.