eine Seite zurück  ein Kapitel zurück  zur Inhaltsübersicht  ein Kapitel vor  eine Seite vor     

Chinesisches Schriftzeichen 

 

 

 

3.2.2 Verschiedene Schriftsysteme

ASCII und andere Zeichensätze

Zur Darstellung der unterschiedlichen Schriften gibt es diverse Zeichensätze. Innerhalb eines Zeichensatzes  ist jedem Zeichen eine bestimmte Codenummer zugeordnet. Bei der Eingabe von Text sendet jede Taste die entsprechende Codenummer an den Computer. Der Standard-Zeichensatz ist ASCII (American Standard for Information Interchange), der  1965 vom ANSI (American National Standards Institute) festgelegt wurde. Die in ihm enthaltenen Zeichen sind in (fast) allen anderen Zeichensätzen identisch angeordnet. Jedes Zeichen wird durch 1 Byte repräsentiert, wobei das 8. Bit eines Bytes freigelassen wird. Ein Zeichen besteht also aus 7 Bit. Der ASCII-Zeichensatz umfasst 2 hoch 7 = 128 Zeichen (Wert 32 ist das Leerzeichen). Er enthält die lateinischen Grundbuchstaben, Zahlen und einige sonstige Zeichen, aber keine durch Sonderzeichen erweiterten Buchstaben wie Umlaute oder Akzentbuchstaben. Er ist praktisch nur für Englisch ausreichend (vgl. Singer URL). Anfang der 70er-Jahre wurden die 8-Bit-Zeichensätze (auch Code Pages genannt) mit jeweils 256 (2 hoch 8) Codeplätzen entwickelt. Darin ist jedem Zeichen ein 8-Bit-Code zugeordnet. Die ersten 128 Zeichen sind identisch mit dem ASCII-Zeichensatz. Die restlichen 128 Plätze enthalten je nach Sprache und Computersystem verschiedene Sonderzeichen. Da die Codierung für die zweite Hälfte der Zeichen von Computer zu Computer unterschiedlich war, war der Informationsaustausch sehr schwierig. Die Zeichen wurden häufig nicht richtig dargestellt. Die Internationale Organisation für Normung (ISO) begegnete diesem Problem in den 80er-Jahren mit der Serie der ISO-8859-Standards (vgl. Oebbeke URL). Der Zeichensatz für westeuropäische Sprachen ist ISO-8859-1 (auch Latin-1 genannt). ISO-8859-2 (Latin-2) deckt die meisten mittel- und osteuropäischen Sprachen ab, der Zeichensatz ISO-8859-5 enthält kyrillische Schriftzeichen, ISO-8859-6 arabische etc. Neben den ISO-8859-Standards gibt es etliche andere, häufig landesspezifische Zeichensätze (z. B. KOI8-R, der im russischen Internet bevorzugt verwendet wird) (vgl. Münz, "Zeichensätze" URL).

Crest Slogan Englisch

Die Internet Assigned Numbers Authority stellt eine Liste zur Verfügung, die die Namen aller offiziellen Zeichensätze enthält.

Crest Slogan Arabisch

Das Problem dieser Zeichensätze ist, dass es keine einheitliche Norm gibt, d. h. dass die Zeichen in den verschiedenen Code Pages durch unterschiedliche Nummern repräsentiert werden und umgekehrt derselben Codenummer verschiedene Zeichen zugeordnet sind. So steht z. B. die Codenummer 234 im Zeichensatz ISO-8859-1 für "e mit Circumflex", in ISO-8859-2 für "e mit Ogonek", in ISO-8859-5 für das kleine kyrillische Härtezeichen und im KOI8-R-Zeichensatz für das große "i kratkoe". Auch bei den verschiedenen Computersystemen ist die Anordnung der Buchstaben in den Zeichensätzen nicht einheitlich, so dass z. B. ein auf Macintosh geschriebener kyrillischer Text nicht ohne weiteres in Windows lesbar ist. Man muss ihn zu diesem Zweck erst mit Hilfe eines Konvertierungsprogramms anpassen (vgl. Singer URL).

Die Codierung der einzelnen Zeichensätze ist aus Zeichensatz-Tabellen ersichtlich.

Crest Slogan Russisch

Ein besonderes Problem bildet die Darstellung asiatischer Schriftkulturen. Sprachen wie Chinesisch, Japanisch und Koreanisch haben Zehntausende von Schriftzeichen. Eine 8-Bit-Codierung mit 256 Zeichen reicht hier nicht aus. Deshalb verwendet man in asiatischen Code Pages eine 16-Bit-Codierung (2 Byte pro Zeichen). Diese stellt 2 hoch 16 = 65.536 mögliche Zeichen zur Verfügung. Um zwischen dem westlichen Alphabet und codierten asiatischen Zeichen eine Trennlinie zu bewahren, wurde vereinbart, dass das führende (d. h. das erste) Byte in einer Zwei-Byte-Kombination nicht aus den 127 Zeichen des ASCII-Zeichensatzes stammen darf. Damit blieben noch 32.768 mögliche Kombinationen. Die wichtigsten Zeichensätze im fernöstlichen Sprachraum sind Big5 und GB für Chinesisch, EUC und Shift-JIS für Japanisch sowie KSC für Koreanisch. Der Big5-Zeichensatz enthält ca. 14.000 Zeichen (Traditionelles Chinesisch). Er wird in Taiwan, Hong Kong und anderen Ländern außerhalb Chinas verwendet. Mit der GB-Codierung werden ca. 7.000 Zeichen dargestellt (Vereinfachtes Chinesisch). Sie wird in China und Singapur angewandt. Ebenso wie bei den 8-Bit-Zeichensätzen ist auch bei den asiatischen Code Pages die Codierung nicht einheitlich, was zu einer falschen Darstellung des Textes auf dem Bildschirm führt, wenn z. B. ein im GB-Code erstelltes Dokument geöffnet wird und die Software auf die Darstellung von Big5 eingestellt ist (vgl. Weinert URL).

Asiatische Schriftzeichen

Das Problem kann teilweise durch Angabe des verwendeten Zeichensatzes am Anfang der Webseite vermieden werden. Dies geschieht mit Hilfe eines Meta-Tags im Head-Bereich der HTML-Datei. Der Meta-Tag befiehlt dem Browser, das Dokument mit der entsprechenden Codierung anzuzeigen. Der Browser wählt dann die richtige Schrift zur Anzeige aus, sofern diese auf dem Computer installiert ist. Die Auswahl der entsprechenden Schrift ist erforderlich, da die klassischen Computerschriftarten auf bestimmte Zeichensätze ausgerichtet sind und andere Schriftsysteme nicht oder nur teilweise darstellen können. Schwierig wird es, wenn Sprachen mit verschiedenen Schriftsätzen wie z. B. Chinesisch und Russisch auf derselben Seite präsentiert werden sollen. Zwar kann man den Meta-Tag auch für einzelne Elemente der Webseite eingeben, doch sind viele Browser nicht in der Lage, solche Angaben mit zwei oder noch mehr verschiedenen Zeichensätzen innerhalb eines Dokuments richtig zu interpretieren (vgl. Bokor URL).

Crest Slogan Japanisch   

Das Unicode-System

Unicode ist ein System, in dem die Zeichen aller bekannten Schriftkulturen und Zeichensysteme festgehalten werden. Es umfasst auch nichtsprachliche Zeichen wie z. B. technische und mathematische Symbole. Das gesamte System ist in Zahlenbereiche aufgeteilt, die jeweils eine bestimmte Schriftkultur oder ein Set von Sonderzeichen repräsentieren. Jedes Zeichen erhält einen Zeichenwert. Ebenso wie bei den herkömmlichen Zeichensätzen sind auch im Unicode-System die ersten 128 Codeplätze mit den ASCII-Zeichen belegt. Das Unicode-Konsortium, das 1991 gegründet wurde, entscheidet darüber, ob ein Zeichen neu aufgenommen wird und ordnet diesem einen Zeichenwert zu. Das hat den Vorteil, dass es im gesamten System für jedes Zeichen nur einen Zeichenwert gibt und keinem Zeichenwert mehrere Zeichen zugeordnet sind (vgl. Münz, "Unicode-System" URL).

Crest Slogan Bosnisch

Mit der Version 2.0 wurde das Unicode-System auch in den ISO-Standard (ISO/IEC 10646) aufgenommen. Im Gegensatz zu anderen Zeichensätzen ist in Unicode für jedes Zeichen ein Set von Eigenschaften definiert. Zu den Eigenschaften eines Zeichens gehört zum Beispiel die Schreibrichtung. Im Arabischen und im Hebräischen etwa ist die Schreibrichtung von rechts nach links (vgl. ebd.).

Tunesischer Text

Crest Slogan Hebräisch

Die Zeichen in Unicode wurden zunächst ausschließlich  mit 2 Byte codiert. Damit gab es 65.536 (2 hoch 16) verschiedene Kombinationsmöglichkeiten. Die im März 2001 erschienene Version 3.1 umfasst aber bereits 94.140 Zeichen, darunter auch Zeichen aus historischen Schriften. Das Zwei-Byte-Schema wurde deshalb von einem Vier-Byte-Schema abgelöst, wodurch sich eine Anzahl von 4.294.967.296 (2 hoch 32) Kombinationsmöglichkeiten ergibt. Die mit 2 Byte codierten Zeichen werden im Unicode-System als Basic Multilingual Plane (BMP) bezeichnet (vgl. ebd.).

Crest Slogan Koreanisch

Wie bereits erwähnt, wurden in Unicode zunächst alle Zeichen (auch diejenigen, für die eine 8-Bit-Notierung ausreichen würde) mit 16 Bit codiert. Dadurch wird Speicherplatz verschwendet, insbesondere wenn sich Dokumente auch durch eine 8-Bit-Schreibweise darstellen lassen. Aus diesem Grund wurde zu Unicode die UTF-8-Codierung entwickelt. Bei UTF-8 werden die ASCII-Zeichen (Unicodebereich 0-127) durch 1 Byte repräsentiert, Zeichen aus dem Bereich 128-2047 durch 2 Byte, der Bereich von 2048-65536 durch 3 Byte (vgl. Kieslich URL).

Crest Slogan Hindi

Die Unicode-Codierung wird bereits im Internet verwendet. Das World Wide Web Consortium (W3C) hat Unicode/UTF-8 in den Standard von HTML 4.0 aufgenommen (vgl. Oebbeke URL). Betriebssysteme, mit denen man Unicode einsetzen kann sind z. B. Windows NT, Mac OS X 10 und Linux. Geeignete Browser sind u. a. der Netscape Navigator ab Version 4, der MS Internet Explorer ab Version 4, Mozilla (vgl. Wood URL). Wenn man mit Hilfe des Meta-Tags UTF-8 als Zeichensatz für die Webseite angibt, verwendet der Browser bei der Anzeige des Dokuments diese Codierung (vgl. Kieslich URL). Da die traditionellen Computerschriftarten nicht in der Lage sind, die Zeichen sämtlicher Schriftsätze zu interpretieren, werden spezielle, Unicode-orientierte Schriftarten entwickelt. Inzwischen gibt es bereits Schriftarten, die zumindest die zwei-byte-codierten Zeichen, also den BMP-Anteil des Unicode-Systems, unterstützen (vgl. Münz, "Unicode-System" URL).

Tibetischer Text

Die einheitliche Codierung des Unicode-Systems bietet einen großen Vorteil gegenüber den herkömmlichen Zeichensätzen, vor allem, wenn eine Webseite in mehrere Sprachen mit verschiedenen Schriftsätzen übersetzt werden soll. Der Nachteil ist, dass Unicode nicht mit älteren Betriebssystemen und Anwendungsprogrammen funktioniert. Die Wahl der Codierung hängt also auch davon ab, ob es unter den Zielmärkten Länder gibt, in denen die Systemvoraussetzungen für Unicode noch nicht zum technischen Standard gehören.

 


    eine Seite zurück  ein Kapitel zurück  zur Inhaltsübersicht  ein Kapitel vor  eine Seite vor     Erstellt von Simone Fabian, Kristina Laub & Claudia dos Reis Santos, letzte Änderung im Oktober 2002.