Unicode

Unicode im ist digitaler Kontext wird eine herkömmliche Bezeichnung für den häufig verwendeten Zeichensatz UTF-8 , UTF-16 , UTF-32 , und möglicherweise auch die ISO-10646 . Diese Zeichen hat als ein Merkmal sowohl vollständig identisch und teilweise sehr umfangreich zu sein, die die meisten von sowohl aktuellen und historischen Schreiben und auch zusätzliche Zeichen wie diejenigen , verwendet in IPA Notation Musiknotation und algebraische Notation. Heute (2015) mehr als 120.000 Zeichen abgedeckt ( ISO 2014 , Einleitung).

Unicode Herkunft

In 1993 veröffentlichte die International Standards Organization (ISO), einen Zeichensatz ISO / IEC 10646 , die eine definierte Set Universal Multiple-Oktett codierte Zeichen oft abgekürzt Universal Character Set oder UCS .

(..) UCS zielt darauf ab , einen einzigen , um (nur) codierten Zeichensatz für [digital transcription] die schriftliche Form der aller Sprachen der Welt und eine Vielzahl von anderen Symbolen , die mit diesen Sprachen in Verbindung verwendet werden. Es ist beabsichtigt , nicht nur auf die Sprache von heute, sondern auch alter Sprache und den Ergänzungen , die in Zukunft erforderlich sind. ( CEN 1999 , Ursprung und arbejder des BKS) [1]

UTF-8

Im selben Jahr erfand Ken Thompson ein Verfahren , bei dem die BKS auf der Unix – Plattform implementiert werden könnte: File System Sichere UCS Transformation Format (FSS / UTF), kurz bekannt als UTF-2 und später auf UTF-8 umbenannt. Dieses Engagement war in erster Linie praktisch, und wurde auf dem realisiert – darf nicht mehr verwendet – Plan 9 Plattform ( Kuhn 2009 , Wer UTF-8 erfunden?). Ken Thompsons Aufwand wurde teilweise auch durch das Interesse angespornt , die UCS Idee von führenden Parteien in der Computerindustrie angezogen, konzentrierte sich in der X / Open Joint Internationalisierung Gruppe mit Darstellung von beispielsweise IBM . Xerox und Apple – hatte Jahre zuvor begonnen Unicode Consortium ( Unicode 2015 ). Im Jahr 1996 veröffentlichte ISO ihre einheitliche Spezifikation von UTF-8. Ebenfalls 1996 kam RFC -2044, veröffentlicht von IEEE , beschrieb auch die UTF-8.

Organisationen Das Unicode – Konsortium und ISO (die Arbeitsgruppe JTC1 / SC2 / WG2 ), begannen ihre Aktivitäten in den späten 1980er Jahren. Es sind diese Organisationen , die UCS halten. Heute koordinierten ihre Forschungen und Veröffentlichungen Unstimmigkeiten im Unicode – Format zu vermeiden – insbesondere jede Diskrepanz zwischen dem tatsächlichen Charakter zu vermeiden , ist bedeckt gemeint.

Technische Merkmale

Grundlegender Computer nur mit binären Zahlen beschäftigen. Die Archivierung von Buchstaben und andere Zeichen kommen als Folge der Lage , einen numerischen Code zuzuschreiben. Vor Unicode war – und bis heute – es gibt Hunderte von verschiedenen Codierungssysteme die Zuordnung dieser Zeichen Zahlen finden Sie in diesem Beispiel ( KreativeKorp 2014 ). In Wirklichkeit ersetzt Unicode die große Menge an verschiedenen internationalen Standardzeichensätze auf verschiedenen Plattformen .

Im Gegensatz zu beispielsweise ASCII und ISO 8859 – Zeichensätzen, gibt es keine einfache Möglichkeit, UCS – Nummern kann mit einem einzigen Byte dargestellt werden – die 8 Bits nur 256 verschiedene Zeichen erlaubt: UCS Zahlenreihe zu präsentieren, verwenden wir mehrere Bytes; es ist eine Multi-Byte – Codierung .

UCS enthält die gesamten 31 Bits. Der Zeichensatz ist bereits in den ersten 16 Bits dargestellt wird , (2 ^ 16 = 65536) und die genannte Basis Multilingual Planen , abgekürzt als BMP. BMP wurde später auf 21 Bit erweitert, wie mehr oder weniger – die hexadezimale Notation Zahlenfolge von 0x000000 bis 0x10FFFF über 1 Million Zeichen Zahlen. Diese Reihe von Zahlen ist noch lange nicht umgesetzt ( Kuhn 2009 , Was ist UCS und ISO 10646?). Der Unicode – Standard – Zeichensatz in der BMP enthalten sind , und insbesondere die Reihe von Zahlen von 0x000000 bis 0x10FFFF, hexadezimale Notation.

UTF-8

UCS Transformation Format 8 , kurz gesagt UTF-8 ist durch ISO, IEEE und Unicode Consortium spezifiziert ( Kuhn 2009 , Was UTF-8 ist?).

  • Gemäß der Konvention ein Maximum von 4 Byte verwendet.
  • Das erste Byte einer Bytefolge entweder eigenständig oder in einer Mehr-Byte-Sequenz teilen.
  • Ein einziges Byte kleiner als 0x80, 128 in Dezimalnotation, d.h. 7 Bits. Diese Bits umfasst ASCII-Zeichen.
  • Das erste Byte in einem Mehr-Byte-Sequenz gibt die Anzahl der aufeinanderfolgenden Bytes gehört, durch die höchstwertigen Bits auf 1 gesetzt, gefolgt von 0: 2-110x xxxx Bytes (Binärdarstellung); Xxxx 3-1110 Bytes (binäre Schreibweise).
  • 10xxxx (binäre Schreibweise): Das folgende Bytes in einer Mehr-Byte-Sequenz, die beiden höchstwertigen Bits auf 1 bzw. 0 gesetzt.
andere Transformationen
  • UCS-2 und UTF-16 – zwei funktionell identische 16-Bit – Sequenzverfahren
  • UCS-4 und UTF-32 – zwei funktionell identische 32-Bit – Sequenzverfahren
  • UTF-7 – insbesondere eine nicht ausgegeben 7-Bit – Codierung mit variabler Länge.
  • UTF-EBCDIC – eine 8-Bit – Codierung mit variabler Länge , die die Kompatibilität mit EBCDIC maximiert.

Windows verwendet hauptsächlich UTF-16, während in Unix [ Bearbeiten ] und GNU / Linux – Systeme sind bis zu der einzelnen Anwendung Unicode zu handhaben – aber Linux – Kernel ist auch kompatibel mit UTF-8.

In einigen Windows – Programme, einschließlich Wort kann Unicode – Zeichen schreiben , indem Sie den Code eingeben und dann Alt + x. In GNU Schreibprogramm Vim kann in Ex – Modus wählen ‚ga‘ und das Dezimalsystem, oktal- und hexadezimale Schreibweise des Zeichens unter dem Cursor am unteren Rand des Bildschirms angezeigt wird – es enthält auch Mehrbytezeichen.

Siehe auch

Wikimedia Commons hat Medien inBezug auf:

Unicode
  • ASCII
  • ISO 8859

Externe Links

  • „X / Open“ , Computer – Desktop – Enzyklopädie , Die Computer Language Company Inc., 1981-2015
Technische Daten
  • „Unicode® 8.0.0“ , Versionen , unicode.org, 17. Juni 2015
  • „Standards“ , JTC1 / SC2 / WG2 – ISO / IEC 10646 – UCS (Website) , std.dkuug.dk
Transformations
  • F. Yergeau (November 2003), „UTF-8, eine Transformation Format der ISO 10646“ , STD 63, RFC-3629 , Internet – Standard, die Internet Society
Unicode-Schriftart
  • GNU Freefont . Eine Truetype – Schriftart für GNU / Linux , Mac OS X und Microsoft Windows hat auch phönizische Zeichen!
  • Unicode Truetype – Schriftart mit einem Schwerpunkt auf der Mittelmeerregion Schriftsprache aus der Antike, einschließlich die phönizischen Zeichen , die hier als demofont heruntergeladen werden kann: Alphabetum Unicode Schriftart

Quellen

  • „Legacy Codierungen“ , Zeichenkodierung , kreativekorp.com, 1999-2014
  • ISO / IEC JTC 1 SC2 [Ausschuss] (2014), „Informationstechnologie – Universal Character Set (UCS)“, ISO / IEC 10646: 2014 (E) , die internationale Norm ISO / IEC , kann heruntergeladen werden unter standards.iso .org öffentlich verfügbare Standards
  • „Anhang B, der universellen Charakter SET (UCS)“ , Leitfaden für die Verwendung von Zeichensatz – Standards in Europa , Comité Européen de Norma (CEN), 1999
  • Kuhn, Marcus (2009), UTF-8 und Unicode FAQ für Unix / Linux , cl.cam.ac.uk
  • History Corner , Unicode, Inc., 1991-2015

Hinweise

  1. Aufspringen^ Zitat: Der Universal – Multiple-Oktett codierte Zeichensatz, einfacher als UCS bekannt, Eis Vorgesehen zwei Provider eines einzelner codierter Zeichensatz für die Codierung der skrives Formen aller Sprachen der Welt und eine breiten Palette von zusätzliche Symbole dette kan verwendet werden Samband Solche Sprachen med. Es soll nicht nur zwei Sprachen in der aktuellen Nutzung abdecken, också Sprachen der Vergangenheit und solche Zusätze wie es in Zukunft erforderlich sein.