Kategorie: Zeichen Darstellung

Unicode


Unicode im ist digitaler Kontext wird eine herkömmliche Bezeichnung für den häufig verwendeten Zeichensatz UTF-8 , UTF-16 , UTF-32 , und möglicherweise auch die ISO-10646 . Diese Zeichen hat als ein Merkmal sowohl vollständig identisch und teilweise sehr umfangreich zu sein, die die meisten von sowohl aktuellen und historischen Schreiben und auch zusätzliche Zeichen wie diejenigen , verwendet in IPA Notation Musiknotation und algebraische Notation. Heute (2015) mehr als 120.000 Zeichen abgedeckt ( ISO 2014 , Einleitung).

Unicode Herkunft

In 1993 veröffentlichte die International Standards Organization (ISO), einen Zeichensatz ISO / IEC 10646 , die eine definierte Set Universal Multiple-Oktett codierte Zeichen oft abgekürzt Universal Character Set oder UCS .

(..) UCS zielt darauf ab , einen einzigen , um (nur) codierten Zeichensatz für [digital transcription] die schriftliche Form der aller Sprachen der Welt und eine Vielzahl von anderen Symbolen , die mit diesen Sprachen in Verbindung verwendet werden. Es ist beabsichtigt , nicht nur auf die Sprache von heute, sondern auch alter Sprache und den Ergänzungen , die in Zukunft erforderlich sind. ( CEN 1999 , Ursprung und arbejder des BKS) [1]

UTF-8

Im selben Jahr erfand Ken Thompson ein Verfahren , bei dem die BKS auf der Unix – Plattform implementiert werden könnte: File System Sichere UCS Transformation Format (FSS / UTF), kurz bekannt als UTF-2 und später auf UTF-8 umbenannt. Dieses Engagement war in erster Linie praktisch, und wurde auf dem realisiert – darf nicht mehr verwendet – Plan 9 Plattform ( Kuhn 2009 , Wer UTF-8 erfunden?). Ken Thompsons Aufwand wurde teilweise auch durch das Interesse angespornt , die UCS Idee von führenden Parteien in der Computerindustrie angezogen, konzentrierte sich in der X / Open Joint Internationalisierung Gruppe mit Darstellung von beispielsweise IBM . Xerox und Apple – hatte Jahre zuvor begonnen Unicode Consortium ( Unicode 2015 ). Im Jahr 1996 veröffentlichte ISO ihre einheitliche Spezifikation von UTF-8. Ebenfalls 1996 kam RFC -2044, veröffentlicht von IEEE , beschrieb auch die UTF-8.

Organisationen Das Unicode – Konsortium und ISO (die Arbeitsgruppe JTC1 / SC2 / WG2 ), begannen ihre Aktivitäten in den späten 1980er Jahren. Es sind diese Organisationen , die UCS halten. Heute koordinierten ihre Forschungen und Veröffentlichungen Unstimmigkeiten im Unicode – Format zu vermeiden – insbesondere jede Diskrepanz zwischen dem tatsächlichen Charakter zu vermeiden , ist bedeckt gemeint.

Technische Merkmale

Grundlegender Computer nur mit binären Zahlen beschäftigen. Die Archivierung von Buchstaben und andere Zeichen kommen als Folge der Lage , einen numerischen Code zuzuschreiben. Vor Unicode war – und bis heute – es gibt Hunderte von verschiedenen Codierungssysteme die Zuordnung dieser Zeichen Zahlen finden Sie in diesem Beispiel ( KreativeKorp 2014 ). In Wirklichkeit ersetzt Unicode die große Menge an verschiedenen internationalen Standardzeichensätze auf verschiedenen Plattformen .

Im Gegensatz zu beispielsweise ASCII und ISO 8859 – Zeichensätzen, gibt es keine einfache Möglichkeit, UCS – Nummern kann mit einem einzigen Byte dargestellt werden – die 8 Bits nur 256 verschiedene Zeichen erlaubt: UCS Zahlenreihe zu präsentieren, verwenden wir mehrere Bytes; es ist eine Multi-Byte – Codierung .

UCS enthält die gesamten 31 Bits. Der Zeichensatz ist bereits in den ersten 16 Bits dargestellt wird , (2 ^ 16 = 65536) und die genannte Basis Multilingual Planen , abgekürzt als BMP. BMP wurde später auf 21 Bit erweitert, wie mehr oder weniger – die hexadezimale Notation Zahlenfolge von 0x000000 bis 0x10FFFF über 1 Million Zeichen Zahlen. Diese Reihe von Zahlen ist noch lange nicht umgesetzt ( Kuhn 2009 , Was ist UCS und ISO 10646?). Der Unicode – Standard – Zeichensatz in der BMP enthalten sind , und insbesondere die Reihe von Zahlen von 0x000000 bis 0x10FFFF, hexadezimale Notation.

UTF-8

UCS Transformation Format 8 , kurz gesagt UTF-8 ist durch ISO, IEEE und Unicode Consortium spezifiziert ( Kuhn 2009 , Was UTF-8 ist?).

  • Gemäß der Konvention ein Maximum von 4 Byte verwendet.
  • Das erste Byte einer Bytefolge entweder eigenständig oder in einer Mehr-Byte-Sequenz teilen.
  • Ein einziges Byte kleiner als 0x80, 128 in Dezimalnotation, d.h. 7 Bits. Diese Bits umfasst ASCII-Zeichen.
  • Das erste Byte in einem Mehr-Byte-Sequenz gibt die Anzahl der aufeinanderfolgenden Bytes gehört, durch die höchstwertigen Bits auf 1 gesetzt, gefolgt von 0: 2-110x xxxx Bytes (Binärdarstellung); Xxxx 3-1110 Bytes (binäre Schreibweise).
  • 10xxxx (binäre Schreibweise): Das folgende Bytes in einer Mehr-Byte-Sequenz, die beiden höchstwertigen Bits auf 1 bzw. 0 gesetzt.
andere Transformationen
  • UCS-2 und UTF-16 – zwei funktionell identische 16-Bit – Sequenzverfahren
  • UCS-4 und UTF-32 – zwei funktionell identische 32-Bit – Sequenzverfahren
  • UTF-7 – insbesondere eine nicht ausgegeben 7-Bit – Codierung mit variabler Länge.
  • UTF-EBCDIC – eine 8-Bit – Codierung mit variabler Länge , die die Kompatibilität mit EBCDIC maximiert.

Windows verwendet hauptsächlich UTF-16, während in Unix [ Bearbeiten ] und GNU / Linux – Systeme sind bis zu der einzelnen Anwendung Unicode zu handhaben – aber Linux – Kernel ist auch kompatibel mit UTF-8.

In einigen Windows – Programme, einschließlich Wort kann Unicode – Zeichen schreiben , indem Sie den Code eingeben und dann Alt + x. In GNU Schreibprogramm Vim kann in Ex – Modus wählen ‚ga‘ und das Dezimalsystem, oktal- und hexadezimale Schreibweise des Zeichens unter dem Cursor am unteren Rand des Bildschirms angezeigt wird – es enthält auch Mehrbytezeichen.

Siehe auch

Wikimedia Commons hat Medien inBezug auf:

Unicode
  • ASCII
  • ISO 8859

Externe Links

  • „X / Open“ , Computer – Desktop – Enzyklopädie , Die Computer Language Company Inc., 1981-2015
Technische Daten
  • „Unicode® 8.0.0“ , Versionen , unicode.org, 17. Juni 2015
  • „Standards“ , JTC1 / SC2 / WG2 – ISO / IEC 10646 – UCS (Website) , std.dkuug.dk
Transformations
  • F. Yergeau (November 2003), „UTF-8, eine Transformation Format der ISO 10646“ , STD 63, RFC-3629 , Internet – Standard, die Internet Society
Unicode-Schriftart
  • GNU Freefont . Eine Truetype – Schriftart für GNU / Linux , Mac OS X und Microsoft Windows hat auch phönizische Zeichen!
  • Unicode Truetype – Schriftart mit einem Schwerpunkt auf der Mittelmeerregion Schriftsprache aus der Antike, einschließlich die phönizischen Zeichen , die hier als demofont heruntergeladen werden kann: Alphabetum Unicode Schriftart

Quellen

  • „Legacy Codierungen“ , Zeichenkodierung , kreativekorp.com, 1999-2014
  • ISO / IEC JTC 1 SC2 [Ausschuss] (2014), „Informationstechnologie – Universal Character Set (UCS)“, ISO / IEC 10646: 2014 (E) , die internationale Norm ISO / IEC , kann heruntergeladen werden unter standards.iso .org öffentlich verfügbare Standards
  • „Anhang B, der universellen Charakter SET (UCS)“ , Leitfaden für die Verwendung von Zeichensatz – Standards in Europa , Comité Européen de Norma (CEN), 1999
  • Kuhn, Marcus (2009), UTF-8 und Unicode FAQ für Unix / Linux , cl.cam.ac.uk
  • History Corner , Unicode, Inc., 1991-2015

Hinweise

  1. Aufspringen^ Zitat: Der Universal – Multiple-Oktett codierte Zeichensatz, einfacher als UCS bekannt, Eis Vorgesehen zwei Provider eines einzelner codierter Zeichensatz für die Codierung der skrives Formen aller Sprachen der Welt und eine breiten Palette von zusätzliche Symbole dette kan verwendet werden Samband Solche Sprachen med. Es soll nicht nur zwei Sprachen in der aktuellen Nutzung abdecken, också Sprachen der Vergangenheit und solche Zusätze wie es in Zukunft erforderlich sein.

ISO 8859-15


8859-15 ISO ist ein Standard – 8-Bit – Zeichensatz , der auf den meisten Computern verwendet werden kann. Der Zeichensatz enthält alle ASCII – Zeichen sowie die meisten der Sonderzeichen in den westeuropäischen Sprachen sowie Änderungen verwendet anzupassen unter anderem die Einfuhren der Euro als Währung einer Reihe von EU – Ländern, in denen sie das Euro – Symbol € als Währung Zeichen bekam.

ISO 8859-15 ist Teil der ISO 8859 Norm und direkt basierend auf ISO 8859-1 .

Position 0x A4 0xA6 0xA8 0xB4 0xB8 0xBC 0xBD 0xBE
8859-1 ¤ | ¨ ¸ ¼ ½ ¾
8859-15 Š š Ž ž Œ œ Ÿ

€ waren notwendig , da der Euro eingeführt wurde. S, S, Z und Z in einigen Lehnwörtern und verwendet Übersetzung von russischen Namen zu finnischen und estnischen Stil. Œ und œ Französisch Ligaturen und Ÿ ist notwendig , auf Französisch in Zeichen , die ausschließlich in Großbuchstaben, als Wegweiser für die Stadt L’Hay-les-Roses . Obwohl Akzente (wenn auch fälschlich [1] ) häufig in Texten ausschließlich in Großbuchstaben in Französisch weggelassen, dann ein Zeichencode für Ÿ wurde nicht in ISO notwendig zu sein glaubte , 8859-1, obwohl eine Code – Ausgabe als Kleinbuchstaben erhalten hatte Y (Zeichencode 0xFF).

ISO / IEC 8859-15
x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE uF
0x nicht verwendet
1x
2x SP ! # $ % & ( ) * + . . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H Sie J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` ein b c d e f g H in j k l m n o
7x p q r p t u v w x y z { | } ~
8x nicht verwendet
9x
Beil NBSP ¡ ¢ £ ¥ Š § š © ª « ¬ SHY ® ¯
Bx ° ± ² ³ Ž μ · ž ¹ º » Œ œ Ÿ ¿
Cx À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
dx Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
ex à á â ã ä å æ ç è é ê ë ì í î ï
z.B. ð ñ ò ó ô õ ö ÷ Insel ù ú û ü ý þ ÿ

Die Werte 00-1F, 7F und 80-9F nicht in ISO 8859-15 definiert.

Referenzen

Text fehlt , helfen Sie uns , Text zu schreiben

Hinweise

  1. Aufspringen^ (auf Französisch) Akzentuierung des Majuskeln | Académie Française . Abgerufen 13. Januar 2013 . „Il convient d’Cependant beobachtbaren qu’en français, l’accent ein pleine valeur orthographique.“

ISO 8859-1

8859-1 ISO ist ein Standard – 8-Bit – Zeichensatz , der auf den meisten Computern verwendet werden kann. Der Zeichensatz enthält alle ASCII – Zeichen sowie die meisten der Sonderzeichen in den westeuropäischen Sprachen verwendet. ISO 8859-1 ist Teil der ISO 8859 Norm.

ISO / IEC 8859-1
x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE uF
0x nicht verwendet
1x
2x SP ! # $ % & ( ) * + . . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H Sie J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` ein b c d e f g H in j k l m n o
7x p q r p t u v w x y z { | } ~
8x nicht verwendet
9x
Beil NBSP ¡ ¢ £ ¤ ¥ | § ¨ © ª « ¬ SHY ® ¯
Bx ° ± ² ³ μ · ¸ ¹ º » ¼ ½ ¾ ¿
Cx À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
dx Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
ex à á â ã ä å æ ç è é ê ë ì í î ï
z.B. ð ñ ò ó ô õ ö ÷ Insel ù ú û ü ý þ ÿ

Die Werte 00-1F, 7F und 80-9F nicht in ISO 8859-1 definiert.

Integer (Computer)

Wie ganze Zahlen (auf Engelse integer ) innerhalb des Computers dargestellt werden , hängt von der Programmiersprache , Computertechnik und Computer – Zeitalter. Diese Dinge sind auch wichtig für die großen Zahlen der Computer verarbeiten kann.

Interne Darstellung

In der modernen Computern sind in der Regel als gespeicherte ganze Zahlen 2-Komplement oder eine Kette von Zeichenfolge . Dies hängt unter anderem von der Programmiersprache. In der Programmiersprache C werden gespeichert als ganzzahlige Komplement 2 Werte. Je nach Programmiersprache, wird es ein Limit, wie große und kleine Zahlen zu rechnen. In der Programmiersprache LISP gibt es keine Beschränkung auf die Größe der ganzen Zahl.

Wenn die Zahl als 2-Komplement gespeichert wurde feste Größe im Voraus zugewiesen , und dann wird die Größe auf 2 ^ 15 (-32768..32767) begrenzt werden, 2 ^ 23 (-8.388.608..8.388.607), 2 ^ 31 (-2.147.483.648..2.147.483.647), 2 ^ 63 (-9.223.372.036.854.775.808..9.223.372.036.854.775.807) oder 2 ^ 127 in Abhängigkeit von der Anzahl der Bits . In dem alten Computer ist BCD (Zahl) Darstellung verwendet.

2s ergänzen

Wenn eine Nummer gespeichert ist 2-Komplement wird mestbetydendebit Vorzeichenbit bezeichnet. Eine „1“, der die Zahl negativ ist . Wenn man 8 Bits zur Verfügung Zahlen im Bereich -128..127 darstellen kann. Unabhängig von der Anzahl der Bits in der Lage , einen negativen Wert , dessen Absolutwert darzustellen , ist größer als die entsprechenden positiven Wert.

2s-Komplement
ganze Zahl Binärwert
+17 0001.0001
+2 0000.0010
0 0000.0000
-2 1111.1110
17 1110.1111

Beispiel für die 2er – Komplement

Integer 169:

16-Bit-Computer Worte
Bit-Zahl 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
Bit-Wert 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 1

Integer -169:

16-Bit-Computer Worte
Bit-Zahl 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
Bit-Wert 1 1 1 1 1 1 1 1 0 1 0 1 0 1 1 1

Character Strengs Darstellung

Wenn die Anzahl in einer gespeicherten Zeichenkette , wobei jede Ziffer der Zahl (Basis 10) ein Zeichen in der Zeichenkette gespeichert werden . Die Zeichenkette werden einzelne Code in dem gleichen Zeichensatz sein , die, nebenbei bemerkt, auf dem Computer verwendet wird. In den Beispielen hier verwenden , um das ASCII – Alphabet.

Beispiel für Character Strengs Darstellung

Integer 169:

Byte-Zahl erste 2. dritte
ASCII „1“ „6“ „9“
Bit-Zahl 7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0
Bit-Wert 0 0 1 1 0 0 0 1 0 0 1 1 0 1 1 0 0 0 0 0 1 0 0 1

Integer -169:

Byte-Zahl erste 2. dritte 4.
ASCII „-„ „1“ „6“ „9“
Bit-Zahl 7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0
Bit-Wert 0 0 1 0 1 1 0 1 0 0 1 1 0 0 0 1 0 0 1 1 0 1 1 0 0 0 0 0 1 0 0 1

BCD – Darstellung

BCD ist eine Technik , in dem die Anzahl in einer gespeichert zehn Anzahl Systemdarstellung . Jede Ziffer füllt die 4 Bits den Bit – Werten entsprechen (0000..1001). die Bitwerte (1010..1111) nicht genutzt. Der Vorteil von BCD ist , dass es sehr einfach ist , den Wert zu lesen, aber es ist weniger wirksam bei den Berechnungen. Die Technik ist eine alte Technik , die nicht viel heute verwendet wird.

Beispiel für BCD – Darstellung

Integer 169:

nibbel Nummer (4 Bits) erste 2. dritte
numerischer Wert „1“ „6“ „9“
Bit-Zahl 3 2 1 0 3 2 1 0 3 2 1 0
Bit-Wert 0 0 0 1 0 1 1 0 1 0 0 1

Fieldata

Fieldata ist ein Zeichensatz , die von Computern auf der Hersteller verwendet werden können UNIVAC 1100 – Serie (jetzt Unisys ). Es ist speziell von nur 6 Bit pro Sekunde. unterzeichnen. UNIVAC können auch mit ASCII ohne Probleme.

Fieldata war ursprünglich ein gemeinsames Kampf Informationssystem der entwickelten US Army Signal Corps in den späten 1950er Jahren.

Univac 1100 hatte eine Wortlänge von 36 Bits, so kann es zu 6 Zeichen in Fieldata in einem Wort. ASCII verwendet (bei Univac) 9 Bits für 4 Zeichen in dem gleichen Raum.

UNIVAC 1100 Serie direkte Nachfolger, Unisys 2200 Series können auch Fieldata verwenden.

Fieldata Zeichen

Aufsichts-Bit (1) Indikator-Bits (2) Retail Bits (4) Binäre Bits (7) dezimal Octal Glyphe Name
0 00 0000 0000000 0 0 @ Master Raum
0 00 0001 0000001 1 1 [
0 00 0010 0000010 2 2 ]
0 00 0011 0000011 3 3 #
0 00 0100 0000100 4 4 Δ Delta
0 00 0101 0000101 5 5 glänzend
0 00 0110 0000110 6 6 A
0 00 0111 0000111 7 7 B
0 00 1000 0001000 8 10 C
0 00 1001 0001001 9 11 D
0 00 1010 0001010 10 12 E
0 00 1011 0001011 11 13 F
0 00 1100 0001100 12 14 G
0 00 1101 0001101 13 15 H
0 00 1110 0001110 14 16 Sie
0 00 1111 0001111 15 17 J
0 01 0000 0010000 16 20 K
0 01 0001 0010001 17 21 L
0 01 0010 0010010 18 22 M
0 01 0011 0010011 19 23 N
0 01 0100 0010100 20 24 O
0 01 0101 0010101 21 25 P
0 01 0110 0010110 22 26 Q
0 01 0111 0010111 23 27 R
0 01 1000 0011000 24 30 S
0 01 1001 0011001 25 31 T
0 01 1010 0011010 26 32 U
0 01 1011 0011011 27 33 V
0 01 1100 0011100 28 34 W
0 01 1101 0011101 29 35 X
0 01 1110 0011110 30 36 Y
0 01 1111 0011111 31 37 Z
0 10 0000 0100000 32 40 )
0 10 0001 0100001 33 41
0 10 0010 0100010 34 42 +
0 10 0011 0100011 35 43 <
0 10 0100 0100100 36 44 =
0 10 0101 0100101 37 45 >
0 10 0110 0100110 38 46 &
0 10 0111 0100111 39 47 $
0 10 1000 0101000 40 50 *
0 10 1001 0101001 41 51 (
0 10 1010 0101010 42 52  %
0 10 1011 0101011 43 53  :
0 10 1100 0101100 44 54  ?
0 10 1101 0101101 45 55  !
0 10 1110 0101110 46 56 .
0 10 1111 0101111 47 57 \
0 11 0000 0110000 48 60 0
0 11 0001 0110001 49 61 1
0 11 0010 0110010 50 62 2
0 11 0011 0110011 51 63 3
0 11 0100 0110100 52 64 4
0 11 0101 0110101 53 65 5
0 11 0110 0110110 54 66 6
0 11 0111 0110111 55 67 7
0 11 1000 0111000 56 70 8
0 11 1001 0111001 57 71 9
0 11 1010 0111010 58 72
0 11 1011 0111011 59 73  ;
0 11 1100 0111100 60 74 /
0 11 1101 0111101 61 75 .
0 11 1110 0111110 62 76 ¤ Pastille
0 11 1111 0111111 63 77 ungleich
1 00 0000 1000000 64 100 Blank / Idle
1 00 0001 1000001 65 101 Steuer Versalien
1 00 0010 1000010 66 102 Steuerung Kleinschreibung
1 00 0011 1000011 67 103 Steuerverlust
1 00 0100 1000100 68 104 Steuer Carriage Return
1 00 0101 1000101 69 105 Steuerraum
1 00 0110 1000110 70 106 ein
1 00 0111 1000111 71 107 b
1 00 1000 1001000 72 110 c
1 00 1001 1001001 73 111 d
1 00 1010 1001010 74 112 e
1 00 1011 1001011 75 113 f
1 00 1100 1001100 76 114 g
1 00 1101 1001101 77 115 H
1 00 1110 1001110 78 116 in
1 00 1111 1001111 79 117 j
1 01 0000 1010000 80 120 k
1 01 0001 1010001 81 121 l
1 01 0010 1010010 82 122 m
1 01 0011 1010011 83 123 n
1 01 0100 1010100 84 124 o
1 01 0101 1010101 85 125 p
1 01 0110 1010110 86 126 q
1 01 0111 1010111 87 127 r
1 01 1000 1011000 88 130 p
1 01 1001 1011001 89 131 t
1 01 1010 1011010 90 132 u
1 01 1011 1011011 91 133 v
1 01 1100 1011100 92 134 w
1 01 1101 1011101 93 135 x
1 01 1110 1011110 94 136 y
1 01 1111 1011111 95 137 z
1 10 0000 1100000 96 140 Wahl 0
1 10 0001 1100001 97 141 Wahl 1
1 10 0010 1100010 98 142 Wahl 2
1 10 0011 1100011 99 143 dial 3
1 10 0100 1100100 100 144 Wahl 4
1 10 0101 1100101 101 145 Wahl 5
1 10 0110 1100110 102 146 Wahl 6
1 10 0111 1100111 103 147 Dial 7
1 10 1000 1101000 104 150 Wahl 8
1 10 1001 1101001 105 151 Wahl 9
1 10 1010 1101010 106 152 Beginn des Steuerblockes
1 10 1011 1101011 107 153 Start von Block
1 10 1100 1101100 108 154 speichern
1 10 1101 1101101 109 155 speichern
1 10 1110 1101110 110 156 speichern
1 10 1111 1101111 111 157 speichern
1 11 0000 1110000 112 160 Bereit zum Senden
1 11 0001 1110001 113 161 Empfangsbereit
1 11 0010 1110010 114 162 Nicht empfangsbereit
1 11 0011 1110011 115 163 Ende Blockette
1 11 0100 1110100 116 164 Blockende
1 11 0101 1110101 117 165 End of File
1 11 0110 1110110 118 166 Ende des Steuerblockes
1 11 0111 1110111 119 167 bestätigen den Eingang
1 11 1000 1111000 120 170 Repeat
1 11 1001 1111001 121 171 speichern
1 11 1010 1111010 122 172 interpretieren Zeichen
1 11 1011 1111011 123 173 Non-B Interpretieren
1 11 1100 1111100 124 174 Steuerwort Folgt
1 11 1101 1111101 125 175 SAC
1 11 1110 1111110 126 176 Sonderzeichen
1 11 1111 1111111 127 177 löschen

EBCDIC

EBCDIC (Extended Binary Coded Decimal Interchange – Code) ist ein Zeichensatz , der von verwendet wird IBM Mainframe – Computer, und insbesondere diese Firma iSeries – Computer (früher AS / 400). Der Zeichensatz wird auch auf einigen anderen Unternehmen verwendet Computer . Es ist eine Weiterentwicklung der BCD , binär codierte Dezimalzahl, die auf verwendet Lochkarten .

Geschichte

EBCDIC wurde bei IBM entwickelt 1963 und 1964 für das Unternehmen System / 360 Computer. Es ist ein 8-Bit – Code, im Gegensatz zu ASCII , die (zunächst) ein 7-Bit – Code.

Besonderheiten EBCDIC

  • In EBCDIC-Zeichen sind nicht an einem Ort wie in ASCII, in einzelnen Blöcken zusammengesetzt.
  • Einige der Steuerzeichen sind übereinstimmend mit ASCII.
  • Die Vorzeichen der Zahlen einen größeren Zahlenwert als Buchstaben in ASCII gegenüber. Dies ist wichtig, wenn man Strings vergleichen sowohl Zahlen als auch Buchstaben enthalten.
  • Das untere Gehäuse hat einen kleineren Zahlenwert als die Großbuchstaben, auch im Gegensatz zu ASCII.

Baudotkoden

Baudotkoden ist der Code für einen Zeichensatz für gebrauchten Telex / Fernschreiber .

Der Code wird nach dem Namen Émile Baudot , die den ersten Fünf-Bit – Telex – Code entwickelt. Der Code heute verwendet wird , wird jedoch durch modifizierte Donald Murray in 1901 . Er würde die Abnutzung der Teile in einem Telex verteilt gleichmäßiger als der ursprüngliche Code tat. Der Code ist seit ein paar Mal erweitert.

Ein Code , basierend auf 5 Bits können nur für 32 verschiedene Zeichen, die für beide Buchstaben, Zahlen und verschiedene Satzzeichen zu klein ist. Daher gibt es zwei Schaltcodes, verschieben zwei Figuren und zwei Buchstaben verschieben , die die Bedeutung des nachfolgenden Zeichens ändert. Dies ermöglicht eine vollständigere Zeichensatz verwendet.

Code Tabelle

Internationale Telegraphie Alphabet Nr 2 (Murray-Baudot – Code) [1]
Muster von Impulsen
1 = 0 = Zeichen Raum
Schreiben Verschiebung Fig Verschiebung
msb links msb Recht
00000 00000 nichtig nichtig
00100 00100 Raum Raum
10111 11101 Q 1
10011 11001 W 2
00001 10000 E 3
01010 01010 R 4
10000 00001 T 5
10101 10101 Y 6
00111 11100 U 7
00110 01100 Sie 8
11000 00011 O 9
10110 01101 P 0
00011 11000 A
00101 10100 S Glocke
01001 10010 D WRU?
01101 10110 F  !
11010 01011 G &
10100 00101 H #
01011 11010 J
01111 11110 K (
10010 01001 L )
10001 10001 Z
11101 10111 X /
01110 01110 C  :
11110 01111 V  ;
11001 10011 B  ?
01100 00110 N .
11100 00111 M .
01000 00010 Wagenrücklauf Wagenrücklauf
00010 01000 Zeilenvorschub Zeilenvorschub
11011 11011 Umschalt zwei Figuren
11111 11111 Umschalt zwei Buchstaben

Hinweise

  1. Aufspringen^ dataIP Limited. Der „Baudot“ Code . Archiviert von dem ursprünglichen 26. August 2010 . Abgerufen 9. Oktober 2010 Vorlage: Uneinheitliche Zitierungen Filed 26. August 2010.

ASCII

ASCII (sprich aski ) ist ein Akronym für A merican S tandard C ode für I nformationen I nterchange (American Standard Code for Information Interchange).

ASCII ist ein Standard , [1] , die definiert eine Transformation zwischen den graphischen Zeichen (ASCII – Zeichen) und die binären Werte in der IETF RFC 20 . ASCII ist in der Lage der Anwendung , wenn der Text in graphischer Form læsbær von Menschen auf der elektronischen maschinenlesbaren Form dargestellt werden soll.

Digitale Darstellung von Text in ASCII – Form ist weit verbreitet in Computer – und Telekommunikationsindustrie, wo praktisch alle digitalen Geräte ASCII verwenden, oder eine Darstellung , die von diesem ( Unicode , ISO 8859-1 usw.).

Neben dem Grafikzeichen ASCII auch eine Reihe von Steuerzeichen, die ASCII zeugen ursprünglich entwickelt, um die Geräte zu steuern, die die Verwendung der grafischen Zeichen (zB Zeilenvorschub, Form Wagenrücklauf und zur Leitung orientierten Drucker) hergestellt.

33 definiert ASCII – Steuerzeichen und Grafikzeichen 95, insgesamt 128 Zeichen und kann somit repæsenteres binäre verwenden. Sieben Bits . Dies bietet eine Reihe von ASCII – Werten [0; 127] ( Dezimalzahl Base ) oder [00; 7F] ( hexadezimales Zahlensystem ).

Geschichte

ASCII wurde veröffentlicht 1963 von der American Standards Association (ASA) , die später wurde ANSI .

ASCII wird von vielen (in den USA) als der erfolgreichste Software-Standard jemals veröffentlicht gesehen.

RFC 20 (ASCII) von 1969 wurde den Standard der IETF IESG im Jahr 2015 [1]

Steuerzeichen

Unten ist die ASCII-Transformation für tabellarisch Steuerzeichen. Die Steuerzeichen werden durch Werte im Bereich [0, 31], oder den Wert 127 (beide in der Dezimalzahl base) repräsentiert.

binär dezimal Fluch abgekürzte Namen vollständige Namen
0000 0000 0 00 ZERO Nullzeichen
0000 0001 1 01 SOH Beginn des Headers
0000 0010 2 02 STX Textanfang
0000 0011 3 03 ETX Ende des Texts
0000 0100 4 04 EOT Ende der Übertragung
0000 0101 5 05 ENQ Anfrage
0000 0110 6 06 ACK Anerkennung
0000 0111 7 07 BEL Glocke
0000 1000 8 08 BS Rücktaste
0000 1001 9 09 HT Horizontal tab
0000 1010 10 0A LF Zeilenvorschub
0000 1011 11 0B VT vertikale Reiter
0000 1100 12 0C FF Formularvorschub
0000 1101 13 0D CR Wagenrücklauf
0000 1110 14 0E SO Shift Out
0000 1111 15 0F SI Verschiebung in
0001 0000 16 10 DLE Data Link Flucht
0001 0001 17 11 DC1 Device Control 1 – oft. XON
0001 0010 18 12 DC2 Device Control 2
0001 0011 19 13 DC3 Device Control 3 – oft. XOFF
0001 0100 20 14 DC4 Device Control 4
0001 0101 21 15 NAK negative Quittung
0001 0110 22 16 SYN synchrone Idle
0001 0111 23 17 ETB Ende Trans. Block
0001 1000 24 18 CAN stornieren
0001 1001 25 19 EM Ende des Mittels
0001 1010 26 1A SUB Ersatz
0001 1011 27 1B ESC Flucht
0001 1100 28 1C FS Die Datei Separator
0001 1101 29 1D GS Gruppe Separator
0001 1110 30 1E RS Die Bilanz Separator
0001 1111 31 1F US Einheit Separator
0111 1111 127 7F TEIL löschen

Grafiken Zeichen

Unten ist die ASCII-Transformation der graphischen Zeichen in Tabellenform. Das Grafik-Zeichen wird durch Wert im Bereich dargestellt [32; 126] (Dezimalzahl Base).

binär dezimal Fluch Zeichen
0010 0000 32 20 (Leerzeichen)
0010 0001 33 21  !
0010 0010 34 22
0010 0011 35 23 #
0010 0100 36 24 $
0010 0101 37 25  %
0010 0110 38 26 &
0010 0111 39 27
0010 1000 40 28 (
0010 1001 41 29 )
0010 1010 42 2A *
0010 1011 43 2B +
0010 1100 44 2C .
0010 1101 45 2D
0010 1110 46 2E .
0010 1111 47 2F /
0011 0000 48 30 0
0011 0001 49 31 1
0011 0010 50 32 2
0011 0011 51 33 3
0011 0100 52 34 4
0011 0101 53 35 5
0011 0110 54 36 6
0011 0111 55 37 7
0011 1000 56 38 8
0011 1001 57 39 9
0011 1010 58 3A  :
0011 1011 59 3B  ;
0011 1100 60 3C <
0011 1101 61 3D =
0011 1110 62 3E >
0011 1111 63 3F  ?
binär dezimal Fluch Zeichen
0100 0000 64 40 @
0100 0001 65 41 A
0100 0010 66 42 B
0100 0011 67 43 C
0100 0100 68 44 D
0100 0101 69 45 E
0100 0110 70 46 F
0100 0111 71 47 G
0100 1000 72 48 H
0100 1001 73 49 Sie
0100 1010 74 4A J
0100 1011 75 4B K
0100 1100 76 4C L
0100 1101 77 4D M
0100 1110 78 4E N
0100 1111 79 4F O
0101 0000 80 50 P
0101 0001 81 51 Q
0101 0010 82 52 R
0101 0011 83 53 S
0101 0100 84 54 T
0101 0101 85 55 U
0101 0110 86 56 V
0101 0111 87 57 W
0101 1000 88 58 X
0101 1001 89 59 Y
0101 1010 90 5A Z
0101 1011 91 5B [
0101 1100 92 5C \
0101 1101 93 5D ]
0101 1110 94 5E ^
0101 1111 95 5F _
binär dezimal Fluch Zeichen
0110 0000 96 60 `
0110 0001 97 61 ein
0110 0010 98 62 b
0110 0011 99 63 c
0110 0100 100 64 d
0110 0101 101 65 e
0110 0110 102 66 f
0110 0111 103 67 g
0110 1000 104 68 H
0110 1001 105 69 in
0110 1010 106 6A j
0110 1011 107 6B k
0110 1100 108 6C l
0110 1101 109 6D m
0110 1110 110 6E n
0110 1111 111 6F o
0111 0000 112 70 p
0111 0001 113 71 q
0111 0010 114 72 r
0111 0011 115 73 p
0111 0100 116 74 t
0111 0101 117 75 u
0111 0110 118 76 v
0111 0111 119 77 w
0111 1000 120 78 x
0111 1001 121 79 y
0111 1010 122 7A z
0111 1011 123 7B {
0111 1100 124 7C |
0111 1101 125 7D }
0111 1110 126 7E ~

Dänisch / norwegischen Version

Es hat eine dänische / norwegische Version von ASCII, mit den folgenden Unterschieden gewesen:

binär dezimal Fluch ASCII Dänisch
0101 1011 91 5B [ Æ
0101 1100 92 5C \ Ø
0101 1101 93 5D ] Å
0111 1011 123 7B { æ
0111 1100 124 7C | Insel
0111 1101 125 7D } å

Quellen / Referenzen

  1. ^ Nach oben springen zu:ein b 12. Januar 2015 mailarchive.ietf.org: Dokument Aktion: ASCII – Format für den Netzwerkaustausch zu Internet – Standard , datatracker.ietf.org: Korrekte Klassifizierung von RFC 20 (ASCII – Format) zum Internet – Standard

Codierung

Ein Zeichen bezieht sich auf die Technik in der digitalen Technologie verwendet, um Zeichen von unterschiedlichen Kontexten zu behandeln – typischste Sprache Kontexten.

Einführung

In der digitalen Technik sind Zeichendaten des Menschen. Die Präsentation, in gedruckter Form oder auf einem Bildschirm erfordert eine digitale Schriftart. In der Schrift, jedes Zeichen nummeriert, so dass es einfach ist , … aber es stellt sich heraus , dass es tatsächlich erstaunlich viele Beweise zu prüfen. Hier der Zeichensatz ist die Standardtechnik im Einsatz zwischen dem, was zu unterscheiden in Englisch heißt Zeichensatz – dh eine relativ große Anzahl von verschiedenen Charakteren, zum Beispiel, 256, zusammen gruppiert. Im übrigen ist es die englische Bezeichnung für die Codierverfahren Englisch : Zeichencodierung . Ein digitaler Font einen bestimmten auszuführen ausgelegt Zeichensatz oder gegebenenfalls spezifischer seinen Zeichensatz . Die technischen Richtlinien für die Verwendung eines digitalen Schrift umfassen daher Formalismus – Zeichencodierung oder Zeichensatz – die deutlich zeigt , welche Zeichen Zahlen die Schriftart enthält, und in der Tat einzigartig zeigt , welche Zeichen der Benutzer kann unter dieser Nummer (erwartet im Jahr 1985 von Adobe , p. 91).

Format

Die Buchstaben sind vielleicht die am häufigsten verwendeten Zeichen sie Buchstaben bezeichnet. Außerdem Zahlen , Ziffern bezeichnet. Die Kombination aus Buchstaben und Zahlen genannt alphanumerische Zeichen .

Es war der erste digitale Zeichensatz, der von mindestens sechs bestand aus Bits , so dass 64 Zeichen Möglichkeiten – für Buchstaben, Zahlen und andere Zeichen. Später wurde auf 7 Bit oder 128 – Varianten erhöht, so dass sowohl Groß- und Kleinbuchstaben waren möglich. Schließlich sollte auch Raum für Sonderzeichen und Symbole des jeweiligen Landes sein, wie elektronische Post alltäglich geworden ist , und erhöht sie dann auf 8 Bit oder 256 Zeichen.

Es reicht nicht aus, wenn die allen Sprachen der Welt in ein und derselben internationalen Zeichensätzen (dh integriert werden Zeichencodierung ). In Unicode sind Datenzeichenformate von bis zu den gesamten 32-Bits, während die weit verbreiteten Unicode Transformation Format-8 ( UTF-8 ) , die eine variable Anzahl von Bits hat (8,16,24,32) ( Unicode 2014 ). Unicode ist ein fortøbende und sehr lange Reihe von Zahlen auf diese Weise unter einem bestimmten umfassen Chinesisch , Japanisch , Latein und Kyrillisch Alphabete, Koptisch , Gothic , Keilschrift , Ogham und Runic Alphabet und sogar Anzeichen von einigen künstlichen Sprachen wie einfallsreiche Sprache Klingonisch.

Beispiele für Zeichensätze:

  • 6-Bit – Fieldata von Univac
  • 7-Bit- und 8-Bit – amerikanischer Standard Code for Information Interchange ( ASCII )
  • 8-Bit – EBCDIC IBM der ursprüngliche Zeichensatz
  • Unicode in verschiedenen Formaten einschließlich UTF-8 , die in einem gemeinsam ist GNU / Linux – System (Bit – Nummer: 8,16,24,32) und UTF-16 (Anzahl der Bits: 16,32) auch bekannt von Microsoft Windows .

Mehr über PC ‚einheitlichen Umgang mit digitalen Daten.

Externe Links

  • Unicode FAQ
  • ein: Liste der ISO 15924-Codes von Buchstaben-Code

Quellen

  • Adobe Systems Incorporated (1985), „9.2 – Zeichencodierung“ PostScript- Tutorial und Kochbuch (PDF) , Addison-Wesley
  • „UTF-8, UTF-16, UTF-32 & BOM“ , Unicode FAQ , Unicode inc., 2014

lossless Codierung

Lossless Codierung von Daten bedeutet , dass es Informationen sind verloren während Codierung so , daß die ursprünglichen Daten können durch eine nachfolgende ohne Modifikation gewonnen werden Decodierung .

Ein triviales Beispiel einer nicht-lossless Codierung ist das dänische Alphabet codierte mit ASCII – Zeichensatz :

„Die h oe vorhanden Rohr oe s“

Sind die Rohre oder Wurzelgemüse? Nur die erste Insel als zu lesen Insel .

Ein Beispiel für eine Codierung lossless Codierung ist UTF-8