Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- faecher:informatik:oberstufe:codierung:utf8:start [13.10.2021 17:24] – [Beispiele:] sbel
+++ faecher:informatik:oberstufe:codierung:utf8:start [21.09.2022 19:37] – [Beispiele:] sbel
@@ Zeile 49: / Zeile 49: @@
   * Ist die Binärdarstellung des Unicode-Codes nicht länger als ein Byte und das das erste Bit eine 0, werden die restlichen 7 Bit gemäß des ASCII Codes verwendet, die 128 verbleibenden Möglichkeiten entsprechen also genau dem ASCII-Code.
-  * Ist die Binärdarstellung des Unicode-Codes länger als ein Byte oder der Code ist ein Byte lang und beginnt mit einer ''1'' geht man wie folgt vor: Der Unicode-Code wird in 6 Bit lange Teile aufgeteilt. Für jedes dieser 6 Bit Pakete wird ein Byte zur Darstellung verwendet, jedes Byte beginnt mit '10'. Das erste Byte beginnt mit einer '1' für jedes Byte, das verwedndet wird. Benötihgt man also 3 Byte, um ein Zeichen in UTF-8 darzustellen, beginnt das erste Byte mit '111'.
+  * Ist die Binärdarstellung des Unicode-Codes länger als ein Byte oder der Code ist ein Byte lang und beginnt mit einer ''1'' geht man wie folgt vor: Der Unicode-Code wird in 6 Bit lange Teile aufgeteilt. Für jedes dieser 6 Bit Pakete wird ein Byte zur Darstellung verwendet, jedes Byte beginnt mit '10'. Das erste Byte beginnt mit einer '1' für jedes Byte, das verwendet wird. Benötigt man also 3 Byte, um ein Zeichen in UTF-8 darzustellen, beginnt das erste Byte mit '111'. Bevor die Nutzdaten beginnen, muss noch eine Null eingefügt werden ((Warum?))
 ==== Beispiele: ====
@@ Zeile 76: / Zeile 76: @@
 **(3)**
-{{ :faecher:informatik:oberstufe:codierung:utf8:cs.png?300|}}
-''乔 -> U+4E50 -> 4E50<sub>16</sub> -> 0100 1110 0101 0000<sub>2</sub>''
+{{:faecher:informatik:oberstufe:codierung:utf8:cs.png?160|}}
+''乐 -> U+4E50 -> 4E50<sub>16</sub> -> 0100 1110 0101 0000<sub>2</sub>''
   * 16 Bit Daten zu codieren, dafür braucht man 3 Byte ( 3 x 6 = 18)
-  * Der UTF-8 Code beginnt also mit der Startsequenz ''111''
+  * Der UTF-8 Code beginnt also mit der Startsequenz ''1110''
-  * Dann von rechst beginnend 6 Bit (01 000), das Byte beginnt mit 10 (Regel) also ist das dritte Byte ''1010 1000''
+  * Dann von rechts beginnend 6 Bit (01 000), das Byte beginnt mit 10 (Regel) also ist das dritte Byte ''1001 1000''
   * Die nächsten 6 Bit analog:  ''1110 01'' -> ''1011 1001''
   * Die fehlenden 4 Bit ''0100'' mit Padding + Startsequenz (''111'')ergeben das erste Byte ''1110 0100''
-Die UTF-8 Codierung des Unicode-Zeichens 乔 ist also 3 Byte lang und sieht so aus:  ''1110 0100 1011 1001 1010 0000''
+Die UTF-8 Codierung des Unicode-Zeichens 乔 ist also 3 Byte lang und sieht so aus:  ''1110 0100 1011 1001 1001 0000''
 ----
@@ Zeile 99: / Zeile 101: @@
   - ''弈=5F08<sub>16</sub>''
   - ''😊=1F60A<sub>16</sub>''
-----
+----
 ++++ Lösung 1 |
@@ Zeile 113: / Zeile 116: @@
 **0000** 10**011111** 10**011000** 10**001010**
 ++++
+----
+{{:aufgabe.png?nolink  |}}
+=== (A4) ===
+Wie viele unterschiedliche Unicode-Zeichen lassen sich theoretisch mit 1 Byte, 2 Bytes, 3 Bytes und 4 Bytes unter Beachtung der UTF-8-Regeln darstellen?
+++++ Lösung |
+  * 1 Byte: 7 nutzbare Bits -> 2<sup>7</sup> = 128 Zeichen
+  * 2 Bytes: 5+6 = 11 nutzbare Bits -> 2<sup>11</sup> = 2 048 Zeichen
+  * 3 Bytes: 4+6+6 = 16 nutzbare Bits ->  2<sup>16</sup> = 65 536 Zeichen
+  * 4 Bytes: 3+6+6+6 = 21 nutzbare Bits ->  2<sup>21</sup> = 2 097 152 Zeichen
+++++
+==== Material ====
+{{simplefilelist>.:*}}
 ----
 //CC-BY-SA Frank Schiebel, mit Material von Kimmig, ZPG Informatik BW//