Тооцоолох ухаанд болсон чухал үйл явдлын нэг нь 1968 онд зохиосон ASCII 7-бит тэмдэгтийн олонлог байсан юм. Энэ олонлог нь латин цагаан толгойн тэмдэгтүүд болон бусад нийтлэг хэрэглэгддэг тэмдэгтүүдийг агуулсан 128 тэмдэгтийн кодлолын систем юм. Үүний дараахан ANSI стандартаар тэмдэгтийн тоо даруй 2 дахин нэмэгдэж Европын, Грек, Араб зэрэг тэмдэгтүүд нэмэгдсэн.
Эндээс цаашлаад нэгдсэн кодлолын систем бүтээх шаардлагатай болж олон улсын холбооноос Юникод1 системийг гаргасан. Юникод нь одоо дэлхий даяар стандарт болсон бөгөөд "ямар платформ, ямар хэл, ямар програм” ашиглаж байгаагаас үл хамаарах болсон.
Go хэл нь Юникод стандартыг бүрэн дэмжинэ. Юникод нь 2 байт (16-бит) буюу 65,536 хүртэлх ялгаатай тэмдэгтийг дүрсэлж чадна. Дараах зурагт зарим тэмдэгтийн 2 байт дүрслэлийг харуулав.
00 4B | 18 20 | 30 AB | 06 2E |
---|---|---|---|
K | ᠠ | カ | ځ |
Латин К | Монгол A | Япон Ка | Араб Кан |
Юникод тэмдэгтийн тоо өссөөр одоо 107,000 гаруй тэмдэгттэй болсон. Үүнд бүх хэлний цагаан толгойн үсгүүдээс гадна математик тэмдэгт, скрипт тэмдэгт, хөгжмийн ноот, OCR, геометр дүрсүүд зэрэг багтана. Манай монгол бичгийн үсгүүд ч мөн багтсан байдаг.
Тэмдэгтийн тоо өсөж 2 байтад багтахгүй болсон учраас тэмдэгтийн энкодлолт гэх аргаар шахаж кодлодог болсон. Өгөгдлийг хувиргах замаар бага хэмжээтэй болгон хадгалах, дамжуулах UTF-7
, UTF-8
, UTF-16
, UTF-32
зэрэг аргууд бий.
UTF-32
нь 4 байт ашиглаж кодлодог, бараг ашиглагдахгүйUTF-16
нь 2 байт ашиглаж кодлоно, багтахгүй тохиолдолд нэмэлт 2 байтыг ашигладаг.UTF-8
нь 1-4 хүртэлх байт ашиглаж тэмдэгтийг кодлодог. Хамгийн өргөн ашигладаг энкодлол юм. Интернэтэд байгаа мэдээллийн 50% -с илүү ньUTF-8
энкодлолтой байдаг.UTF-7
нь маш ховор ашиглагддаг
Go хэлний сангууд UTF-8
энкодлолыг ашигладаг. Тэмдэгт бүрийг rune
гэж нэрлэх төрлөөр тодорхойлно. Хэлний сангууд нь тэмдэгт кодлолын нарийн асуудлуудыг шийддэг учраас тэмдэгт 16 эсвэл 32 бит байх нь хөгжүүлэгчийн хувьд санаа зовох зүйл биш юм.
Текст нь компютерийн санах ойд байтуудын дараалал хэлбэрээр эх утгаараа эсвэл энкодлогдсон хэлбэрээр хадгалагддаг. Энэ байт өгөгдлийг шрифт ашиглан дэлгэцэнд дүрсэлж харуулдаг. Шрифт гэдэг нь тоон өгөгдлийг нүдэнд үзэгдэх дүрс болгон дэлгэцэнд харуулах, цаасан дээр хэвлэхэд зориулагдсан график дүрсүүдийн олонлог юм.
Юникод текстийг зөв дүрслэхийн тулд үйлдлийн систем эсвэл програм нь Юникод дэмжих шрифтийг ашиглах хэрэгтэй. Зарим програм Юникод шрифт дэмждэггүй, жишээ нь Windows-н терминал Юникод шрифт дэмждэггүй.
Go хэл нь Юникодыг бүрэн дэмжинэ. Текст боловсруулалтын хувьд ч тэр, эх кодын түвшинд ч тэр Юникод тэмдэгтүүд ашиглах боломжтой.
Эх кодын хувьд дэмжинэ гэдэг нь эх кодон дотор Юникод тэмдэгт ашиглан функц, хувьсагч, обектуудыг нэрлэх боломжтой гэсэн үг.
var данс string
var мөнгөнДүн num