Log: Unicode

Code, Coding

모든 문자는 그것이 대응하는 일정한 숫자값과 매핑해야지 컴퓨터에서 쓸 수 있다.

문자와 대응하는 각 숫자를 Code 라고 하고, 문자들을 숫자와 대응시키는 과정을 Coding 이라고 한다.

Basic Latin 이라고 불리는 첫 127개의 문자들.

유니코드 첫 127개와 같다.

전 세계의 모든 문자를 포괄하려고 만든 Coding 규격

U+0000 ~ U+10FFFF 까지로 32비트가 아직 다 안채워졌다.

BMP(Basic Multilingual Plane) 이 U+0000 ~ U+FFFF 까지 포괄한다.

그중 CJK(China Japan Korea) Unified Ideograph 는 U+4E00 ~ U+9FFF 이다.

code unit 들과 character code 를 매핑 하는 방식.

char, wchar 등 컴퓨터 프로그램에서 사용하는 단위가 code uint 에 해당된다.

Multibyte Character Set 은 문자셋은 다를 수도 있는데 표현방법은 여기에 해당된다.

UTF-8, UTF-16 등 Unicode Transformation Format 이 여기에 해당된다.

8비트의 숫자의 집합으로 CCS 를 나타내느냐, 16비트의 숫자의 집합으로 CCS 를 나타내느냐 등.

옥텟이라고 8비트 단위를 쓰는 HTML 파일, TXT 파일 등에 code unit 을 저장하는 방식.

CEF 가 일어난 후에 CES 가 일어나는 것이다.

보통은 별일이 없고 UTF-16 등 한번에 1바이트 이상 저장하는 경우 엔디안을 지정하는 정도로 그친다.