2020년 9월 3일 목요일

Unicode

Code, Coding

모든 문자는 그것이 대응하는 일정한 숫자값과 매핑해야지 컴퓨터에서 쓸 수 있다.
문자와 대응하는 각 숫자를 Code 라고 하고, 문자들을 숫자와 대응시키는 과정을 Coding 이라고 한다.

ASCII(American Standard Code for Information Interchange)

Basic Latin 이라고 불리는 첫 127개의 문자들. 
유니코드 첫 127개와 같다.


Unicode

전 세계의 모든 문자를 포괄하려고 만든 Coding 규격

CCS(Coded Character Set)

U+0000 ~ U+10FFFF 까지로 32비트가 아직 다 안채워졌다. 
BMP(Basic Multilingual Plane) 이 U+0000 ~ U+FFFF 까지 포괄한다.
그중 CJK(China Japan Korea) Unified Ideograph 는 U+4E00 ~ U+9FFF 이다.

CEF(Character Coding Form)

code unit 들과 character code 를 매핑 하는 방식.
char, wchar 등 컴퓨터 프로그램에서 사용하는 단위가 code uint 에 해당된다. 
Multibyte Character Set 은 문자셋은  다를 수도 있는데 표현방법은 여기에 해당된다.
UTF-8, UTF-16 등 Unicode Transformation Format 이 여기에 해당된다.
8비트의 숫자의 집합으로 CCS 를 나타내느냐, 16비트의 숫자의 집합으로 CCS 를 나타내느냐 등.

CES(Character Encoding Scheme)

옥텟이라고 8비트 단위를 쓰는 HTML 파일, TXT 파일 등에 code unit 을 저장하는 방식.
CEF 가 일어난 후에 CES 가 일어나는 것이다.
보통은 별일이 없고 UTF-16 등 한번에 1바이트 이상 저장하는 경우 엔디안을 지정하는 정도로 그친다.


 

댓글 없음:

댓글 쓰기

List