Code, Coding
모든 문자는 그것이 대응하는 일정한 숫자값과 매핑해야지 컴퓨터에서 쓸 수 있다.
문자와 대응하는 각 숫자를 Code 라고 하고, 문자들을 숫자와 대응시키는 과정을 Coding 이라고 한다.
ASCII(American Standard Code for Information Interchange)
Basic Latin 이라고 불리는 첫 127개의 문자들.
유니코드 첫 127개와 같다.
Unicode
전 세계의 모든 문자를 포괄하려고 만든 Coding 규격
CCS(Coded Character Set)
U+0000 ~ U+10FFFF 까지로 32비트가 아직 다 안채워졌다.
BMP(Basic Multilingual Plane) 이 U+0000 ~ U+FFFF 까지 포괄한다.
그중 CJK(China Japan Korea) Unified Ideograph 는 U+4E00 ~ U+9FFF 이다.
CEF(Character Coding Form)
code unit 들과 character code 를 매핑 하는 방식.
char, wchar 등 컴퓨터 프로그램에서 사용하는 단위가 code uint 에 해당된다.
Multibyte Character Set 은 문자셋은 다를 수도 있는데 표현방법은 여기에 해당된다.
UTF-8, UTF-16 등 Unicode Transformation Format 이 여기에 해당된다.
8비트의 숫자의 집합으로 CCS 를 나타내느냐, 16비트의 숫자의 집합으로 CCS 를 나타내느냐 등.
CES(Character Encoding Scheme)
옥텟이라고 8비트 단위를 쓰는 HTML 파일, TXT 파일 등에 code unit 을 저장하는 방식.
CEF 가 일어난 후에 CES 가 일어나는 것이다.
보통은 별일이 없고 UTF-16 등 한번에 1바이트 이상 저장하는 경우 엔디안을 지정하는 정도로 그친다.
댓글 없음:
댓글 쓰기