Contents

FreeTalk
2015.12.04 11:47

한글 인코딩 관련 간단 정리

조회 수 483 댓글 0
Atachment
첨부 '2'
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

한글 인코딩 관련 간단 정리

 

kr01.jpg

 

안녕하세요. NHN엔터테인먼트 정성환입니다.
그동한 문자셋과 인코딩과의 관계를 정리한 내용을 공유드립니다.궁금하신분께 많은 도움이 되었으면 좋겠습니다.


문자셋과 인코딩 방법의 관계에 대하여 명료화하자면, 문자셋(Character set)은 문자 코드 집합, 인코딩 방법은 그것을 어떻게 표현할지에 관한 것입니다. 서로 다른 개념이기는하나 인코딩 방법은 문자셋에 종속적입니다.

 

1. ksc5601과 cp949

ksc5601, cp949은 문자셋이기는하나, 각각 조금은 다른 인코딩 방법을 가지고 있습니다.
그래서 문자셋이나 인코딩 방법을 따로 구분해서 부르기 힘들고, 각각 통칭하여 EUC-KR과 cp949(혹은 EUC-KR 확장)이라고 불리웁니다.


ksc5601은 92년도에 국가에서 정의한 표준으로 2바이트를 사용하고 2,350자의 한글을 표현 가능합니다.


cp949는 윈도95에 마이크로소프트가 독자적으로 제정한 규격으로 11,172자의 한글을 표현 가능합니다. 인코딩은 확장된 euc-kr이라고 할 수 있으며 기존의 euc-kr에 추가적으로 지원하는 문자셋을 덧붙인 형태입니다.


이런 연유로 euc_kr이라고 표기되는 문자셋/인코딩이 애매하고 헷갈리게 되어버리는 겁니다. 대충 windows, linux, java, web 월드에서 정리하면 다음과 같습니다.

 

kr02.png

 

간혹가다가 html 문서에 charset=cp949 등으로 지정된 웹페이지가 있기는 한데, 이것은 엄연히 표준을 위반한 것입니다.
W3C에서는 IANA에서 공인된 문자셋만을 표준으로 하고 있는데 거기에 CP949 혹은 MS949는 포함되지 않습니다.
(그리고 자바는 왜 cp949가 ksc5601을 나타내는지 잘 모르겠습니다. -_-;; 위키에도 cp949는 ms 규격이라고 나와있는데 말이죠...)

 

2. 유니코드

유니코드는 문자셋(Character Set)인 UCS(Universal Character Set)과 그 인코딩 방법(유니코드 인코딩)들의 통칭입니다. 인코딩 방법은 흔히들 알고 있는 UTF-8, UTF-16, UTF-32 입니다.


유니코드의 한글은 우리가 알고 있던 완성형 형태의 코드와, 초성/중성/종성으로 나누어진 코드를 모두 가지고 있습니다.그리고 완성형 형태의 코드도, 초성을 z축으로, 중성을 x축으로, 종성을 y축으로 구성하여, 코드 하나에 대해 간단한 산술연산으로 초성/중성/종성으로 분리해낼 수 있습니다.


cp949는 마이크로소프트가 제맘대로 만든터라, 코드의 배열이 정말..... 제 멋대로 입니다. 이게 무슨 문제를 초래하냐면... sorting 이 엉망으로 된다는 얘기지요.. euc-kr 즉 ksc5601은 그래도 우리 어순대로 코드가 배열되어 있어서 여기에 속한 문자들은 올바르게 sorting됩니다. 그래서 모든 사람들이 cp949를 사용하던 시절에는 이러한 sorting 문제가 선배 개발자들을 괴롭혔었죠.


아까 완성형 형태의 코드와 초성/중성/종성 코드가 분리되어있다고 소개했는데, 그것 때문에 또 약간의 문제가 있습니다.그럼 한글을 표현할때 어떤 방법으로 하는가...인데요. 쉽게 말하면 완성형으로 표현할 것인가, 조합형으로 표현할 것인가...입니다.


대부분의 platform world에서는 완성형 형태의 코드를 사용합니다. 그것을 NFC라고 합니다.(개념은 복잡하고 이해할 필요는 없을 것 같아 생략하겠습니다.) 초성/중성/종성으로 구분된 코드를 조합하여 한글을 표현하는 방법을 NFD라고 하는데, 거의 맥/iOS의 파일 시스템에서만 유일하게 사용됩니다.


그래서 제대로 transcoding 해주지 않는 전송 프로그램이나 압축 프로그램을 사용하여 맥에서 윈도로 파일을 전송하는 경우 한글이 풀리는 문제가 있습니다.


여기에 보너스로 문제를 발생시키는 또 하나의 요인을 소개하자면....
BOM(Byte Order Mark)이라는 것입니다. 이것은 바이트 스트림의 특정 부분에 삽입되는 3바이트의 마크로,
이후 문서의 끝까지 혹은 다음 BOM까지는 이 유니코드 인코딩을 사용하겠다.. 라고 명시합니다.
그런데, 기본적으로 UTF-8을 사용하는 리눅스/맥에서는 이 BOM을 생략합니다. 즉, 문서 저장시 파일의 어느 부분에도 BOM이 포함되지 않습니다.


윈도는 기본적으로 유니코드로 파일을 저장할 때 BOM을 파일의 첫머리에 넣어둡니다. (explorer에서 파일에 오른쪽 버튼을 눌러 상세정보에 들어가면 BOM을 제거할 수 있는 방법이 있습니다.)
그래서 이러한 처리를 제대로 못하는 앱으로 윈도에서 저장된 유니코드 파일을 리눅스/맥에서 읽으면 역시 엉망으로 읽힙니다.


글을 쓰다보니 길어졌는데, 결론은 영어를 사용하지 않는 변방의 서러움으로 귀결되는 것 같습니다.


크로스 플랫폼 앱을 만들때 누구나 겪는 문제일텐데.... 왜냐면 또 이것 말고도 괴롭게 하는 요소들이 또 너무 많거든요... -_-;; 예를 들어 NTFS는 UTF-16으로 인코딩 하고요... zip 파일은 인코딩 표준 방법을 명시하지 않습니다. 즉, 각각 앱 혹은 OS마다 멋대로 넣어버린다는 거죠...


휴... 암튼 참고용, 혹은 스스로 참조용으로 정리해봤습니다. (언젠가는..) 도움이 되셨으면 좋겠습니다.


감사합니다.

 

[출처] http://meetup.cloud.toast.com/posts/35


?

  1. C학점을 받는 학생들이 성공하는 이유 8가지

    via tvN '응답하라 1994' 뺀질뺀질 불성실하게만 여겨졌던 C학점 학생들이 성공 확률이 높다? 학교의 주입식 교육은 학생들이 배움의 즐거움을 느끼기보다는 좋은 성적과 사회적 성공에 집착하게 만들었다. 이런 환경에서 자란 사람들은 공장에서 찍...
    Date2015.10.26 CategoryFreeTalk Byhooni Views469
    Read More
  2. 중국인의 '꽌시', 한국인의 착각

    눈에 보이는 담장을 쌓다 공공건물이든 회사건물이든 중국 건물에는 한국 건물과 다른 특징이 있습니다. 중국 건물은 가운데에 네모 모양의 공간을 만들고 그 네모 공간을 집채가 둘러싸는 형태의 구조를 하고 있습니다. 그러니까 건물을 한글 미음(□) 글자처...
    Date2016.07.08 CategoryFreeTalk Byhooni Views470
    Read More
  3. 우연히 예전에 페이스북에 썼던 글을 보면서..

    2012년 6월 26일 -- 그 날.. 자전거로 60km 가까이 달리면서 힘이 들었고.. 문득 엄마 생각이 났다. 삐삐에서 휴대전화로 넘어가던 1990년대 어느 시점.. 그 당시 공중전화는 중요한 시설(?)이었고, 전화카드는 누구에게나 필수품이었다. 엄마는 몇년 째 자전...
    Date2015.08.22 CategoryFreeTalk Byhooni Views472
    Read More
  4. SONY 1ABT. 다른 BLUETOOTH 장치와 페어링 및 연결하기

    다른 BLUETOOTH 장치와 페어링 및 연결하기페어링은 무선 연결을 위해 BLUETOOTH 장치 간에 링크를 생성하는 프로세스입니다. BLUETOOTH 연결을 처음으로 수행할 수 있으려면 장치와 헤드셋을 페어링해야 합니다. 페어링 조작을 시작하기 전에, 다음을 확인하...
    Date2016.08.03 CategoryFreeTalk Byhooni Views472
    Read More
  5. 다음카카오 법률 대리인 “뭘 사과해야 하나” 논란

    ⓒ 다음카카오 다음카카오의 법률 대리인 구태언 변호사가 페이스북에 올린 글이 인터넷 커뮤니티를 통해 확산되며 논란이 일고 있다. 지난 8일 구태언 변호사는 페이스북에 '카카오톡을 위한 변혼'이라는 제목의 글을 올리며 "뭘 사과해야 하는 건지 판사가 ...
    Date2014.10.10 CategoryFreeTalk Byhooni Views477
    Read More
  6. 불편한 진실 -지금 대한민국은

    Date2014.12.11 CategoryFreeTalk Byhooni Views477
    Read More
  7. 러시아제 60만원짜리 휴대폰

    앞면 정상적인 LCD화면, 뒷면 E-INK를 이용한 화면 취향대로 사용할수있음 가격은 원래 90만원정도 줘야하는데 루블화 똥값되서 60만원정도한다고..
    Date2015.02.24 CategoryFreeTalk Byhooni Views481
    Read More
  8. 도굴이 불가능한 조선왕릉

    도굴꾼이 관까지 가지도 못하고 파다 포기 함 ㅋㅋ 그래서 실험을 해봤더니 중장비로 깨야 할 정도로 탄탄함.
    Date2016.05.13 CategoryFreeTalk Byhooni Views482
    Read More
  9. 쩌는 과학자

    쩐다~
    Date2014.10.20 CategoryFreeTalk Byhooni Views483
    Read More
  10. 부정 불가능한 대한민국 최악의 사건

    6.25 전쟁이래 한국 최악의 대 참사.. 현대 사회를 살아가는 한국 국민들의 암울했던 흑역사.. 정부 발표 외환보유액의 5배를 족히 뛰어넘는 무려 1700억 달러라는 막대한 외채가 국민들을 절망케 한 대사건.. 하루건너 하루마다 기업이 무너지고 가정은 파탄...
    Date2014.11.12 CategoryFreeTalk Byhooni Views483
    Read More
  11. 한글 인코딩 관련 간단 정리

    한글 인코딩 관련 간단 정리 안녕하세요. NHN엔터테인먼트 정성환입니다. 그동한 문자셋과 인코딩과의 관계를 정리한 내용을 공유드립니다.궁금하신분께 많은 도움이 되었으면 좋겠습니다. 문자셋과 인코딩 방법의 관계에 대하여 명료화하자면, 문자셋(Charact...
    Date2015.12.04 CategoryFreeTalk Byhooni Views483
    Read More
  12. 포장의 아이디어

    포장에 정보와 재활용을 더해서 더욱 유용하게 만들어버림 ㅋㅋ
    Date2016.10.28 CategoryFreeTalk Byhooni Views483
    Read More
Board Pagination Prev 1 ... 9 10 11 12 13 14 15 16 17 18 ... 73 Next
/ 73