UTF
UTF-8 / UTF-16
UTF는 유니코드 문자를 인코딩하기 위한 방식이다.
그럼 유니코드란 무엇일까?
유니코드는 컴퓨터에게 사람이 사용하는 자연어를 이진수로 바꿔주기 위해 사용되는 표준 코드이다.
UTF도 여러 종류가 있지만, 그 중 가장 많이 쓰이는 건 UTF-8과 UTF-16이다.
뒤의 숫자는 각각 코드의 단위이다.
UTF-8
UTF-8은 8비트 단위의 인코딩 방식이다.
1 ~ 6 바이트까지의 문자를 처리할 수 있지만, 일반적인 문자들은 대부분 4바이트 내에서 처리가 된다.
영문은 1바이트, 한글은 3바이트를 사용한다.
각 문자들은 매핑되어 있는 숫자에 대응된다.
UTF-16
UTF-16은 16비트 단위의 인코딩 방식이다.
보통 한 문자를 나타내는데 2~4바이트의 범위를 사용한다.
영문과 한글 모두 2바이트를 사용한다.