UnicodeCategory 열거형은 IsUpper(Char)와 같은 Char 메서드를 지원하는 데 사용됩니다. 이러한 메서드는 지정된 문자가 특정 유니코드 일반 범주의 멤버인지 여부를 확인합니다. 유니코드 일반 범주는 광범위한 문자 분류를 정의합니다. 즉 형식이 문자, 숫자, 구분 기호, 수학 기호, 문장 부호 등인지를 지정합니다.
이 열거형은 The Unicode Standard, Version 5.0에 기반합니다. 자세한 내용은 Unicode Character Database의 "UCD File Format" 및 "General Category Values" 하위 항목을 참조하십시오.
유니코드 표준은 다음을 정의합니다.
서로게이트 쌍은 두 코드 단위의 시퀀스를 구성하는 단일 추상 문자에 대한 코드 문자 표현입니다. 이 시퀀스에서 쌍의 첫째 단위는 high surrogate이며 둘째 단위는 low surrogate입니다. high surrogate는 U+D800부터 U+DBFF까지의 범위에 있는 유니코드 코드 포인트이고 low surrogate는 U+DC00부터 U+DFFF까지의 범위에 있는 유니코드 코드 포인트입니다.
문자 시퀀스의 조합은 기본 문자와 하나 이상의 조합 문자의 조합입니다. 서로게이트 쌍은 기본 문자나 조합 문자를 나타냅니다. 조합 문자는 간격이 있거나 없을 수 있습니다. 간격이 있는 조합 문자는 렌더링될 때 자체적으로 간격 위치를 차지하지만 간격이 없는 조합 문자는 그렇지 않습니다. 분음 부호는 간격이 없는 조합 문자의 예입니다.
한정자 문자는 조합 문자처럼 이전 문자를 제한하는 간격이 자유로운 문자입니다.
묶기 표시는 기본 문자를 포함한 모든 이전 문자를 둘러싸는 간격이 없는 조합 문자입니다.
서식 문자는 대개 렌더링되지 않고 텍스트 레이아웃이나 텍스트 처리 작업에 영향을 주는 문자입니다.
유니코드 표준은 몇 가지 문장 부호에 대한 다양한 변형을 정의합니다. 예를 들어, U+002D, U+00AD, U+2010, U+2011 등의 하이픈을 나타내는 여러 코드 값 중 하나가 하이픈이 될 수 있습니다. 대시, 공백 문자, 물음표의 경우에도 마찬가지입니다.
또한 유니코드 표준은 특정 스크립트나 언어에 관련된 10진수 표현(예: U+0030 및 U+0660)에 코드를 할당합니다.