Юникод в .NET Framework

Статья
11/05/2008

Обновлен: Ноябрь 2007

В .NET Framework для представления знаков используется 16-разрядная кодировка Юникод UTF-16 (Unicode Transformation Format). В некоторых случаях в .NET Framework используется кодировка UTF-8.

Стандарт Юникод – это универсальная схема кодировки символов и текста. В этом стандарте каждому письменному символу во всех языках мира присваивается уникальное числовое значение, называемое кодовой точкой, и имя. Например, символ "A" представляется кодовой точкой "U+0041" и именем LATIN CAPITAL LETTER A. Возможных значений для символов – более 65000. Также предусматривается резерв для поддержки до миллиона символов. Дополнительные сведения о символах Юникод см. в описании стандарта на домашней странице Юникода.

В прошлом разнообразные языковые требования для различных культурных сред заставляли использовать различные кодировки для представления внутренних данных в приложениях. Наличие различных схем кодировки вынуждало разработчиков создавать фрагментированные кодовые базы для операционных систем и приложений, в том числе однобайтные редакции для европейских языков, двухбайтные редакции для азиатских языков и двунаправленные редакции для ближневосточных языков. Фрагментация затруднила обмен данными между культурными средами и усложнила разработку международных приложений, которые поддерживают многоязычный пользовательский интерфейс.

Схема кодировки данных Юникод упрощает разработку международных приложений, так как позволяет представлять все международные символы в единой кодировке. Разработчикам приложений больше не нужно сохранять данные о типе кодировки, которая была использована для представления символов конкретного языка, а передача данных между системами, использующими различные языки, может происходить без искажений.

Share via

Юникод в .NET Framework

См. также

Основные понятия

Другие ресурсы

Дополнительные ресурсы