Codificar es el proceso de transformar un conjunto de caracteres Unicode en una secuencia de bytes. La descodificación es el proceso de transformar una secuencia de bytes codificados en un conjunto de caracteres Unicode.
El estándar Unicode asigna un punto de código (un número) a cada carácter en todas las secuencias de comandos compatibles. Un Formato de transformación Unicode (UTF) es un método para codificar ese punto de código. El estándar Unicode usa los UFT siguientes:
UTF-8, que representa cada punto de código como una secuencia de uno a cuatro bytes.
UTF-16, que representa cada punto de código como una secuencia de uno a dos enteros de 16 bits.
UTF-32, que representa cada punto de código como un entero de 32 bits.
Nota: |
|---|
La codificación UTF-7 admite ciertos protocolos para los que es necesario, normalmente los protocolos de correo electrónico o de grupos de noticias. Como UTF-7 no es especialmente seguro o robusto, generalmente no se debe usar. UTF-8 se debe preferir normalmente a UTF-7. |
Para obtener más información sobre UFT y otras codificaciones que System.Text admite, vea Introducción a las codificaciones y Utilizar codificación Unicode.
El método GetByteCount determina cuántos bytes resultan de codificar un conjunto de caracteres Unicode, y el método GetBytes realiza la codificación real.
Igualmente, el método GetCharCount determina el número de caracteres resultante en la descodificación de una secuencia de bytes, y los métodos GetChars y GetString realizan la descodificación real.
UnicodeEncoding corresponde a las páginas de código de Windows 1200 (orden de bytes little-endian) y 1201 (orden de bytes big-endian).
El codificador puede usar el orden de bytes big-endian (primero el byte más significativo) o el orden de bytes little-endian (primero el byte menos significativo). Por ejemplo, la letra mayúscula latina A (punto de código U+0041) se serializa del siguiente modo (en hexadecimal):
Generalmente es más eficaz almacenar caracteres Unicode utilizando el orden de bytes nativo. Por ejemplo, es mejor usar el orden de bytes little-endian en plataformas little-endian, como los equipos Intel.
Opcionalmente, la clase UnicodeEncoding proporciona un preámbulo que es una matriz de bytes que se puede anteponer a la secuencia de bytes resultante del proceso de codificación. Si el preámbulo contiene una marca de orden de bytes (BOM), ayudará al descodificador a determinar el orden de bytes y el formato de la transformación o UTF. El método GetPreamble recupera una matriz de bytes que pueden incluir BOM. Para obtener más información sobre el orden de bytes y la marca de orden de bytes, vea The Unicode Standard en Unicode home page
Nota: |
|---|
Para habilitar la detección de errores y hacer que la instancia de clase sea más segura, debe usar en la aplicación el constructor UnicodeEncoding que toma un parámetro throwOnInvalidBytes y establecer ese parámetro en true. Con la detección de errores, un método que detecte una secuencia de caracteres o de bytes no válida produce una excepción ArgumentException. Sin la detección de errores, no se producirá excepción alguna y, por lo general, se omitirá la secuencia no válida. |