Red de conocimientos sobre prescripción popular - Cuidado de la salud en otoño - Hay una pregunta sobre los conjuntos de caracteres. ¿Qué es Unicode y qué es UTF-8?

Hay una pregunta sobre los conjuntos de caracteres. ¿Qué es Unicode y qué es UTF-8?

Unicode es un (juego de caracteres codificados. n) que corresponde a la tabla de fuentes del juego de caracteres codificados Unicode.

El código Unicode corresponde a un carácter en la tabla de fuentes Unicode. Se puede decir que la codificación Unicode es el número de un carácter en la tabla de fuentes Unicode.

(Codificación Unicode. n) es un número binario.

Para incluir todos los caracteres del mundo, Unicode adopta la regla de que varios bytes representan un carácter de ocho bits. Un bit puede tener dos estados, 0 y 1, y un byte puede tener 256 estados. Estado, n bytes pueden tener 256 estados, cada estado corresponde a un número binario, por lo que los bytes múltiples pueden representar más caracteres, lo que hace que la tabla de fuentes sea más grande.

UTF-8 es un esquema de codificación de caracteres que codifica Unicode (es decir, codifica números binarios). El esquema de codificación de caracteres asigna un número binario a una secuencia de bytes.

¿Por qué volver a codificar Unicode? Debido a que Unicode tiene una longitud fija (carácter codificado. n), el problema causado por este método es:

Supongamos que el valor binario 00000001 es el código del carácter A, que se puede almacenar en la computadora con solo un byte. Sin embargo, debido a que la longitud de Unicode se fija en cuatro bytes, el código de A se convierte en 00000000000000000000000000000000000000000000000000000000000000 8 bytes en la computadora. Como resultado,

Por lo tanto, para utilizar las tablas de fuentes grandes de Unicode y las fuentes grandes. mesas y Para ahorrar espacio de almacenamiento, es necesario volver a codificar Unicode y se basa en (contenido de codificación Unicode. n) -UTF-8 es un esquema de codificación de caracteres de longitud variable de (codificación Unicode). norte).

El esquema de codificación de caracteres UTF-8 determina cómo se almacena (codificación Unicode.n) en la computadora.

(Codificación Unicode. n) también se puede considerar como un nuevo número binario codificado mediante el esquema de codificación de caracteres UTF-8 (el valor de este nuevo número binario suele ser caracteres numéricos hexadecimales, lo que significa que su relación directa es que el valor representado por este carácter hexadecimal es igual al valor de este número binario).