Codificación ASCII:
El código ASCII más antiguo solo contiene 127 caracteres, como letras, signos de puntuación y caracteres especiales. Estos caracteres son suficientes para las personas de países de habla latina, pero para los países que no hablan latina (como China y Japón), los códigos ASCII están lejos de ser suficientes. Por lo tanto, se necesita codificación para representar una gran cantidad de caracteres chinos.
Codificación Unicode
La codificación Unicode normalmente consta de dos bytes, denominada USC-2, y una única palabra aislada consta de cuatro bytes, denominada USC-4. Los primeros 127 caracteres también representan caracteres del código ASCII original, pero se cambian de un byte a dos bytes.
Ventajas: Puede abarcar varios idiomas y caracteres chinos de uso común.
Desventajas: Significa que un carácter inglés se ha cambiado de un byte a dos, lo que desperdicia espacio de almacenamiento y velocidad de transmisión. Las palabras inusuales connotan insuficiencia.
Codificación UTF-8
Un tipo de codificación Unicode utiliza algunos caracteres reservados básicos para formular tres conjuntos de métodos de codificación, a saber, UTF-8, UTF-16 y UTF-32. . En UTF-8, los caracteres se codifican como secuencias de 8 bits, utilizando uno o varios bytes para representar un carácter. La mayor ventaja de este enfoque es que UTF-8 conserva la codificación de caracteres ASCII como parte del mismo. UTF-8, comúnmente conocido como "Código universal", puede mostrar varios idiomas en la misma pantalla. Un carácter chino suele ocupar 3 bytes (6 caracteres raros). Para lograr la internacionalización, las páginas web utilizan la codificación UTF-8 siempre que sea posible.
Codificación GB2312
Codificación de chino simplificado GB2312, un carácter chino ocupa 2 bytes y es el principal método de codificación en China continental. Cuando el artículo/página web contiene chino tradicional, japonés, coreano, etc. , es posible que el contenido no esté codificado correctamente.
Función: conjunto de caracteres chinos simplificados nacionales, compatible con ASCII
Número de dígitos: 2 bytes, puede representar 7445 símbolos, incluidos 6763 caracteres chinos, que cubren casi todos los caracteres chinos de alta frecuencia .
Rango: byte alto de A1-A7, byte bajo de A1 a FE. Agregue 0xA0 al byte alto y al byte bajo respectivamente para obtener el código.