Las principales codificaciones de caracteres japoneses son Shift_JIS, EUC-JP e ISO-2022-JP.
Shift_JIS es principalmente una codificación de texto utilizada por Windows y Macintosh. El conjunto de texto de Shift_JIS básicamente cumple con JIS X 0208. Sin embargo, en realidad cada fabricante tiene sus propias extensiones, incluyendo una gran cantidad de palabras repetidas e irregulares.
Así, además del conjunto de texto original de Shift_Jis, Windows añade el texto contenido en la extensión NEC y la extensión IBM. Esta discrepancia entre normas y realidad persiste durante mucho tiempo. Con la estandarización de Windows-31J, la confusión mejoró.
EUC-JP es una codificación de caracteres muy utilizada en Linux y Solaris.
ISO-2022-JP es una codificación de texto utilizada principalmente por correo electrónico. Solo se utilizan siete bits y el octavo bit es inútil, por lo que no es adecuado para el procesamiento de cadenas en programas y se utiliza principalmente para el intercambio de datos en la red.
Datos ampliados:
Notas:
1. Según qué reglas se almacenan los caracteres en la computadora, como qué significa 'a' y A su vez, ¿qué reglas se almacenan en la computadora? Los números binarios en la computadora se analizan y muestran. Esto se llama decodificación, al igual que el cifrado y descifrado en criptografía. Durante el proceso de decodificación, si se utiliza una regla de decodificación incorrecta, 'a' se analizará como 'b' o caracteres confusos.
2. Conjunto de caracteres: una colección de todos los caracteres abstractos admitidos por el sistema. Texto es un término general para diversos textos y símbolos, incluidos caracteres nacionales, signos de puntuación, símbolos gráficos, números, etc.
3. Obviamente, un byte no es suficiente para procesar chino, se necesitan al menos dos bytes y no puede entrar en conflicto con la codificación ASCII, por lo que se desarrolló la codificación GB2312 para codificar chino.
Enciclopedia Baidu-Codificación de caracteres
Enciclopedia Baidu-GBK