¿Cuál es la diferencia entre la codificación ANSI de documentos de texto y Unicode?

La codificación se refiere a un estándar para el almacenamiento e interpretación de idiomas de diferentes países en computadoras\x0d\ANSI y ASCII\x0d\\x0d\nInicialmente, solo había un juego de caracteres en Internet: ANSI. Conjunto de caracteres ASCII (Código estándar americano para el intercambio de información, "Código estándar americano para el intercambio de información"), que utiliza 7 bits para representar un carácter, con un total de 128 caracteres. Posteriormente, IBM amplió sobre esta base y utilizó 8 bits para representar. un carácter representa un carácter, se pueden representar un total de 256 caracteres, aprovechando al máximo la información máxima que se puede expresar en un byte\x0d\nJuego de caracteres ANSI: juego de caracteres ASCII y juegos de caracteres derivados de él y compatibles con él. , como: GB2312, el nombre oficial es MBCS (Multi-Byte Chactacter System, sistema de caracteres multibyte), también conocido comúnmente como conjunto de caracteres ANSI \x0d\\x0d\UNICODE y UTF8, UTF16\x0d\\x0d\n debido a cada idioma, todos desarrollaron sus propios conjuntos de caracteres, lo que resultó en demasiados conjuntos de caracteres diferentes. Era muy inconveniente convertir conjuntos de caracteres con frecuencia en la comunicación internacional. Por lo tanto, se creó el conjunto de caracteres Unicode, que utiliza 16 bits (dos bytes). ). El sistema transmite correctamente, aparece UTF-8 y Unicode se codifica utilizando un método similar a MBCS (los conjuntos de caracteres Unicode tienen múltiples formas de codificación) \x0d\Por ejemplo, el estándar Unicode codifica UTF-16 (grande) de las dos palabras " conectado". endian) es: DE 8F 1A 90 \x0d\ y su codificación UTF-8 es: E8 BF 9E E9 80 9A\x0d\\x0d\nCuando un software abre un texto, lo primero que hace es decidir qué carácter ¿Se utiliza el conjunto y la codificación para guardar este texto? El software generalmente utiliza tres métodos para determinar el conjunto de caracteres y la codificación del texto: \x0d\ detecta el identificador del encabezado del archivo, solicita al usuario que seleccione y adivina \x0d según ciertas reglas. \La forma más estándar es detectar los primeros bytes del texto, el primer byte Charset/codificación, como se muestra en la siguiente tabla: \x0d\EF BB BF UTF-8 \x0d\FE FF UTF-16/UCS. -2, little endian \x0d\FF FE UTF-16/UCS-2, big endian \x0d\FF FE 00 00 UTF-32/UCS-4, little endian \x0d\00 00 FE FF UTF-32/UCS. -4, big-endian.

上篇: Exploración de nuevos conceptos editoriales. Gracias. 下篇: Descripción general de la escuela secundaria superior Shigatse No. 1