Código de entrada de caracteres chinos

Codificación de información en computadoras

En las computadoras existe todo tipo de información en forma de codificación binaria es decir, ya sea texto, gráficos, sonidos, animaciones, Todo tipo de información, como películas o películas, está representada por códigos binarios compuestos de 0 y 1 en la computadora. La razón por la que la computadora puede distinguir la diferencia entre esta información es porque usan diferentes reglas de codificación, por ejemplo: la misma. texto, letras en inglés Las reglas de codificación para los caracteres chinos son diferentes. Las letras en inglés usan códigos ASCII de un solo byte y los caracteres chinos usan códigos internos de caracteres chinos de doble byte. Sin embargo, a medida que cambian las necesidades, estos dos códigos se han unificado en códigos UNICODE (. La tendencia reemplazada por el estándar de codificación de caracteres desarrollado por la Asociación Unicode que puede representar casi todos los idiomas escritos del mundo (por supuesto, la codificación de gráficos, sonidos, etc.) es más compleja y diversa. Nos dice que la codificación binaria de información en las computadoras es un campo de conocimiento profundo e interdisciplinario en constante desarrollo.

1. Codificación de caracteres (inglés, incluidas letras, números, puntuación, operadores, etc.)

.

La codificación de caracteres adopta el código ASCII aceptado internacionalmente (Código estándar americano para el intercambio de información, Código estándar americano para el intercambio de información). Cada código ASCII se almacena en 1 byte (Byte). Los números del 0 al 127 representan diferentes símbolos de uso común. , como ASCII con A mayúscula. El código es 65 y la a minúscula es 97. Dado que el código ASCII solo usa siete bits del byte, el bit más alto no se usa, por lo que el bit más alto se incluyó más tarde en este conjunto de Códigos de codificación, convirtiéndose en código ASCII extendido (ASCII extendido), este conjunto de códigos internos agrega muchos símbolos especiales, como idiomas extranjeros y tablas, y se ha convertido en una codificación de uso común. El conjunto de caracteres ASCII básico tiene 128 caracteres. de los cuales 96 son caracteres imprimibles, incluidas letras, números, signos de puntuación, etc. de uso común, así como 32 caracteres de control. El código ASCII estándar utiliza 7 bits binarios para codificar caracteres, y el estándar ISO correspondiente es el estándar ISO646. En la tabla se muestra el juego de caracteres ASCII básico y su codificación:

Memorizar el código ASCII de letras y números es muy sencillo sólo necesitamos recordar el código ASCII de una letra o número (por ejemplo, recuerda que A. es 65, y el código ASCII de 0 es 48), conociendo la diferencia de 32 entre las letras mayúsculas y minúsculas correspondientes, puedes calcular los códigos ASCII de las letras y números restantes

Aunque el ASCII estándar. El código es un código de 7 bits, ya que la unidad de procesamiento básica de la computadora es el byte (1 byte = 8 bits), por lo que generalmente todavía se usa un byte para almacenar un carácter ASCII. Generalmente se conserva el bit adicional (bit más alto) en cada byte. como 0 dentro de la computadora (se puede usar como bit de paridad durante la transmisión de datos). Debido al número limitado de caracteres en el conjunto de caracteres ASCII estándar, a menudo no puede cumplir con los requisitos en aplicaciones prácticas. La Organización de Normalización ha formulado el estándar ISO2022, que estipula que el juego de caracteres ASCII debe ampliarse a 8 manteniendo la compatibilidad con ISO646. ISO ha formulado sucesivamente un lote de juegos de caracteres ASCII extendidos adecuados para diferentes regiones. Cada conjunto de caracteres ASCII extendido se puede ampliar a 128 caracteres. La codificación de estos caracteres extendidos es un código de 8 bits con el bit alto 1 (es decir, números decimales del 128 al 255), llamados códigos ASCII extendidos. codificaciones y conjuntos de caracteres ASCII extendidos más populares:

2. Codificación de caracteres chinos

(1) Código interno de caracteres chinos

La información de los caracteres chinos también se almacena en formato binario dentro de la computadora Debido a la gran cantidad de caracteres chinos, los 128 estados de un byte no se pueden expresar. Por lo tanto, en 1980, mi país promulgó el "conjunto básico de caracteres de codificación de caracteres chinos para el intercambio de información". es decir, el esquema del estándar nacional GB2312-80 estipula que se utiliza un binario de dos bytes y dieciséis bits para representar un carácter chino, y cada byte usa solo los 7 bits inferiores (similar al código ASCII Mismo), es decir, hay 128 × 128 = 16384 estados. Dado que los 34 códigos de control del código ASCII también se usan en el sistema de caracteres chinos, para evitar conflictos, no se pueden usar como codificación de caracteres chinos. 128 elimina 34 y solo hay 94 estados. entonces la codificación de caracteres chinos

El tamaño de la tabla es 94 × 94 = 8836, que se utiliza para representar los 7445 caracteres chinos y símbolos gráficos especificados en el código estándar nacional.

Cada carácter chino o símbolo gráfico utiliza un decimal de dos dígitos. código de área (código de línea) y El código decimal de dos dígitos (código de columna) indica que las partes faltantes se completan con 0, y la combinación es el código de ubicación. El código binario convertido en código de ubicación de acuerdo con ciertas reglas se llama. código de intercambio de información (denominado código estándar nacional** *Hay 6763 caracteres chinos (caracteres chinos de primer nivel, que son los caracteres chinos más utilizados, ordenados en orden alfabético de pinyin chino, **). *3755; los caracteres chinos de segundo nivel, que son los caracteres chinos menos utilizados, están ordenados en el orden de los radicales, *** 3008), 682 números, letras, símbolos, etc., ***7445. p>

Dado que el código estándar nacional no se puede almacenar directamente en la computadora, para facilitar el procesamiento interno y el almacenamiento de caracteres chinos en la computadora, es diferente del código ASCII. Cambie el bit más alto de cada byte en el código estándar nacional a 1, formando así un código que se utiliza para almacenar y operar caracteres chinos dentro de la computadora, llamado código interno (o código interno de caracteres chinos, o código interno que tiene una correspondencia simple con el estándar nacional). código y es fácil de convertir. También es obviamente diferente del código ASCII y tiene un estándar unificado (el código interno es único

(2) código externo de caracteres chinos

). Ni el código de ubicación ni el código estándar nacional son propicios para ingresar caracteres chinos. La codificación de caracteres chinos formulada para facilitar la entrada de caracteres chinos se denomina código de entrada de caracteres chinos. El código de entrada de caracteres chinos es un código externo. Existen diferentes códigos externos para los caracteres chinos. Los métodos de entrada comunes incluyen las siguientes categorías:

Códigos (códigos de ejecución) formados según el orden de disposición de los caracteres chinos: como códigos de ubicación

Según el orden de los caracteres chinos Códigos formados por la pronunciación (códigos fonéticos): como Quanpin, Jianpin, Shuangpin, etc.

Códigos formados por los glifos de los caracteres chinos (códigos gráficos): como; fuentes Wubi, códigos Zheng, etc.;

p>

Códigos formados combinando los sonidos y formas de los caracteres chinos (códigos de forma fonética): como los códigos naturales y el ABC inteligente

El código de entrada debe convertirse en un código interno en la computadora antes de que pueda almacenarse y procesarse

(3) Código de glifo de caracteres chinos

Para poder hacerlo. Al generar caracteres chinos en un monitor o impresora, los caracteres chinos se diseñan en una matriz de puntos de acuerdo con los símbolos gráficos y se obtienen los códigos de matriz correspondientes (código de glifo).

La raíz de todos los caracteres chinos. Los códigos se llaman biblioteca de caracteres chinos. La biblioteca de caracteres chinos se puede dividir en una biblioteca de caracteres suaves y una biblioteca de caracteres duros. La biblioteca de caracteres suaves se almacena en el disco duro y ahora se usa para muchos propósitos. De esta manera, la fuente dura solidifica la fuente en un chip de memoria separado y luego forma una tarjeta de interfaz con otros dispositivos necesarios, que se conecta a la computadora y generalmente se llama tarjeta china

Usada para. display La biblioteca de fuentes se llama biblioteca de fuentes de visualización. Para mostrar un carácter chino, generalmente se utiliza una matriz de puntos de 16 × 16 o una matriz de puntos de 24 × 24 o una matriz de puntos de 48 × 48. matriz de puntos, se puede calcular el espacio de bytes necesario para almacenar un carácter chino. Ejemplo: usar una matriz de puntos de 16 × 16 para representar un carácter chino significa usar 16 líneas para cada carácter chino y 16 puntos por línea. código binario de 16 bits, y 16 puntos requieren un código binario de 16 bits (es decir, 2 bytes), ***16 líneas, por lo que se necesitan 16 líneas × 2 bytes/línea = 32 bytes, es decir, una matriz de 16 × 16 puntos representa un carácter chino y el código de glifo requiere 32 bytes

Es decir: el número de bytes = el número de líneas de matriz de puntos en la memoria

Se puede entender que. La codificación de caracteres chinos formada por un método de codificación unificado para representar caracteres chinos en la computadora se denomina código interno (como el código estándar nacional). Está formado para facilitar la entrada de caracteres chinos. es un código de entrada, que es un código externo de caracteres chinos. El código de entrada es diferente debido a los diferentes métodos de codificación y la codificación de caracteres chinos formada para mostrar e imprimir caracteres chinos es un código de glifo. código de caracteres chinos en la biblioteca de fuentes. Encuentre el código de glifo del carácter chino y realice su conversión.

Ejemplo 1: se sabe que el código estándar nacional del carácter chino "春" es 343AH. ¿Encontrar su código en la máquina?

Código en la máquina = Código estándar nacional+8080H=343AH+8080H=B4BAH

Ejemplo 2: use una matriz de puntos de 24 × 24 para representar un chino carácter (un punto es un dígito binario), luego 2000

¿Cuánta capacidad de KB se requiere para los caracteres chinos

(24×24/8)×2000/1024=140.7KB≈141KB,5,