Los tipos de imágenes digitales se pueden dividir en tres tipos: mapas de bits, gráficos vectoriales, algoritmos y modelado posprocedimiento. Las imágenes de mapa de bits, también conocidas como imágenes de píxeles o imágenes rasterizadas, se crean especificando el color de cada píxel, píxel a píxel. Las imágenes vectoriales se crean utilizando definiciones de objetos y fórmulas matemáticas para describir colores y formas. El modelado de imágenes procedimentales, también conocido como arte algorítmico, utiliza una combinación de matemáticas, lógica, estructuras de control y recursividad para determinar el color de cada píxel.
Los mapas de bits se pueden crear utilizando software de dibujo como Photo Studio, escaneando una imagen analógica con un escáner o tomando una fotografía con una cámara digital. Aquí nos centramos principalmente en mapas de bits capturados con una cámara digital.
El proceso de creación de mapas de bits con cámaras digitales se puede dividir en dos etapas: muestreo y cuantificación. El muestreo se refiere al proceso de extraer píxeles discretos de una imagen simulada continua. Algunos dispositivos permiten a los usuarios establecer la frecuencia de muestreo al tomar una fotografía o grabar un vídeo, que es la cantidad de píxeles recopilados en las dimensiones horizontal y vertical durante el muestreo. Por ejemplo, en el iPhone con sistema iOS12, la frecuencia de muestreo de la grabación de vídeo se puede configurar en la interfaz de configuración.
La cuantización es el proceso de especificar un modelo de color y la profundidad de bits correspondiente, y utilizar valores numéricos reales para representar los colores de los píxeles. A continuación se muestran imágenes de muestreo y cuantificación razonables.
Tanto el proceso de muestreo como el de cuantificación introducen errores. Es decir, la imagen obtenida no es la imagen original que observamos. Si la frecuencia de muestreo utilizada en el proceso de muestreo es demasiado baja, se perderán muchos detalles en la imagen. Cuando el tamaño de visualización sea consistente con la imagen original, veremos muchas manchas de color similares al efecto mosaico, como se muestra a continuación.
Del mismo modo, si la profundidad de bits se establece demasiado baja durante la cuantización, el número de colores que se pueden representar en la imagen resultante será muy limitado. Incluso si algunos colores similares aparecen como el mismo color, la imagen perderá muchos detalles, como se muestra a continuación.
Cuando describimos el tamaño de una foto, generalmente usamos la cantidad de píxeles en las direcciones de ancho y alto, pero para la pantalla de una computadora, la cantidad de píxeles está relacionada con la cantidad de resaltados específicos en la pantalla. Por lo tanto, para diferenciar claramente entre estos dos contextos diferentes, utilizamos el término píxel lógico cuando describimos las dimensiones de una imagen y el término píxel físico cuando describimos las pantallas de computadora.
Los anuncios de la vida diaria suelen describir que las cámaras de los teléfonos móviles tienen varios millones de píxeles, lo que se refiere al tamaño máximo de píxeles que el dispositivo puede admitir. Por ejemplo, el máximo de píxeles lógicos de una imagen que su hardware puede producir es 2048*1536, lo que significa que la imagen máxima que este dispositivo puede producir contiene 3 145 728 píxeles, que son 3 millones de píxeles. Es importante señalar que algunos fabricantes de cámaras utilizan el "zoom digital" para exagerar el rendimiento de sus cámaras. Este método de software agrega píxeles a la imagen pero en realidad no mejora la claridad.
La resolución se define como el número de píxeles por pulgada de espacio en un archivo de imagen en una determinada dimensión, y la unidad es ppi. Por ejemplo, 200 ppp. La resolución de impresión se refiere a la cantidad máxima de puntos que la impresora puede imprimir en una pulgada de espacio. La unidad es ppp, como 1440 ppp.
El tamaño de una imagen se define como el tamaño físico de un archivo de imagen cuando se imprime o se muestra en la pantalla de una computadora. Las unidades son pulgadas o centímetros.
Cambiar el tamaño de píxeles de una imagen se llama remuestreo. Aumentar el tamaño de píxel de una imagen mediante muestreo ascendente se denomina muestreo ascendente, y reducir el tamaño de píxel reduciéndolo se denomina muestreo descendente. Los píxeles aumentados se basan solo en cálculos de interpolación de los píxeles originales, mientras que los valores de píxeles reducidos son el promedio de los valores de píxeles existentes, lo que no puede mejorar la claridad de la imagen.
En esta serie de artículos sobre datos digitales, hemos introducido que los datos se pueden representar mediante funciones y se pueden transformar de un dominio a otro sin perder información. Esta ley también se puede aplicar a imágenes digitales y el teorema de Nyquist todavía se aplica a las imágenes digitales.
Para la imagen en escala de grises a la izquierda en la figura anterior, queremos definir una línea recta paralela al eje X, representar su valor en escala de grises como Y y representar su posición de píxel como imagen. Para imágenes en color con canales RGB, solo es necesario procesar tres canales de la misma manera.
En la imagen de la derecha, asumimos que el ciclo de la imagen en escala de grises de la izquierda se repite, obteniendo así una imagen de forma de onda que se repite en ciclo.
Al procesar imágenes digitales, obtenemos datos discretos, como la imagen de arriba a la izquierda. También podemos obtener una forma de onda periódica repitiendo una señal periódica, como se muestra en el lado derecho de la figura anterior.
De hecho, al procesar fotografías digitales reales, la imagen se puede dividir en tres canales, RGB3, y la imagen de cada canal se puede procesar de forma independiente. Para simplificar el color aquí, procesamos la imagen en una imagen en escala de grises, como se muestra en la imagen de arriba a la izquierda. Seleccionamos una fila de píxeles y dibujamos su forma de onda de la misma manera que antes, como se muestra en la esquina superior derecha de la imagen de arriba. Como puede verse, podemos utilizar una forma de onda bidimensional para describir una fila de píxeles en una imagen digital.
Se ha mencionado que se puede utilizar una forma de onda bidimensional para describir una fila de píxeles en una imagen digital, pero esto no es suficiente. La imagen tiene características bidimensionales, por lo que también debemos encontrar una manera de describir los cambios de píxeles en las direcciones del eje X y del eje Y. Las formas de onda espaciales pueden lograr este objetivo muy bien. Por ejemplo, la imagen de arriba a la izquierda es un mapa en escala de grises. Al asignar su posición de píxel al eje X y al eje Y del espacio tridimensional, y al asignar el valor real de la escala de grises al eje Z, puede obtener un diagrama de forma de onda espacial tridimensional, que es la imagen de la bien.
Para una imagen digital real, todavía tomamos la imagen de un pájaro como ejemplo y solo consideramos su imagen en escala de grises. Para imágenes en color con canales RGB, solo necesita separar los tres canales de color RGB y realizar un procesamiento similar. La imagen de arriba a la izquierda es la imagen digital real y la forma de onda espacial convertida se muestra a la derecha. Como puede verse, podemos utilizar diagramas de formas de onda espaciales para describir cualquier imagen digital. Esto es muy importante porque sólo cuando se puedan utilizar modelos físicos para describir imágenes digitales podremos facilitar su procesamiento posterior. Sólo mediante la descripción de las ondas espaciales se pueden convertir en frecuencias espaciales, que es la base matemática para la compresión con pérdida de imágenes.
En el primer artículo de esta serie, se presentan y derivan en detalle la serie de Fourier y sus diversas transformadas de Fourier. Como se mencionó anteriormente, cualquier función periódica con condiciones de Dirichlet compuestas se puede descomponer en un número infinito de funciones sinusoidales simples. A menudo vemos el componente coseno en las fórmulas porque la función seno Asin(ωx+φ) se puede expandir usando fórmulas trigonométricas para obtener el valor del coseno. La transformada discreta del coseno es el resultado de reducir el término del seno bajo ciertas condiciones. Consulte el primer artículo de esta serie, "Representación y procesamiento de señales digitales".
La imagen de arriba es un diagrama esquemático de la transformada del coseno discreto. Nuevamente, esto es sólo un esquema. La forma de onda del extremo derecho se puede sintetizar a partir de las tres formas de onda básicas de la izquierda. Para formas de onda más complejas, aún se puede convertir en una combinación de múltiples formas de onda simples. Este tema combinado con imágenes digitales puede entenderse como el diagrama de forma de onda de un solo píxel que se puede convertir en una combinación de múltiples formas de onda básicas.
Lo anterior es la fórmula de la transformada inversa del coseno discreto, donde f[u] es la función de la señal original en el dominio de la frecuencia y m es el número de la señal original. Esta es la fórmula de transformada de coseno discreta unidimensional. De hecho, en el procesamiento de imágenes digitales se necesita una fórmula de transformación de coseno discreta bidimensional, que se presentará más adelante en este artículo. Primero nos centramos en la transformada de coseno discreta 1D, que se utiliza para segmentar una fila de píxeles en una imagen en color en una combinación de múltiples formas de onda.
Supongamos que hay una imagen digital y los 8 píxeles adyacentes a una fila en la imagen en escala de grises son como se muestra en la figura anterior.
Seleccionamos ocho formas de onda básicas. Y calcule 8 píxeles en función de cada forma de onda. Como se muestra en la figura anterior, la función más a la izquierda es la fórmula trigonométrica de la forma de onda básica, el gráfico del medio es su diagrama de forma de onda y las filas de píxeles de la derecha son los primeros 8 valores de píxeles válidos calculados en función de esta forma de onda básica.
Como se mencionó anteriormente, cualquier fila de píxeles se puede representar mediante una forma de onda bidimensional. Estas formas de onda bidimensionales deben satisfacer la condición de Dirichlet y deben descomponerse en combinaciones de múltiples formas de onda básicas. Lo que queremos hacer ahora es calcular los coeficientes de cada forma de onda básica, en otras palabras, el valor de la función en el dominio de la frecuencia. Esto se puede calcular utilizando la fórmula de transformación de coseno discreta. La fórmula de transformación de coseno discreta unidimensional es la siguiente.
En la fórmula anterior, f(r) es una función espacial. Para el procesamiento de imágenes digitales en escala de grises, es decir, el valor de escala de grises específico de una fila de píxeles, r es la coordenada del punto de píxel y m es el número total de píxeles en la fila. u puede entenderse como el valor de frecuencia de la función en el dominio de la frecuencia, y la parte entre paréntesis después de cos es la función trigonométrica de la forma de onda básica. Cabe señalar que el número de valores de frecuencia de la función en el dominio de la frecuencia es el mismo que el número de variables independientes de la función en el dominio espacial. Para imágenes digitales, es decir, con varios píxeles seguidos, se pueden obtener varios componentes de frecuencia.
Usando la fórmula anterior, podemos calcular el valor de la función en el dominio de la frecuencia. Debido a que hay 8 píxeles en esta fila, se pueden calcular 8 componentes efectivos en el dominio de la frecuencia, es decir, los productos del valor de F(u) en [0, 7] y las constantes en la fórmula de la transformada discreta del coseno son [W0 ~ W7] = [389,97, -280,13, -1. -20,51, -19,80, -16,34], que son los coeficientes de cada forma de onda básica cuando la forma de onda básica se mezcla con la forma de onda original. Es decir, la suma de las funciones de apetito de todos los componentes de frecuencia multiplicada por sus coeficientes es la imagen original.
La figura anterior es un diagrama esquemático de la fusión de la imagen original y la imagen obtenida utilizando la forma de onda básica. Cabe señalar que el componente de frecuencia obtenido mediante la transformada de coseno discreta es más pesado, F(0) se denomina componente de CC y F(1) a F(M-1) se denomina componente de CA. La palabra proviene de circuitos analógicos, los componentes de CC están relacionados con los circuitos de CC y los componentes de CA están relacionados con los circuitos de CA.
Las imágenes digitales tienen propiedades físicas bidimensionales, por lo que en realidad utilizamos la transformada de coseno discreta bidimensional al procesar imágenes digitales. La fórmula es la siguiente.
Para imágenes digitales en escala de grises, en la fórmula anterior, la función espacial bidimensional es f(r, s), que describe el valor de escala de grises de la imagen original en términos de coordenadas de píxeles (la abscisa es r , la ordenada es s), myn son el número de píxeles horizontales y verticales respectivamente, (u, v) es la frecuencia espacial, el producto de las dos funciones cos es la función de la onda espacial bidimensional básica, F (u, v) es la función espacial F que describe la imagen original. Los valores válidos de u y v son [0, M-1] y [0, N-1] respectivamente. Cada valor de la función F (u, v) es el coeficiente de la forma de onda espacial bidimensional correspondiente.
Cabe destacar que en el campo del procesamiento de imágenes, la transformada coseno discreta suele limitarse a subbloques de 8×8 píxeles, también llamados macrobloques. Esto puede reducir en gran medida la complejidad computacional y mejorar la eficiencia del procesamiento de imágenes. Este es el paso más importante en la compresión de imágenes JPEG y la compresión de vídeo MPEG. Por supuesto, diferentes estándares de codificación tienen diferentes tamaños de macrobloques, pero generalmente la elección es entre 8 por 8 y 16 por 16, lo cual se discutirá en detalle en el artículo siguiente Video digital.
La imagen de arriba es un bloque macro de 8 por 8 píxeles. Obtenemos la siguiente tabla de matriz de colores contando los valores de gris.
Luego utilizamos la transformada de coseno discreta bidimensional que acabamos de presentar para calcular los coeficientes de cada componente de frecuencia espacial, es decir, el valor de la función F (u, v), y obtenemos el siguiente componente de frecuencia matriz de amplitud. De manera similar a la fórmula de la transformada de coseno discreta unidimensional, F (0,0) se denomina componente de CC y los valores restantes se denominan componentes de CC.
Al igual que una fila de píxeles, se puede descomponer en varias funciones básicas mediante una transformación de coseno discreta unidimensional y luego restaurarla a través de estas funciones. Una imagen digital bidimensional también se puede descomponer en varias funciones básicas mediante una transformada de coseno discreta bidimensional y luego sintetizarla a partir de estas funciones básicas. La diferencia es que las funciones básicas de la descomposición por transformada de coseno discreta unidimensional se pueden representar mediante formas de onda bidimensionales, mientras que las funciones básicas de la descomposición por transformada de coseno discreta bidimensional deben representarse mediante formas de onda tridimensionales. La fórmula para la transformada de coseno discreta inversa bidimensional es la siguiente.
Para el macrobloque de 8×8 píxeles en el ejemplo anterior, la fórmula de la transformada de coseno discreta inversa bidimensional debe constar de 8×8 y 64 funciones básicas. Cada función básica se puede expresar como una. Forma de onda bidimensional, cada onda se puede representar como una imagen bidimensional simple, como se muestra en la siguiente figura.
Cada imagen es el resultado de multiplicar los valores de los dos últimos componentes coseno de la fórmula bidimensional de transformada discreta inversa de coseno en el punto discreto P(r, s), donde el espacio de valores de r y s es [0, 7].
Cualquier imagen bidimensional de 8 × 8 se puede sintetizar utilizando las funciones básicas anteriores. Los coeficientes de cada función básica, es decir, el peso, se pueden calcular mediante la transformada de coseno discreta bidimensional. El valor de la parte F(u, v) excluyendo las constantes también se denomina matriz de amplitud del componente de frecuencia. Para imágenes en color que utilizan el modelo de color RGB, solo es necesario procesar tres canales por separado, es decir, tres procesos DCT.
Multiplique el producto de la matriz de amplitud del componente de frecuencia del ejemplo de macrobloque de 8 × 8 píxeles anterior y la constante en la fórmula de transformada de coseno discreta inversa bidimensional por su correspondiente función de frecuencia fundamental, y finalmente resúmalo para sintetizar la imagen 2D original.
Veamos un ejemplo más práctico, la imagen del pájaro de antes. Seleccionamos un macrobloque de 8x8 píxeles como se muestra a continuación.
Utilizamos el eje z para representar el valor de color de cada píxel y el eje xy para representar el valor de índice del píxel en las direcciones horizontal y vertical respectivamente. Dibuje el siguiente histograma espacial de píxeles.
Utilizamos la transformada de coseno discreta bidimensional para calcular los coeficientes de cada componente de frecuencia, que es el valor de la función en el dominio de la frecuencia F(u, v). Usamos el eje z para representar el valor de F (u, v) y el eje xy para representar la frecuencia en las direcciones horizontal y vertical respectivamente. Finalmente, obtenemos el siguiente histograma de amplitudes de los componentes de frecuencia.
Podemos ver que en el histograma de amplitud del componente de frecuencia anterior, el componente de CC es el más grande y hay algunos componentes de CA más pequeños. Multiplicándolos por el término constante en la fórmula de transformada de coseno discreta bidimensional como coeficiente de la función de frecuencia fundamental, se puede restaurar la imagen original.
Lo que hay que tener en cuenta aquí es que en el histograma de amplitud del componente de frecuencia, a excepción de algunos componentes de frecuencia del origen de las coordenadas, los valores de otros componentes de CA son casi cero. En otras palabras, podemos descartar por completo el componente de frecuencia en la esquina inferior derecha y aún así restaurar la imagen original, porque la frecuencia espacial en la esquina inferior derecha es extremadamente alta, lo que ha excedido la precisión de resolución del ojo humano desde un punto de vista psicológico. de vista. Este método de procesamiento es también la base teórica para la compresión JPEG y la compresión intracuadro en MPEG.
La aplicación de la frecuencia de Nyquist en imágenes digitales se puede entender como que cuando las velocidades de muestreo horizontal y vertical son inferiores al doble de la frecuencia más alta a la que es sensible el ojo humano, la imagen resultante se distorsionará. Cuando la muestra se amplía a su tamaño original, aparecen efectos de bloqueo y alias obvios.
Utilizamos la frecuencia de muestreo adecuada para clasificar las fotos a continuación.
Cuando utilicemos una frecuencia de muestreo demasiado baja, tomaremos la siguiente fotografía. Este fenómeno también se denomina muestreo excesivo.
Las franjas de muaré se refieren a franjas de interferencia de alta frecuencia obtenidas durante el proceso de muestreo de imágenes digitales cuando la frecuencia de muestreo es insuficiente pero cercana a los detalles de la imagen original. Es una franja irregular de alta frecuencia la que forma la imagen. La imagen aparece colorida. Además, cuando la dirección de muestreo forma un cierto ángulo con la dirección de la textura de la imagen original, también se obtendrán franjas de muaré.
Por ejemplo, en la imagen de arriba, la textura de la imagen de la izquierda está en un cierto ángulo con respecto a la dirección de muestreo y la frecuencia de muestreo está cerca de la imagen original. Suponemos que la parte negra de la muestra excede la mitad de su área, entonces el resultado del muestreo es negro y viceversa. De esta forma, la última imagen que obtenemos es la imagen correcta, y podemos ver que la imagen ha sido distorsionada significativamente, que es la interesante franja muaré.
Cuando sabemos qué es el muaré, podemos recordar el efecto brillante cuando veíamos cortinas transparentes plegándose y el efecto de remolino cuando veíamos sillas tejidas a través del biombo. Estos son patrones muaré comunes en la vida.
De manera similar, consideramos imágenes reales de la vida, una mochila hecha de texturas de alta frecuencia es la siguiente.
Para este tipo de escena, cuando nuestra frecuencia de muestreo no está sincronizada con la frecuencia de la imagen original, es probable que aparezcan franjas de muaré, como se muestra a continuación.
La imagen original real es la siguiente.
Al tomar fotografías con una cámara digital, puedes resolver el efecto muaré inclinando el ángulo de la cámara, cambiando la distancia focal o cambiando la lente. Esto cambiará la dirección de muestreo y la frecuencia espacial generalizada de la imagen original.
Las cámaras tradicionales utilizan una película recubierta de plata para crear imágenes. La película está dividida en tres capas, que son sensibles a la luz roja, verde y azul respectivamente.
Las cámaras digitales utilizan tecnología de dispositivo de carga acoplada (CCD) para detectar la luz y el color, y el semiconductor complementario de óxido metálico (CMOS) es otra nueva tecnología de detección de luz.
CCD consta de una matriz bidimensional de puntos de imagen, cada punto de imagen corresponde a una muestra (un píxel en la imagen digital) y cada punto de imagen está cubierto por filtros rojo, verde y azul.
CCD tiene cuatro métodos de implementación. El primero divide la luz incidente en tres haces y cada punto fotosensible tiene tres sensores. Cada sensor sólo puede detectar rojo, verde y azul respectivamente. La ventaja de esto es que cada píxel puede obtener directamente el valor original de 3 colores. La desventaja es que es costoso y hace que la cámara sea demasiado grande.
El segundo girará el sensor mientras toma fotografías para que pueda detectar continuamente la luz roja, verde y azul. La desventaja de este método es que no puede percibir tres colores al mismo tiempo y sólo puede tomar fotografías estáticas.
El tercer método, como Foveon X3, utiliza sensores de silicio y tecnología de apilamiento vertical. Diferentes profundidades de silicio absorben diferentes longitudes de onda de luz, por lo que se pueden percibir tres colores simultáneamente en un punto de la imagen.
La cuarta y más común forma es utilizar un filtro de color de Bayer. Cada píxel sólo percibe un color, y los valores de los otros dos componentes se calculan mediante interpolación. Si bien este método es económico, a veces puede causar distorsión del color.
La imagen de arriba es un diagrama esquemático del filtro de color Bayer.
El filtro de color de Bayer tiene el doble de píxeles sensibles al verde que los otros dos porque el ojo humano es más sensible a la luz verde.
Después de obtener los datos originales, necesitamos calcular el color de los píxeles mediante interpolación. Este es el llamado algoritmo de demostración. Uno de los métodos más simples es el método del vecino más cercano. Al calcular los valores de los componentes R y B de cada punto de la imagen para el cual se recopiló el componente G, solo es necesario tomar el promedio de dos puntos de la imagen adyacentes. Al calcular el valor de los otros dos componentes de un punto de imagen con componentes R y B, es necesario tomar el promedio de cuatro puntos de imagen adyacentes. Los puntos de color adyacentes en el área de cálculo se muestran en la siguiente figura.
El algoritmo de interpolación no puede reconstruir bien la escena, por lo que en el proceso aparecerán algunas distorsiones como muaré, bloques y manchas.
Como se muestra en la imagen de arriba a la izquierda, supongamos que se captura una línea blanca, que pasa por el sensor CCD y suponiendo que ambos lados de la línea son negros. Entonces la intensidad de la luz que sienten otros puntos de la imagen es cero. Como se muestra en la figura de la derecha, al realizar cálculos de interpolación, para cada punto de la imagen por el que pasa la línea blanca, el valor obtenido del punto de la imagen adyacente siempre es 0, por lo que el color del punto de la imagen por el que pasa la línea blanca no se puede obtener de sus puntos de imagen adyacentes, terminamos con una imagen distorsionada.
Algunas cámaras utilizan lentes anti-aliasing o anti-aliasing en la lente, lo que puede desenfocar eficazmente la imagen y reducir la distorsión del color. Como característica opcional, los fabricantes de cámaras pueden activar filtros anti-aliasing en la configuración. Pero normalmente las cámaras de alta calidad no ofrecen esta característica.
Al dibujar líneas diagonales en la pantalla de una computadora, a veces se ven bordes irregulares. Esta distorsión es causada por la resolución limitada de la computadora. En geometría, una línea se compone de un número infinito de puntos, mientras que una línea en la pantalla de una computadora se compone de píxeles discretos.
En la imagen de arriba, la imagen de la izquierda es una línea recta real de 2 píxeles. Supongamos que pintamos las muestras de negro cuando el interior de cada muestra cubre más de la mitad del área, entonces obtendremos líneas rectas irregulares como se muestra en la imagen de la derecha.
El antialiasing es una técnica que reduce el aliasing o la distorsión de los bordes en líneas rectas. Un posible enfoque es dibujar píxeles a lo largo del borde de la línea con un color específico. El color es proporcional a la cobertura, en relación con el color del punto más cercano a la línea.
Como se muestra arriba, cuando se amplía el mapa de bits, el valor del píxel aumenta mediante el muestreo ascendente y el color del píxel se obtiene mediante el cálculo de interpolación, que resaltará los bordes irregulares.
Como se muestra arriba, la imagen vectorial se dibuja en tiempo real, por lo que cuando se amplía, su distorsión no es tan grave como la del mapa de bits.
La ciencia del color es un tema independiente e interesante. Aquí solo se presentan los conocimientos básicos más importantes. Para obtener más detalles, consulte los dos libros de referencia siguientes.
El color es a la vez un fenómeno físico (ondas electromagnéticas) y un fenómeno psicológico (cuando estas ondas electromagnéticas caen en los receptores de color del ojo humano, el cerebro humano controla la interacción entre las ondas electromagnéticas y los ojos en una función poco clara, esta es la percepción del color). Los colores que experimentamos en la naturaleza son combinaciones de diferentes longitudes de onda.
La investigación anatómica moderna muestra que el ojo humano tiene tres tipos de conos, a saber, los conos L, M y S, que son sensibles a las ondas de las baterías de onda larga, media y corta, respectivamente. como se muestra en la siguiente figura.
Sin embargo, los materiales en la naturaleza tienen diferentes reflectividades para ondas electromagnéticas de diferentes longitudes de onda. Por ejemplo, las hojas de espinaca reflejan principalmente ondas electromagnéticas con una longitud de onda de alrededor de 550 nm. Los conos sienten las ondas electromagnéticas reflejadas y, finalmente, se produce en el cerebro el concepto de guía de colores.
Newton fue el primero en realizar un estudio sistemático del color. Descubrió que los colores se pueden obtener mezclando colores y en su artículo propuso el concepto de rueda de colores, también conocida como rueda de colores de Newton, como se muestra a continuación.
Los tres elementos del color son matiz (matiz), saturación (pureza) y luminosidad. El tono (también llamado tono) puede entenderse como la longitud de onda dominante del color. La periferia del círculo es el color monocromático de toda la unidad de energía obtenida al descomponer la luz blanca. El tono comienza en rojo y aumenta hacia el amarillo.
La saturación (también conocida como pureza) puede entenderse como la cantidad de luz blanca mezclada en un solo color. Si la luz blanca se mezcla lo suficiente, cuanto menos saturada esté, más se acercará al gris.
El brillo es un concepto subjetivo relacionado con la percepción del observador y representa la intensidad de la luz de color emitida por el ojo humano. Por lo general, el valor de brillo monocromático por unidad de energía se define como 1, y el brillo disminuye a medida que la intensidad de la luz disminuye gradualmente. Cuando la intensidad de la luz llega a 0, el valor de brillo también es 0.
Cabe señalar que las palabras brillante, luz y luz se confunden fácilmente y en realidad tienen significados diferentes.
Entre ellos, el brillo se refiere al valor de percepción energética de la radiación luminosa por parte del ojo humano, y la unidad es liendres, es decir, candelas por metro cuadrado. Por lo general, el brillo del que hablamos se refiere al brillo relativo, es decir, su Y/Yr, y Yr se refiere al brillo de la luz blanca de referencia.
El brillo se refiere a la cantidad de luz que experimenta nuestra visión. Este es un concepto muy subjetivo y no tiene una definición matemática del mundo. El brillo tiene una definición matemática clara, que está relacionada con la longitud de onda y la energía de la luz y el brillo que siente el ojo humano. Curiosamente, cuando se utiliza luz de diferentes longitudes de onda y la misma potencia, la longitud de onda de 550 nm parece más brillante para el ojo humano.
El brillo se refiere al brillo relativo del color y el blanco bajo el mismo entorno de iluminación.
El sistema de color Munsell que se muestra a continuación es un sistema más antiguo para describir el color. Describe un color a través de tres dimensiones: brillo (valor), matiz (matiz) y saturación (croma).
La forma científica de expresar el color es la función de densidad espectral, pero ésta no se suele utilizar en sistemas informáticos. Porque múltiples funciones de densidad espectral pueden representar el mismo color percibido por el ojo humano.
La figura anterior muestra una función de densidad espectral simplificada, donde el tono está determinado por la longitud de onda dominante, el brillo está determinado por el área de la imagen encerrada por la función y la saturación está determinada por la relación entre la porción del pico y el área total. La fórmula de cálculo es la siguiente.
Existen muchas formas utilizadas habitualmente para representar colores, llamadas espacios de color. Incluye principalmente cinco series de modelos de color: RGB, CMKY, transformación cilíndrica, CIE estándar, brillo + croma.
Rgb es una constante basada en la longitud de onda y RGB es el coeficiente de cada componente constante, también llamado canal de color. Cabe señalar que el modelo de color RGB no define las tres longitudes de onda de luz utilizadas.
Como se muestra arriba, todos los colores del modelo de color RGB son el resultado de mezclar los tres colores primarios. Los colores complementarios rojo, verde y azul son cian, magenta y amarillo respectivamente. El rango de valores de rgb en los modelos matemáticos es 0 ~ 1, y en los programas de procesamiento de imágenes suele ser 0 ~ 255. La investigación psicológica muestra que el ojo humano es más sensible al verde. Utilizando la sensibilidad a tres colores, la fórmula para calcular la escala de grises o el brillo a partir del modelo de color RGB es la siguiente.
CMY es un modelo de color sustractivo, que representa la proporción de componentes rojos, verdes y azules restados de la luz blanca. La fórmula de conversión entre el modelo de color y el modelo de color RGB es la siguiente.
Debido a que el resultado de la mezcla CMY no es negro puro, el componente K se introduce en el modelo de color CMYK para representar el negro puro. La fórmula de conversión es la siguiente.
Representar colores basándose en la tonalidad (color básico), saturación, luminosidad o brillo del propio color. El modelo de color Tono-Saturación-Brillo (HSV) también se denomina modelo de color Tono-Saturación-Brillo (HSB), como se muestra en la siguiente figura.
Modelo de color Tono-Luminosidad-Saturación (HLS).
CIE llevó a cabo un experimento de mezcla de colores utilizando luz roja, verde y azul estándar con longitudes de onda de 700 nm, 546,1 nm y 435,8 nm como tres luces monocromáticas. Se pidió a los participantes que controlaran la cantidad de estas tres luces con unidad de energía hasta que percibieran que era del mismo color que una luz monocromática con unidad de energía en el espectro visible. En base a esto, la función de coincidencia de colores se traza de la siguiente manera.
Los experimentos demuestran que si se desea utilizar los tres colores primarios RGB para mezclar toda la luz pura de una sola longitud de onda en la naturaleza, a veces es necesario restar una parte de la luz roja de la luz mixta verde y azul. , es decir, añadir luz roja a la luz pura.
Además, ningún monitor de ordenador puede combinar toda la luz visible de su propia luz roja, verde y azul. La gama de colores que puede mostrar un monitor determinado se denomina gama de colores. Diferentes modelos de monitores con el mismo modelo de color pueden tener diferentes gamas de colores, y monitores con diferentes modelos del mismo modelo de color deben tener diferentes gamas de colores.
Basándose en este resultado experimental, la Comisión Internacional de Luminiscencia e Iluminación propuso en 1931 el modelo de color CIE XYZ, representado por la fórmula de la figura superior. Supongamos que, en teoría, existen tres tipos de luz visible con una sola longitud de onda y que las funciones energéticas de los tres componentes son todas positivas. Y después de una selección deliberada, el modelo matemático del coeficiente de Y en la fórmula anterior tiene la misma forma que la función de eficiencia luminosa, es decir, Y puede entenderse como brillo.
El modelo de color RGB y el modelo de color CIE-XYZ se pueden convertir mediante la siguiente fórmula.
Para representar más convenientemente las áreas superpuestas de varios modelos de color, es necesario dibujar un mapa de gama de colores en un plano bidimensional. Primero, estandarice la función de energía de los tres componentes de XYZ y la fórmula de cálculo es la siguiente.
La función del parámetro del modelo de color CIE-XYZ se expresa de la siguiente manera.