Una revisión de los papeles de transferencia de estilo

Este artículo se basa en una revisión de la transferencia de estilo neuronal y otros artículos relacionados.

El artículo representativo es el trabajo pionero de Gaty, el algoritmo neuronal del estilo artístico. Este es un enfoque de red neuronal lenta para la transferencia de estilo.

Uno de los puntos clave: un problema común de aprendizaje profundo es utilizar la entrada de muestras de entrenamiento para aprender los pesos de la red. En este artículo, los pesos entrenados se utilizan para obtener entradas que cumplan con los requisitos de salida.

Entrada: Imagen de entrada inicializada con ruido gaussiano.

Después de muchas iteraciones, la respuesta de entrada es una imagen con un estilo y contenido específicos. Entonces este método aprende valores de píxeles, no pesos.

Segundo punto: Se introduce una nueva función de pérdida.

Pérdida de contenido: la diferencia de píxeles entre las imágenes de entrada y salida. Hazlo con mse.

Pérdida de estilo: calculada mediante matriz de gramos. La expresión final también es similar a mse.

El método basado en la iteración del modelo es un método rápido de transferencia de estilo.

La obra maestra es la transferencia de estilo en tiempo real y la pérdida de percepción en superresolución.

Uno de los puntos clave: este artículo presenta una gran red compuesta por dos redes. La primera mitad de la red se llama transferencia espejo y la segunda mitad se llama red con pérdidas. Los pesos de la red de transmisión de imágenes se actualizan; los pesos de la red de pérdida no se actualizan y son una red vgg previamente entrenada que se utiliza para extraer características de alta dimensión. De hecho, se ingresa la imagen original y luego se genera la salida con estilo fs a través de la red de transferencia de imágenes, y luego se utiliza la red de pérdida para optimizar errores y lograr el efecto deseado.

Segundo punto: Proponer una nueva función de pérdida.

Pérdida de reconstrucción de características: en lugar de utilizar la misma función de pérdida que el algoritmo neuronal de estilo artístico, utilizamos vgg para extraer características como medida de la pérdida de contenido. El propósito del autor al hacer esto es decir que la función de error uno a uno original entre píxeles es inexacta en muchos casos. Por ejemplo, en ambas imágenes, solo se desplaza un píxel. Calculado en términos de pérdida de contenido, este resultado es muy diferente, pero de hecho la diferencia entre las dos imágenes no es mucha para el ojo humano. Por lo tanto, tiene sentido utilizar las funciones de alto nivel extraídas por vgg como pérdida de contenido. Sin embargo, este método también tiene una desventaja, es decir, lo que aprendes es falso y poco real.

Pérdida de reconstrucción de estilo: como en el artículo anterior, se utiliza la matriz de gramos como característica de estilo.

(1) Tomar fotografías con calidad DSLR en dispositivos móviles con redes convolucionales profundas.

La entrada de este artículo son fotos de teléfonos móviles (como iPhone, BlackBerry, etc.) y la salida son fotos SLR.

Punto clave uno: usar la red gan

Segundo punto: agregar una nueva función de pérdida.

Pérdida de color: Antes de calcular la pérdida de color, la imagen debe tener un desenfoque gaussiano. La razón por la que se utiliza el desenfoque gaussiano es que puede eliminar información de alta frecuencia y facilitar la comparación de colores. Para coincidencias de pequeños errores, la pérdida de color tiene una alta tolerancia. Por lo tanto, podemos aprender una distribución de color similar a la imagen de destino.

Pérdida de textura: utilice la red gan y utilice la precisión de la red discriminante como medida del error de textura.

Pérdida de contenido: la distancia euclidiana de las características de alta dimensión abstraídas por vgg se utiliza como pérdida de contenido. Es diferente de la matriz de gramos utilizada anteriormente.

Pérdida de variación total: El objetivo es obtener una salida más suave.

(2) Transferencia de estilo fotográfico profundo.

Los artículos anteriores sobre transferencia de estilo se basaron en una fotografía y otra obra de arte, haciendo que la imagen generada pareciera una pintura, pero el mapa de contenido y el mapa de estilo de este artículo son trabajos fotográficos.

Uno de los puntos importantes: se modifica la función de pérdida.

Pérdida de contenido: Utilice matriz de características, igual que gatys.

Restricciones de regularización realistas basadas en transformaciones afines locales en el espacio de color.

Pérdida de estilo mejorada basada en segmentación semántica: una función de pérdida de contenido mejorada basada en segmentación semántica. La máscara segmentada se utiliza como un canal aumentado de la imagen de entrada y se ingresa en la red neuronal en conjunto para garantizar que solo se procese el contenido que nos interesa.