Modley (un algoritmo de generación de imágenes basado en aprendizaje profundo)

Introducción

Modèle es un algoritmo de generación de imágenes basado en aprendizaje profundo, propuesto por investigadores franceses en 2016. Adopta un modelo de nueva generación, el codificador automático variacional (VAE), y lo combina con la red neuronal convolucional (CNN) para lograr una generación de imágenes de alta calidad.

Procedimientos operativos

1. Preparación del conjunto de datos

Modley requiere una gran cantidad de datos de imagen para entrenar el modelo, por lo que primero debe preparar datos lo suficientemente grandes. colocar. Puede utilizar conjuntos de datos públicos como MNIST, CIFAR-10 o el suyo propio. El tamaño y la calidad del conjunto de datos tienen un gran impacto en el efecto de entrenamiento del modelo y deben seleccionarse con cuidado.

2. Estructura del modelo

El modelo de Modley consta de dos partes: codificador y decodificador. El codificador convierte la imagen de entrada en un vector en el espacio latente y el decodificador convierte el vector en el espacio latente en una imagen de salida. Entre ellos, el espacio potencial es un espacio vectorial de baja dimensión, que puede considerarse como la "expresión característica" de la imagen.

Tanto el codificador como el decodificador están compuestos por redes neuronales convolucionales multicapa. El codificador comprime la imagen capa por capa y finalmente genera un vector de baja dimensión; el decodificador descomprime este vector capa por capa y finalmente genera una imagen similar a la imagen original.

3. Entrenamiento de modelos

El entrenamiento de modelos es el núcleo de Modley. Durante el entrenamiento, debemos minimizar el error de reconstrucción de la imagen y el error de distribución de los vectores latentes. Específicamente, necesitamos usar el error de reconstrucción y la divergencia KL para definir la función de pérdida y luego usar el algoritmo de retropropagación para actualizar los parámetros del modelo.

4. Generación de imágenes

Una vez completado el entrenamiento del modelo, podemos usar el codificador para convertir cualquier imagen en un vector latente y luego usar el decodificador para convertir el vector latente en una imagen de salida. Debido a que los vectores latentes son vectores de baja dimensión, se pueden interpolar y traducir en el espacio latente para generar varias imágenes.

上篇: Evaluación real de Xi'an Translation College 下篇: ¿Cómo se pronuncia el pinyin de mesa?