Preentrenamiento de eliminación de ruido del decodificador para segmentación semántica

El preprocesamiento de eliminación de ruido del decodificador para la segmentación semántica (He et al., 2016) reduce gradualmente la resolución de los mapas de características. Por lo tanto, para realizar predicciones a nivel de píxeles, el decodificador necesita restaurar las muestras al nivel de píxeles. La mayoría de los modelos de segmentación semántica avanzados no entrenan previamente los parámetros adicionales introducidos por el decodificador ni los inicializan aleatoriamente. En este artículo, argumentamos que la inicialización aleatoria del decodificador está lejos de ser óptima y que el entrenamiento previo de los pesos del decodificador mediante un método de eliminación de ruido simple pero efectivo puede mejorar significativamente el rendimiento.

Los codificadores de eliminación automática de ruido tienen una larga y rica historia en el aprendizaje automático (Vincent et al., 2008; 2010). El método general consiste en agregar ruido a los datos limpios y entrenar el modelo para separar los datos de ruido nuevamente en datos limpios y componentes de ruido, lo que requiere que el modelo aprenda la distribución de los datos. Los objetivos de eliminación de ruido son muy adecuados para entrenar modelos predictivos densos porque se pueden definir fácilmente a nivel de píxel. Aunque la idea de eliminar ruido tiene una larga historia, el objetivo de eliminar ruido ha atraído recientemente un nuevo interés en el contexto de los modelos probabilísticos de difusión (DPM) de eliminación de ruido. (Sohl Dickstein et al., 2015; Song & Elmon, 2019; Ho et al., 2020). Los DPM aprenden a través de una serie de pasos iterativos de eliminación de ruido a convertir el ruido gaussiano en una distribución objetivo, aproximando así distribuciones empíricas complejas. Este enfoque ha logrado resultados impresionantes en la síntesis de imágenes y audio (Nichol & Dhariwal, 2021; Dhariwal & Dhariwal, 2021; Sahara et al., 2021b; He et al., 2021; Chen et al., 2021b), superando a las potentes GAN y líneas de base autorregresivas en puntuaciones de calidad de muestras.

Inspirándonos en el nuevo interés y el éxito de la eliminación de ruido en modelos de difusión, estudiamos la eficacia de la eliminación de ruido de codificadores automáticos para representaciones aprendidas en la segmentación semántica, específicamente para la decodificación previamente entrenada que a menudo se inicializa aleatoriamente.

En resumen, este artículo investiga el entrenamiento previo del decodificador en una arquitectura de segmentación semántica y descubre que se pueden lograr ganancias significativas mediante la inicialización aleatoria, especialmente en entornos con datos anotados limitados. Proponemos utilizar la eliminación de ruido para el entrenamiento previo del decodificador y conectar el codificador automático de eliminación de ruido a un modelo probabilístico de difusión para mejorar varios aspectos del entrenamiento previo de eliminación de ruido, como predecir el ruido en lugar de imágenes en el objetivo de eliminación de ruido y agregar gaussianos. Escalar la imagen antes del ruido. Esto conduce a mejoras significativas en el preentrenamiento supervisado estándar del codificador en tres conjuntos de datos.

En la Parte II, resumimos brevemente los detalles del preentrenamiento de eliminación de ruido convencional y luego profundizamos en él.

Los decodificadores de las partes 3 y 4 eliminan el ruido durante el entrenamiento previo.

La Sección 5 presenta una comparación empírica con los métodos más recientes.

2 métodos

Nuestro objetivo es aprender representaciones de imágenes que se transfieran bien a tareas de predicción visual densa. Consideramos una arquitectura que consta de un codificador fθ y un decodificador gφ, que está parametrizado por dos conjuntos de parámetros θ y φ. El modelo toma una imagen.

Esperamos encontrar una manera de inicializar los parámetros θ y φ para que el modelo pueda ajustar efectivamente la segmentación semántica con varias muestras etiquetadas. Para los parámetros del codificador θ, podemos inicializarlos durante la clasificación utilizando pesos previamente entrenados de acuerdo con la práctica estándar. Nuestra principal contribución involucra los parámetros del decodificador φ, que generalmente se inicializan aleatoriamente. Proponemos entrenar previamente estos parámetros como un codificador automático de eliminación de ruido (Vincent et al., 2008; 2010): dada una imagen X sin etiquetar, agregamos ruido gaussiano σc y desviación estándar fija σ a una imagen ruidosa xe, y luego entrenamos el modelo como un codificador automático gφ? ¿Fθ minimiza el error de reconstrucción kgφ(fθ(xe))? Xk 2 2 (optimizar solo φ y mantener θ sin cambios). A este método lo llamamos Decoder Denoising Pretraining (DDeP). Alternativamente, tanto φ como θ se pueden entrenar con eliminación de ruido (Denoising Pre-training; DeP). A continuación, analizamos varias modificaciones importantes a la formulación del codificador automático estándar que mejorarán significativamente la calidad de la representación.

Como dispositivo experimental, utilizamos Transune (Chen et al. (2021A); Figura 2).

El codificador se entrena previamente de acuerdo con la clasificación de ImageNet-21k (Deng et al., 2009), mientras que el decodificador se entrena previamente utilizando nuestro método de eliminación de ruido, que también utiliza imágenes sin etiquetar de ImageNet-21k. Después del entrenamiento previo, el modelo se ajusta en función de los paisajes urbanos, el contexto de Pascal o el conjunto de datos de segmentación semántica ADE20K (Cordts et al., 2016; Motage et al., 2014; Zhou et al., 2018). Informamos el índice de intersección promedio (mIoU) en todas las categorías semánticas. Se describen más detalles de implementación en la Sección 5.1.

La Figura 1 muestra que nuestro método DDeP supera significativamente a los métodos que solo entrenan previamente el codificador, especialmente en el caso de muestras pequeñas. La Figura 6 muestra que incluso DeP, que entrena previamente todo el modelo (codificador y decodificador) sin ningún entrenamiento previo supervisado, puede competir con el entrenamiento previo supervisado. Nuestros resultados muestran que, aunque el preentrenamiento de eliminación de ruido es simple, es un método eficaz para aprender representaciones para la segmentación semántica.

Preentrenamiento de eliminación de ruido del codificador y decodificador

Como se mencionó anteriormente, nuestro objetivo es aprender representaciones visuales eficientes que puedan traducirse bien en segmentación semántica y otras tareas de predicción visual densa. Revisamos el objetivo de eliminar el ruido para lograr este objetivo. Primero, presentamos la formulación de codificadores automáticos con eliminación de ruido estándar (tanto para codificador como para decodificador). Luego proponemos algunas modificaciones a la formulación estándar motivadas por el reciente éxito de los modelos de difusión en la generación de imágenes (Ho et al., 2020; Nicol & Dhariwal, 2021; Saharia et al., 2021b).

3.1 Objetivo de eliminación de ruido estándar

En la fórmula del codificador automático de eliminación de ruido estándar, dada una imagen sin etiqueta X, agregamos ruido gaussiano σc y desviación estándar fija σx Obtenga una imagen ruidosa xe,

¿Entonces entrenamos un codificador automático gφ? ¿Fθ minimiza el error de reconstrucción kgφ(fθ(xe))? xk 2 . Por lo tanto, la función objetivo toma la siguiente forma.

Aunque esta función objetivo ha producido representaciones útiles para la segmentación semántica, encontramos que algunas modificaciones clave pueden mejorar significativamente la calidad de la representación.

3.2 Selección de objetivos de eliminación de ruido entre objetivos

El modelo se entrena utilizando el objetivo del codificador automático de eliminación de ruido estándar para predecir la imagen sin ruido x. Sin embargo, los modelos de difusión generalmente se entrenan para predecir el. vector ruidoso c (Vincent, 2011; Ho et al., 2020):

Para modelos con conexiones de salto desde la entrada xe a la salida, estas dos fórmulas se comportan de manera similar. En este caso, el modelo puede combinar fácilmente su estimación de c con la entrada xe para obtener x.

Pero en ausencia de conexiones de salto explícitas, nuestros experimentos muestran que la predicción de vectores ruidosos es significativamente mejor que la predicción de imágenes libres de ruido (Tabla 1).

3.3 Escalabilidad de la eliminación de ruido como objetivo previo al entrenamiento

Los métodos de preentrenamiento no supervisados ​​se verán afectados en última instancia por la diferencia entre la representación aprendida por el objetivo previo al entrenamiento y la representación requerida por la tarea objetivo final. Para cualquier objetivo no supervisado, una "verificación de cordura" importante es que no alcance este límite rápidamente, para garantizar que esté bien alineado con la tarea objetivo. Descubrimos que las representaciones aprendidas mediante la eliminación de ruido continuarán aumentando hasta nuestro presupuesto computacional previo al entrenamiento máximo factible (Figura 3). Esto demuestra que la eliminación de ruido es un método escalable y la calidad continúa mejorando a medida que aumenta el presupuesto computacional.

3.4 Eliminación de ruido y entrenamiento supervisado previamente

En la formulación estándar de codificadores automáticos de eliminación de ruido, todo el modelo (codificador y decodificador) se entrena mediante eliminación de ruido. Pero al menos cuando los datos de ajuste son abundantes, el rendimiento del preentrenamiento de eliminación de ruido de todo el modelo no es tan bueno como el preentrenamiento supervisado estándar del codificador (Tabla 2). En la siguiente sección, exploramos una combinación de eliminación de ruido y preentrenamiento supervisado para obtener los beneficios de ambos.

4. Entrene previamente el decodificador para eliminar ruido.

De hecho, el principal potencial de la eliminación de ruido radica en el entrenamiento previo de los pesos del decodificador, ya que existen métodos potentes y escalables para el entrenamiento previo de los pesos del codificador.

Por lo tanto, fijamos los parámetros del codificador θ a los valores obtenidos mediante el entrenamiento previo supervisado en ImageNet-21k, y solo entrenamos previamente y eliminamos el ruido de los parámetros del decodificador φ para lograr los siguientes propósitos:

Llamamos Este Un esquema de preentrenamiento es el preentrenamiento de eliminación de ruido del decodificador (DDeP). Como se muestra en la figura siguiente, entre todos los mecanismos de eficiencia de anotación, DDeP funciona mejor que la supervisión pura o el entrenamiento previo de eliminación de ruido puro. Antes de presentar los resultados de las pruebas comparativas en la Sección 5, examinamos las decisiones clave de diseño de DDeP, como la formulación de ruido y los niveles óptimos de ruido en esta sección.

4.1 Tamaño del ruido y relación relativa entre la imagen y el ruido

El hiperparámetro clave para eliminar el ruido del preentrenamiento del decodificador es el ruido agregado a la imagen. La variación del ruido σ debe ser lo suficientemente grande como para que la red deba aprender una representación de imagen significativa para eliminarla, pero no tan grande como para que la desviación de distribución entre imágenes limpias y ruidosas sea demasiado grande. Para inspección visual, la Figura 4 muestra varios valores de muestra de σ.

Además del tamaño absoluto del ruido, también descubrimos que la escala relativa de imágenes limpias y ruidosas también juega un papel importante. Los diferentes métodos de eliminación de ruido difieren en este aspecto. Específicamente, DDPM produce una imagen ruidosa.

Esto es diferente de la fórmula estándar de eliminación de ruido en la ecuación (1) porque X decae como √γ y C decae como √ 1. γ para asegurar que si la varianza de x es 1, entonces la varianza de la variable aleatoria xe es 1. Usando esta fórmula, nuestro objetivo de preentrenamiento de eliminación de ruido se convierte en:

En la Figura 5, comparamos esta fórmula de ruido aditivo escalado con la fórmula de ruido aditivo simple (Ecuación (1)) y descubrimos que escalar imágenes puede mejorar significativamente mejorar el rendimiento de la segmentación semántica posterior. Especulamos que desacoplar la varianza de las imágenes ruidosas y el tamaño del ruido reduce el sesgo de distribución entre imágenes limpias y ruidosas, mejorando así la transferencia de representaciones previamente entrenadas a la tarea final. Por lo tanto, esta fórmula se utilizará en el resto de este artículo. Descubrimos que para la formulación de ruido aditivo escalado, la amplitud de ruido óptima es 0,22 (Figura 5) y utilizamos este valor en los siguientes experimentos.

4.2 Selección de conjuntos de datos de preentrenamiento

En principio, cualquier conjunto de datos de imagen se puede utilizar para eliminar el ruido del preentrenamiento. Idealmente, nos gustaría utilizar conjuntos de datos grandes (como ImageNet) para el entrenamiento previo, pero esto trae un problema potencial, es decir, los cambios en la distribución entre los datos previos al entrenamiento y los datos de destino pueden afectar el rendimiento de la tarea de destino. Para verificar esto, comparamos el entrenamiento previo del decodificador en varios conjuntos de datos, mientras que el entrenamiento previo del codificador en ImageNet-21K mantuvo el objetivo de clasificación sin cambios. Descubrimos que el entrenamiento previo del decodificador en ImageNet-21K funciona mejor que en los datos de destino para todos los conjuntos de datos de prueba (paisajes urbanos, contexto Pascal y ADE20K; Tabla 3). En particular, esto es válido incluso para los paisajes urbanos, con diferencias significativas en la distribución de imágenes con respecto a ImageNet-21k. Por lo tanto, los modelos previamente entrenados usando DDeP en conjuntos de datos de imágenes generales generalmente son aplicables a una amplia gama de conjuntos de datos de destino.

4.3 Variantes del decodificador

Teniendo en cuenta que el entrenamiento previo para la eliminación de ruido mejora significativamente la inicialización aleatoria del decodificador, planteamos la hipótesis de que este enfoque puede escalar el decodificador en la medida en que los beneficios sean reducido cuando se utiliza la inicialización aleatoria. Probamos esto variando la cantidad de mapas de características en cada etapa del decodificador. La configuración de decodificador predeterminada (1 ×) para todos nuestros experimentos es [1024, 512, 256, 128, 64], donde el valor en el índice I corresponde al número de mapas de características en el I-ésimo bloque de decodificador. Esto se refleja en la Figura 2. En Cityscapes intentamos duplicar el ancho predeterminado de todas las capas del decodificador (2x), y en el contexto Pascal y ADE20K intentamos duplicar el ancho (3x). Si bien los decodificadores más grandes generalmente mejoran el rendimiento, incluso durante la inicialización aleatoria, DDeP aporta ganancias adicionales en todos los casos. Por lo tanto, DDeP puede habilitar nuevas arquitecturas con uso intensivo de decodificadores. La sección 5 proporciona los resultados principales para el decodificador 1× y el decodificador 2×3×.

4.4 Extensiones del proceso de difusión

Como se mencionó anteriormente, encontramos que al ajustar ciertos aspectos de la formulación estándar del codificador automático, como la selección de objetivos de predicción y la escala relativa de la imagen y ruido, la representación previamente entrenada se puede mejorar para que sea más similar al modelo de difusión.

Esto plantea la cuestión de si la representación se puede mejorar aún más mediante un entrenamiento previo utilizando un proceso de difusión total. Aquí examinamos las extensiones que acercan este método al proceso de difusión completo utilizado en DDPM, pero descubrimos que no mejoran los resultados del método simple descrito anteriormente.

Tabla de ruido variable.

Debido a que utiliza un único nivel de ruido fijo (γ en la ecuación (6)), nuestro método corresponde a un solo paso en el proceso de difusión. Los DDPM completos simulan el proceso de difusión completo desde imágenes limpias hasta ruido puro (y viceversa) mediante un muestreo aleatorio y uniforme de la amplitud del ruido γ de [0, 1] para cada muestra de entrenamiento (Ho et al., 2020). Por lo tanto, también experimentamos con γ muestreado aleatoriamente, pero descubrimos que γ fijo funcionó mejor (Tabla 4).

Ajusta los niveles de ruido.

En forma de difusión, el modelo representa la función de transferencia (inversa) de un nivel de ruido al siguiente, por lo que está condicionado al nivel de ruido actual. En la práctica, esto se logra alimentando γ muestreado como una entrada de modelo adicional para cada muestra de entrenamiento, por ejemplo, en una capa de normalización. Dado que normalmente utilizamos niveles de ruido fijos, nuestro método no requiere sintonización. Cuando se utiliza un programa de ruido variable, los ajustes no proporcionan ninguna mejora.

Ponderación del nivel de ruido.

En DDPM, el peso relativo de los diferentes niveles de ruido en la pérdida tiene un gran impacto en la calidad de la muestra (Ho et al., 2020). Debido a que nuestros experimentos muestran que aprender representaciones transferibles no requiere múltiples niveles de ruido, no experimentamos con pesos para diferentes niveles de ruido, pero observamos que esto podría ser una dirección interesante para futuras investigaciones.

5 resultados comparativos

Evaluamos la efectividad del preentrenamiento de eliminación de ruido (DDeP) del decodificador propuesto en varios conjuntos de datos de segmentación semántica y realizamos un experimento de eficiencia de anotación.

5.1 Detalles de implementación

Para el ajuste posterior de modelos previamente entrenados para tareas de segmentación semántica, utilizamos la pérdida de entropía cruzada estándar por píxeles. Usamos el optimizador Adam (King Ma & Ba, 2015) y un programa de caída de la tasa de aprendizaje del coseno. Para el entrenamiento previo de la eliminación de ruido del decodificador (DDeP), utilizamos un tamaño de lote de 512 y entrenamos durante 100 épocas. ¿Velocidad de aprendizaje 6e? 5 para decodificadores de ancho 1x y 3x, 1e? 4 para decodificador de ancho 2x.

Al ajustar el modelo previamente entrenado en la tarea de segmentación semántica objetivo, escaneamos los valores de caída de peso y tasa de aprendizaje [1e? 5,3e? 4] y elige la mejor combinación para cada tarea. Para la configuración del 100 %, informamos el promedio de 10 ejecuciones en todos los conjuntos de datos. En el contexto de Pascal y ADE20K, también informamos el promedio de 10 carreras (diferentes subconjuntos) con puntuaciones marcadas en 1%, 5% y 10%, y el promedio de 5 carreras establecidas en 20%. En Cityscape, informamos el promedio de 10 ejecuciones en la configuración 1/30, las siguientes 6 ejecuciones en la configuración 1/8 y las siguientes 4 ejecuciones en la configuración 1/4.

Durante el proceso de capacitación, se aplican recortes aleatorios y volteos aleatorios de izquierda a derecha a las imágenes y sus correspondientes plantillas de segmentación. Recortamos aleatoriamente las imágenes a un tamaño fijo de 1024 × 1024 para el paisaje urbano y a un tamaño fijo de 512 × 512 para los contextos ADE20K y Pascal. Todas las operaciones de entrenamiento previo para eliminar el ruido del decodificador se realizan con una resolución de 224 × 224.

En el proceso de inferencia del paisaje urbano, la imagen de resolución completa de 1024×2048 se divide en dos parches de entrada de 1024×1024 para su evaluación. Usamos volteo horizontal y promediamos los resultados de cada mitad. Las dos mitades están conectadas en serie, produciendo una salida de resolución completa. Para Pascal Context y ADE20K, además del volteo horizontal, también utilizamos evaluación multiescala en la versión reescalada de la imagen. Los factores de escala utilizados son (0,5, 0,75, 1,0, 1,25, 1,5, 1,75).

5.2 Ganancia de rendimiento del preentrenamiento del decodificador

En términos de paisajes urbanos, DDeP supera al DeP y al preentrenamiento supervisado. En la Figura 6, informamos los resultados de DeP y DDeP en paisajes urbanos y los comparamos con la inicialización aleatoria o el entrenamiento con el codificador previamente entrenado ImageNet-21K.

Los resultados de DeP utilizan la fórmula de ruido aditivo escalado (ecuación (5)) y proporcionan un rendimiento significativamente mejorado en comparación con los resultados obtenidos con objetivos de eliminación de ruido estándar.

Como se muestra en la Figura 6, DeP supera la línea de base supervisada en las configuraciones de imagen anotada del 1% y el 5%. El preentrenamiento de eliminación de ruido del decodificador (DDeP) mejora aún más el preentrenamiento supervisado por DeP e ImageNet-21K para las variantes de decodificador 1× y 2× (Tabla 6).

Como se muestra en la Tabla 5.2, DDeP supera a los métodos de segmentación semántica efectivos propuestos anteriormente para la anotación del paisaje urbano en todas las puntuaciones de anotación. Con solo el 25 % de los datos de entrenamiento, DDeP logra mejores resultados de segmentación que el método de referencia más potente PC2Seg (Zhong et al., 2021) cuando se entrena con el conjunto de datos completo. A diferencia de trabajos recientes, no realizamos una evaluación a múltiples escalas de los paisajes urbanos, lo que conduciría a mayores mejoras.

DDeP también mejora el entrenamiento previo supervisado en el conjunto de datos de contexto de Pascal. La Figura 1 compara el desempeño de DDeP con líneas de base supervisadas y Pascal en el 1%, 5%, 10%, 20% y 100% de los datos de entrenamiento. La Tabla 5.2 compara estos resultados con los obtenidos utilizando el decodificador 3x. Para decodificadores 1× y 3×, el rendimiento de DDeP es arquitectónicamente significativamente mejor que el del mismo modelo supervisado, logrando una mejora de mIOU del 4 al 12 % en todas las configuraciones semisupervisadas. En particular, al utilizar solo un 10 % de etiquetas, DDeP supera al modelo supervisado entrenado con un 20 % de etiquetas.

La Figura 7 muestra mejoras similares para DDeP en el conjunto de datos ADE20K. Nuevamente vemos ganancias de más de 10 pips en las configuraciones del 5% y 10%, y de más de 5 pips en la configuración del 1%. Estos resultados consistentes demuestran la efectividad de DDeP en todos los tamaños de conjuntos de datos y conjuntos de entrenamiento.

Utilizamos Transune (Chen et al. (2021a));) para los resultados anteriores. Figura 2) Arquitectura de máximo rendimiento, pero DDeP es independiente de las troncales y también aporta beneficios cuando se utiliza con arquitecturas troncales más simples. En la Tabla 7, entrenamos un U-Net estándar con codificador ResNet50 y DDeP (sin evaluación multiescala) en un entorno Pascal. DDeP supera la línea base de monitoreo en todos los entornos, lo que demuestra que nuestro enfoque supera a las arquitecturas de transformadores.

6 trabajos relacionados

Dado que recopilar anotaciones detalladas a nivel de píxel para la segmentación semántica es costoso, requiere mucho tiempo y es propenso a errores, se han propuesto muchos métodos para lograr la semántica a partir de menos etiquetas. Segmentación de muestras (Tarvainen &: Valpola, 2017; Miyafuji et al., 2018; Hong et al., 2018; Mittal et al., 2021; French et al., 2019; Oali et al., 2020; Zou et al., 2021; Feng et al., 2020b Ke et al., 2020; Olson et al., 2021; Zhong et al., 2021; van Engelen & Hoos, 2020), en Este tipo de aprendizaje supone acceso a un gran conjunto de datos de imágenes sin etiquetar además de datos de entrenamiento etiquetados. A continuación, analizamos trabajos previos sobre el papel del fuerte aumento de datos, la generación de modelos, el autoentrenamiento y el aprendizaje autosupervisado en la anotación de una segmentación semántica efectiva. Si bien este trabajo se centra en el preentrenamiento de autocontrol, creemos que se pueden combinar un potente aumento de datos y el autoentrenamiento con el método de preentrenamiento de eliminación de ruido propuesto para mejorar aún más los resultados.

Mejora de datos.

French et al. (French et al., 2019) demostraron que potentes técnicas de aumento de datos como Cutout (dev ries & Taylor (2017)) y CutMix (Yun et al., 2019) son efectivas para una pequeña cantidad de anotaciones. La segmentación semántica de muestras es particularmente efectiva. Ghiasi et al (2021) descubrieron que el simple aumento de copiar y pegar ayudó a la segmentación de instancias.

El trabajo preliminar (Remez et al., 2018; Chen et al., 2019; Bilski & Favaro, 2019; Arangelovi & Zisserman (2019)) también ha demostrado que al combinar diferentes regiones de primer plano y fondo con GAN (Goodfello et al., 2014) para explorar la segmentación semántica totalmente no supervisada. Utilizamos un aumento de datos relativamente simple que incluye volteo horizontal y recorte inicial aleatorio (Szegedy et al., 2015) para mejorar con datos más potentes para el trabajo generativo. modelos

En los primeros trabajos sobre el etiquetado de segmentaciones semánticas eficientes, se utilizaron GAN para generar datos de entrenamiento sintéticos (Souly et al., 2017), distinguiendo entre segmentos reales y predichos (Hung et al., 2018; Mittal et al., 2021). DatasetGAN (Zhang et al., 2021) muestra que las arquitecturas GAN modernas (Karras et al., 2019) son excelentes para generar datos sintéticos para ayudar a la comprensión de imágenes a nivel de píxeles. En este momento hay algunas imágenes etiquetadas disponibles. Nuestro método está altamente relacionado con los modelos de difusión y generación fraccionada (Sohl Dickstein et al., 2015; Song & Elmon, 2019; Ho et al., 2020), que representan una nueva generación de. familia de modelos, mejor que Gans (Dhariwal y Nicol, 2021; He et al., 2021). Estos modelos están conectados con codificadores automáticos de eliminación de ruido mediante la coincidencia de puntuaciones de eliminación de ruido (Vincent, 2011), que puede considerarse como un enfoque de entrenamiento basado en energía. Modelos basados ​​​​en (Hyv? Linin y Dayan, 2005). El modelo de difusión de eliminación de ruido (DNF) se ha aplicado recientemente a tareas de generación condicional como superresolución, colorización y restauración (Li et al., 2021; Sahara 2021b; Song et al. al., 2021; Saharia et al., 2021a), muestran que estos modelos pueden aprender representaciones de imágenes útiles. Nos inspiramos en el éxito de DDPM, pero descubrimos que muchos componentes de DDPM no son necesariamente simples. -El entrenamiento tiene buenos resultados. Se han utilizado modelos de difusión para optimizar iterativamente las máscaras de segmentación semántica (Amit et al., 2021; Hoogeboom et al., 2021). Las características aprendidas son efectivas en la segmentación semántica y estas características se derivan de un pequeño número. de muestras etiquetadas, por el contrario, utilizamos un entrenamiento previo de eliminación de ruido simple para el aprendizaje de representación y estudiamos el ajuste completo de la arquitectura del codificador-decodificador en lugar de extraer características fijas, comparamos nuestros resultados con trabajos anteriores utilizando puntos de referencia bien establecidos. /p>

El autoentrenamiento (autoaprendizaje) o pseudoetiquetado es uno de los algoritmos SSL más antiguos (Scudder, 1965; Fralik, 1967; Agrawala, 1970; Yaroski, 1995). El modelo supervisado inicial, con el llamado pseudoetiquetado, anota datos no etiquetados y luego utiliza una combinación de datos pseudoetiquetados y etiquetados por humanos para entrenar un modelo mejorado. Este proceso iterativo se puede repetir varias veces. El autoentrenamiento se ha utilizado para mejorar la detección de objetos (Rosenberg et al., 2005; Zoph et al., 2020) y la segmentación semántica (Zhu et al., 2020; Zou et al., 2021; Feng et al., 2020a; Chen y otros, 2020a). La regularización de la coherencia está estrechamente relacionada con el autoentrenamiento y mejora la coherencia de las predicciones durante la mejora de la imagen (French et al., 2019; Jin et al., 2020; O'Ally et al., 2020. Estos métodos a menudo requieren un ajuste cuidadoso). ultraparámetros y un modelo inicial razonable para evitar la propagación del ruido. Combinar el autoentrenamiento con el preentrenamiento para eliminar ruidos puede mejorar aún más los resultados.

Aprendizaje autodirigido.

Los métodos de aprendizaje autosupervisados ​​pueden generar tareas de excusa predictivas que se construyen fácilmente a partir de datos sin etiquetar y facilitan las tareas de diferenciación posteriores. En el procesamiento del lenguaje natural (PNL), la tarea de modelado del lenguaje enmascarado (Devlin et al., 2019; Liu et al., 2019; Raffel et al., 2020) se ha convertido en el estándar de facto, con un rendimiento impresionante en tareas de PNL. resultados.

En visión por computadora, se han propuesto diferentes tareas de pretexto para el aprendizaje autosupervisado, incluida la tarea de predecir las posiciones relativas de parches adyacentes en una imagen (Doersch et al., 2015), la tarea de reparación (Pathak et al., 2016 ), y la tarea de resolver acertijos (Noroozi &, 2016), colorear imágenes (Zhang et al., 2016; Larsson et al., 2016), predicción de rotación (Gidaris et al., 2018) y otras tareas (. Zhang et al., 2017; Caron et al., 2018; Colles Nikov et al., 2019. Recientemente, los métodos basados ​​en la discriminación de muestras y el aprendizaje comparativo han mostrado resultados prometedores en la clasificación de imágenes (Oord et al., 2018). al., 2018; He et al., 2020; Chen et al., 2020bc; Grill et al., 2020 et al., 2020d), pero a diferencia de este trabajo, los parámetros del decodificador generalmente se inicializan de forma aleatoria. Recientemente también han aparecido una serie de métodos basados ​​en codificación automática enmascarada como (Bao et al., 2021), MAE (He et al., 2021) y otros métodos (Zhou et al., 2021; Dong et al. , 2021; Chen et al., 2022). Observamos que nuestro método fue desarrollado para modelar estas secuencias de imágenes de máscara simultáneamente y que nuestra técnica es ortogonal en el sentido de que nos enfocamos en el entrenamiento previo del decodificador, que no es el enfoque del artículo anterior.

Aprendizaje autosupervisado para una predicción densa.

Pinheiro et al. (2020) y Wang et al. (2021) propusieron el aprendizaje contrastivo por refuerzo, un método de preentrenamiento autosupervisado para tareas de predicción de refuerzo. El aprendizaje de contraste se aplica a funciones a nivel de parches y píxeles en lugar de funciones a nivel de imagen. Esto recuerda a Amdim (Bachman et al., 2019) y CPC V2 (Hainaf et al., 2019). Zhong et al. (2021) llevaron esta idea más allá al combinar la coherencia de la máscara de segmentación entre diferentes resultados del modelo aumentado (posiblemente sin etiquetar) de la imagen con la coherencia de las características a nivel de píxel del aumento general.

Transformadores visuales.

Inspirándose en el éxito de Transformer en PNL (Vaswani et al., 2017), existen publicaciones que estudian la combinación de convolución y autoatención (Carion et al., 2020), segmentación semántica (Wang et al., 2018; 2020b) y segmentación panorámica (Wang et al., 2020a). Vision Transformer (Vit) (Dosovitskiy et al., 2021) demuestra que los métodos de deconvolución pueden producir resultados impresionantes cuando se dispone de grandes conjuntos de datos etiquetados. Estudios recientes han explorado la ViT como la columna vertebral de la segmentación semántica (Zheng et al., 2020; Liu et al.; Strudel et al., 2021). Estos métodos difieren en la estructura del decodificador, pero todos muestran capacidades de segmentación semántica basadas en ViT. Utilizamos ViT híbrido (Dosovitskiy et al., 2021) como columna vertebral, donde la proyección de incrustación de parches se aplica a parches extraídos de mapas de características convolucionales. Estudiamos el tamaño del decodificador y descubrimos que los decodificadores más anchos generalmente mejoran los resultados de la segmentación semántica.

7 Conclusiones

Inspirándonos en los modelos probabilísticos de difusión recientemente populares para la síntesis de imágenes, estudiamos la efectividad de estos modelos en el aprendizaje de representaciones transferibles útiles para la segmentación semántica. Sorprendentemente, encontramos que el entrenamiento previo de un modelo de segmentación semántica como un codificador de eliminación automática de ruido puede mejorar en gran medida el rendimiento de la segmentación semántica, especialmente cuando el número de muestras etiquetadas es limitado. Con base en esta observación, proponemos un método de preentrenamiento de dos etapas en el que un codificador preentrenado supervisado se combina con un decodificador preentrenado con eliminación de ruido. Esto conduce a ganancias consistentes en los tamaños de los conjuntos de datos y de entrenamiento, lo que resulta en un enfoque de preentrenamiento viable. También sería interesante explorar la aplicación del preentrenamiento de eliminación de ruido a otras tareas de predicción densa.