V-Net es otra versión de 3D U-Net. La diferencia entre este y U-Net es: 1. Modelo end2ent de segmentación de imágenes 3D (basado en convolución 3D), utilizado para la segmentación de imágenes médicas del volumen de próstata por resonancia magnética. 2. La nueva función objetivo se basa en el coeficiente Dice. 3. Métodos de expansión de datos: transformación aleatoria no lineal y coincidencia de histogramas. 4. Agregar aprendizaje residual para mejorar la convergencia.
(1) Estructura de red
La característica principal de su estructura de red es la convolución tridimensional, y se introducen el módulo residual y el marco U-Net. La estructura de la red es la siguiente:
?
? Toda la red se divide en rutas comprimidas y rutas no comprimidas, es decir, el mapa de características se reduce y expande, y la mitad de las características se reducen en cada nivel, es decir, 128-128-64-32-16-8. , 1-16-32-64-8 en el canal. Se agrega aprendizaje residual a cada etapa para acelerar la convergencia.
El círculo más una cruz en la imagen indica una convolución con un núcleo de convolución de 5*5*5 y un paso de 1. Se puede ver que cuando el relleno es 2*2*2, el tamaño de la característica puede permanecer sin cambios. Al final de cada etapa, se utiliza una convolución con un núcleo de convolución de 2*2*2 y un paso de 2, y el tamaño de la característica se reduce a la mitad (la agrupación máxima de 2x2 se reemplaza por 2xconv.). utiliza PReLU propuesto por Keiming et al. La unidad no lineal agrega una convolución 1 * 1 * 1 al final de la red, la procesa en datos del mismo tamaño que la entrada y luego la conecta con un softmax.
(2) Función de pérdida
Debido a que la perspectiva es relativamente pequeña y no es fácil de aprender durante el proceso de aprendizaje, se redefine la función de pérdida del coeficiente de Dice. El coeficiente de similitud de dados de dos matrices binarias es:
?
? Utilice esta función para evitar el desequilibrio de clases. ?