Máscara de serie de detección de objetos r-CNN-preprocesamiento

Antes de ingresar la imagen en la red neuronal, se requiere algún trabajo de preprocesamiento necesario.

Restar la media: El vector media (3 image.

Reescalado: Aquí se considerarán dos parámetros, el tamaño objetivo y el tamaño máximo. Ajuste el lado corto (ancho o alto) de la imagen al tamaño objetivo, luego ajuste el lado largo (ancho o alto) para mantener la relación de aspecto. Sin embargo, si el lado largo ajustado (ancho o alto) excede el tamaño máximo, el tamaño del lado debe ajustarse al tamaño máximo y el lado corto (ancho o alto) se ajusta de acuerdo con la relación de aspecto original, manteniendo el aspecto. relación sin cambios. Los valores predeterminados para el tamaño objetivo y el tamaño máximo son 800 y 1333 respectivamente.

Relleno de bordes: debido a que se utiliza FPN, es necesario el relleno de bordes. Todo el relleno está solo en el extremo derecho e inferior, por lo que las coordenadas del objetivo no se ven afectadas y el sistema de coordenadas comienza en la esquina superior izquierda. Si no está utilizando FPN, este paso no es necesario.

El ancho de la imagen es el lado más pequeño (600). Después de cambiar su tamaño a 800, se cambia el tamaño de otra dimensión alta según la relación de aspecto para obtener la nueva altura (1200), pero 1200 no es un múltiplo de 32, por lo que es necesario rellenarlo para que el tamaño resultante sea un múltiplo de 32. (1216 /32

Nota: La altura y el ancho de la imagen utilizada en la generación del ancla y los pasos de convolución se tratarán como la imagen ajustada, no como la altura acolchada.