Preguntas comunes de entrevista para ingenieros de algoritmos de visión por computadora 1

Referencia:/column/c _ 1170719557072326656

La deconvolución también se llama convolución transpuesta. Si la operación de convolución se implementa mediante la multiplicación de matrices y el núcleo de convolución se aplana en una matriz, entonces la convolución transpuesta se multiplica por el WT transpuesto de esta matriz en el cálculo directo y se multiplica por w en la propagación hacia atrás, que es exactamente lo opuesto a la operación de convolución. Cabe señalar que la deconvolución no es la operación inversa de la convolución.

[Pregunta de Zhihu + implementación de caffe]

Logra un muestreo superior; reconstrucción aproximada de la imagen de entrada y visualización de la capa convolucional.

Siempre que la función de activación se seleccione correctamente y el número de neuronas sea lo suficientemente grande, una red neuronal con al menos una capa oculta puede aproximarse a cualquier función continua en un intervalo cerrado con cualquier precisión especificada.

El modelo discriminante genera directamente la etiqueta de categoría o genera la probabilidad posterior p(y|x)

[ /question/268906476]

[ /p / 40024110]

[/p/159189617]

BN está normalizado en la dimensión del lote y GN es la varianza media de cada grupo en la dirección del canal.

La intersección de los resultados de la detección y el valor de verdad fundamental es mayor que su unión, que es la precisión de detección IoU.

Uso de memoria/memoria de video; velocidad de convergencia del modelo, etc.

La matriz de Hesse es n*n, que es muy grande en dimensiones altas, y tanto el cálculo como el almacenamiento son problemas.

Si el mini lote es demasiado pequeño, provocará una convergencia lenta. Si el mini lote es demasiado grande, caerá fácilmente en un mínimo pronunciado y tendrá poca capacidad de generalización.

Puedes pensar en la deserción escolar como un enfoque conjunto. Cada vez que abandonas la escuela, equivale a encontrar una red más delgada de la red original.

La operación de agregación puede aumentar el campo receptivo, pero se perderá parte de la información. La convolución hueca inserta un valor con un peso de 0 en el núcleo de convolución, por lo que cada convolución omitirá algunos píxeles;

La convolución hueca aumenta el campo receptivo de cada punto en la salida de convolución y es similar a la agrupación. , perderá información, por lo que se usa ampliamente en problemas que requieren información global para imágenes o secuencias largas de secuencias de voz relacionadas.

La expresión es:

La razón por la que se utiliza BN es porque los cambios en los parámetros de cada capa durante el entrenamiento de la red provocarán cambios en la distribución de las entradas a las capas posteriores, y la El proceso de aprendizaje hará que cada capa Para adaptarse a la distribución de la entrada, la tasa de aprendizaje de la red debe reducirse y los cambios covariantes internos deben realizarse con cuidado.

Si los datos tienen media cero y varianza unitaria solo mediante el método de normalización, el poder expresivo de la capa se reducirá (por ejemplo, al usar la función Sigmoide, solo se usará la región lineal).

El proceso específico de BN (tenga en cuenta que ε debe agregarse al denominador en la tercera fórmula)

La mejor explicación es que múltiples canales están desacoplados con energía de núcleo de convolución 1 * 1 Correlación entre canales y desacoplamiento de correlación espacial.

Sin embargo, debido a un desacoplamiento incompleto, se utiliza el modo de convolución grupal de la red móvil y la red aleatoria.

Dado que 1×1 no cambia la altura y el ancho, el primer y más intuitivo resultado de cambiar el canal es aumentar o disminuir la cantidad original de datos. Lo que cambia es solo el tamaño de la dimensión del canal en alto × ancho × canal.

El núcleo de convolución 1 * 1 puede aumentar en gran medida las características no lineales (utilizando la siguiente función de activación no lineal) mientras mantiene la escala del mapa de características sin cambios (es decir, sin perder resolución), lo que hace que la red sea muy profunda. .

Observaciones: Convolucione un filtro para obtener un mapa de características, convolucione diferentes filtros (diferentes pesos y sesgos) para obtener diferentes mapas de características y extraiga diferentes características para obtener las neuronas especializadas correspondientes.

Ejemplo: utilizando un núcleo de convolución 1x1, las operaciones de reducción y aumento de dimensionalidad son en realidad cambios de combinación lineal de información entre canales. Agregar un núcleo de convolución de 1x1 y 28 canales después del núcleo de convolución de 3x3 y 64 canales se convierte en un núcleo de convolución de 3x3 y 28 canales, y se pueden entender los 64 canales originales.

Nota: Las dimensiones del canal solo realizan combinaciones lineales, y la ventana corredera con pesos * * * está en W y h.

No significa que este modelo no sea válido. Las razones por las que el modelo no converge pueden ser las siguientes.

R. En escenarios reales, se debe utilizar ADAM tanto como sea posible y se debe evitar SGD.

B. Con la misma tasa de aprendizaje inicial, la velocidad de convergencia de ADAM siempre es más rápida que la del método SGD.

c Cuando el número de parámetros es el mismo, SGD más el ajuste manual generalmente logrará mejores resultados que el ajuste de la tasa de aprendizaje adaptativo.

D. Al mismo ritmo de aprendizaje inicial, ADAM es más fácil de sobreadaptar que SGD.

A. Asegúrese de que el campo receptivo de cada capa permanezca sin cambios y que la profundidad de la red se profundice, haciendo que la red sea más precisa.

b. Se amplía el campo receptivo de cada capa y se aumenta la capacidad de aprender pequeñas características.

c.Extraiga eficazmente información semántica de alto nivel y procese semántica de alto nivel, mejorando así de manera efectiva la precisión de la red.

d. Esta estructura se utiliza para reducir eficazmente el peso de la red.

A. Cálculo simple

B. No linealidad

C. Con zona saturada

D. >La función Relu no es diferenciable en 0.

La velocidad de convergencia de A.Adam es más lenta que la de RMSprop.

B. En comparación con optimizadores como SGD o RMSprop, Adam tiene el mejor efecto de convergencia.

C. Para redes neuronales ligeras, Adam es más adecuado que RMSprop.

D. En comparación con optimizadores como Adam o RMSprop, SGD tiene el mejor efecto de convergencia.

SGD generalmente lleva mucho tiempo entrenar y es fácil caer en puntos de silla, pero los resultados son más confiables cuando el esquema de programación de la tasa de inicialización y aprendizaje es bueno. Si le interesa una convergencia más rápida y necesita entrenar una red más profunda y compleja, se recomienda utilizar el método de optimización adaptativa de la tasa de aprendizaje.

R. El uso de ReLU como función de activación puede prevenir eficazmente la explosión de gradiente.

B. Usando Sigmoide como función de activación, el gradiente desaparece fácilmente.

c El uso de capas de normalización por lotes puede prevenir eficazmente la explosión de gradientes.

D. El uso de la atenuación del peso del parámetro puede evitar el sobreajuste del modelo hasta cierto punto.

Dudas sobre los resultados. Se cree que ambos se pueden prevenir.

A.Firmado en

B.FTRL

C.RMSProp

D.Levorotary BFGS

BFGS Método (BFGS de memoria limitada):

Todos los datos participarán en el entrenamiento y el algoritmo combina la normalización de la varianza y la normalización de la media. Al entrenar DNN con un gran conjunto de datos, es fácil tener demasiados parámetros (una versión evolucionada del método de Newton, que busca mejores direcciones de optimización y reduce las rondas de iteración). A juzgar por el proceso del algoritmo LBFGS, todo su núcleo es cómo calcular rápidamente una aproximación de Hesse: el primer punto es la aproximación, por lo que hay un proceso de cálculo iterativo que utiliza las primeras m direcciones descendentes aproximadas en el algoritmo LBFGS; rápido, lo que se refleja en el hecho de que no es necesario guardar la matriz de Hesse y solo se puede usar una secuencia derivada de primer orden guardada, por lo que no se requiere una gran cantidad de almacenamiento, lo que ahorra recursos informáticos en tercer lugar; La corrección de rango dos se utiliza para construir una matriz definida positiva durante el proceso de derivación. Incluso si esta matriz no es la dirección descendente óptima, al menos puede garantizar que la función descienda.

FTRL (seguir al líder regulado) es un algoritmo de optimización del aprendizaje en línea de uso común con una gran cantidad de funciones dispersas. Es conveniente, práctico y eficaz. A menudo se utiliza para actualizar los modelos de predicción de CTR. en línea. FTRL funciona muy bien cuando se trata de problemas de optimización convexa con términos de regularización no suaves (como la regularización L1). No solo puede controlar la escasez del modelo mediante la regularización L1, sino que también tiene una rápida velocidad de convergencia.

A.LSTM resuelve hasta cierto punto el problema de desaparición o explosión de gradiente del RNN tradicional.

B. Una ventaja de CNN en comparación con la conexión total es que la complejidad del modelo es baja, lo que alivia el sobreajuste.

C. Siempre que los parámetros se establezcan de manera razonable, el efecto del aprendizaje profundo debería ser al menos mejor que el de los algoritmos aleatorios.

D. El método de descenso de gradiente estocástico puede aliviar el problema de caer en un punto de silla durante el entrenamiento de la red.

De hecho, existen muchas medidas y mejoras para objetivos pequeños, como se muestra a continuación:

El método más común es aumentar la muestra del tamaño de la imagen en la red Rezie;

Utilice convoluciones especiales, como expandidas/astros, para aumentar la sensibilidad del detector a la resolución. (La convolución de agujeros es una idea de convolución. Se cree que la reducción de resolución reducirá la resolución de la imagen y perderá la información en la segmentación semántica de la imagen.

El campo receptivo se expande agregando agujeros, de modo que el núcleo de convolución original de 3 × 3 tenga un campo receptivo de 5 × 5 (tasa de dilución = 2) o mayor bajo la misma cantidad de parámetros y cantidad de cálculo, sin reducir la resolución. Mientras se mantiene el número de parámetros sin cambios, el campo receptivo del núcleo de convolución aumenta)

Hay predicciones relativamente directas en mapas de características superficiales y profundos, que es lo que a menudo llamamos el problema de escala.

Use FPN, que combina características superficiales y características profundas, o use características superficiales y características profundas juntas para predecir hasta el final;

snip (normalización de escala de la pirámide de imágenes) La idea principal :

Cuando se actualizan los parámetros de entrenamiento y retropropagación, solo se consideran aquellos objetivos dentro del rango de escala especificado, por lo que se propone un método de entrenamiento especial de múltiples escalas.