¿Por qué una red neuronal tiene una función de activación y por qué relu puede evitar que el gradiente desaparezca?

Aumentar la capacidad no lineal de la red para adaptarse a más procesos no lineales. ReLU puede prevenir la desaparición del gradiente hasta cierto punto, pero prevenir la desaparición del gradiente no es la razón principal para usarlo. La razón principal es que la derivada es simple. Hasta cierto punto, significa que el extremo derecho no se acercará a la saturación. Al calcular la derivada, la derivada no es cero, por lo que el gradiente no desaparece. Sin embargo, el problema en el extremo izquierdo aún existe y el gradiente desaparecerá. si cae. Entonces hay muchos ReLU mejorados.

上篇: Examen de ingreso a la escuela secundaria de Fuzhou 下篇: ¿Qué revistas médicas de nivel provincial y ministerial existen? Se ha publicado un artículo (urgente)