Aumentar la capacidad no lineal de la red para adaptarse a más procesos no lineales. ReLU puede prevenir la desaparición del gradiente hasta cierto punto, pero prevenir la desaparición del gradiente no es la razón principal para usarlo. La razón principal es que la derivada es simple. Hasta cierto punto, significa que el extremo derecho no se acercará a la saturación. Al calcular la derivada, la derivada no es cero, por lo que el gradiente no desaparece. Sin embargo, el problema en el extremo izquierdo aún existe y el gradiente desaparecerá. si cae. Entonces hay muchos ReLU mejorados.