? a.Ajustar el peso de la pérdida de GAN en la pérdida del generador. La pérdida G y la pérdida Gan están en la misma escala, o la pérdida G es una escala mayor que la pérdida Gan. Pero no se debe permitir que domine la pérdida de Gan, de lo contrario el peso de toda la red estará sesgado.
? Ajuste la relación de frecuencia de entrenamiento del generador y el discriminador de frecuencia. En general, los discriminadores requieren más formación que los generadores. Por ejemplo, entrene al discriminador cinco veces y entrene al generador (WGAN (esto es lo que hace el documento WGAN).
?c. Ajuste la tasa de aprendizaje, no demasiado grande. Generalmente es más lento que el Generador .
? d. La selección del optimizador no se puede basar en métodos de impulso, como Adam y Momentum.
e. para eliminar el sigmoide, pero con el GAN original, el sigmoide es necesario porque necesita tomar log en su función de pérdida, por lo que el valor debe ser [0, 1]. El discriminador anterior se usa en el modelo crítico de Deng Wei. ¿No es fácil entrenar el papel de Twitter incluso si se elimina el sigmoide?
¿Porque la pérdida del generador se define como:
G_loss = -tf.reduce_mean(D_fake)
Pérdida del generador = pérdida del generador + λ* pérdida G
Donde gen_loss es la pérdida del generador, G_loss es la pérdida del discriminador y el objetivo es hacer que la pérdida del generador sea cada vez más pequeña. Por lo tanto, lo ideal. La curva de error de pérdida del generador debe ser una parábola que continúa disminuyendo hacia 0.
Porque la curva de error de pérdida del discriminador se define como:
? _ real)-TF . reduce _ mean(D _ fake)
Esto compite con la pérdida del generador. El objetivo es que el discriminador no sepa cuál es la salida del generador y cuál es la etiqueta real. Entonces, la curva de error ideal de la pérdida del discriminador debería oscilar eventualmente alrededor de 0, lo cual es estúpido y confuso. En otras palabras, el discriminador tiene un 50% de probabilidad de que seas real y un 50% de probabilidad de que seas falso. >
h. La idea anterior es que incluso si el discriminador no está entrenado, juzga la imagen. La probabilidad de verdadero y falso también es 50%. TF . reduce _ mean(d _ fake) ya está cerca de 0.
De hecho, ¿este no es el caso? En el caso de wgan, la salida del discriminador de frecuencia es un valor del infinito negativo. a infinito positivo, por lo que es difícil hacer que produzca salidas similares para dos entradas diferentes. De manera similar, para gan, la salida del discriminador de frecuencia está en [0, 1], es difícil producir dos salidas similares. del discriminador de frecuencia es 0 o 1, esa es la situación anterior, por lo que la red logrará una especie de estupidez si aprende a hacer que las salidas sean lo más similares posible.