Matriz de confusión

Supongamos que existe un algoritmo que predice un determinado tipo de cáncer con una precisión del 99,9%. ¿Es bueno este algoritmo?

La tasa de precisión de 99,9 parece muy alta, pero si la tasa de incidencia de este cáncer en sí es solo de 0,1, incluso si el modelo no está entrenado y se predice directamente que todas las personas estarán sanas, la precisión de esto La predicción también se puede alcanzar 99,9. En un caso más extremo, si la tasa de incidencia de este cáncer en sí es solo 0,01, la precisión de la predicción de este algoritmo no es tan buena como predecir directamente que todos están sanos. Para datos extremadamente sesgados (datos sesgados) (el número de pacientes con cáncer y el número de personas sanas son particularmente diferentes), existen limitaciones en el uso de la precisión para evaluar la calidad del algoritmo de clasificación. Solución: Matriz de confusión

0 - Negativo - negativo, 1 - Positivo - positivo

1 es la parte que nos preocupa.

La posición 00 representa que 9978 personas en realidad no tienen cáncer; el modelo predice que 9978 personas no tienen cáncer.

La posición 01 representa que 12 personas no tienen cáncer; el modelo predice que 12 personas lo tienen. Cáncer

La posición 11 representa que 2 personas tienen cáncer; el modelo predice que 2 personas no tienen cáncer

La posición 12 representa que 8 personas tienen; cáncer; el modelo predice que 8 personas tienen cáncer

La tasa de precisión indica la precisión de predecir los eventos que nos importan

1 es la parte que nos importa

La tasa de recuperación indica que nuestro algoritmo predice correctamente eventos que ya han ocurrido. Proporción de números.

Si la tasa de incidencia de un determinado cáncer es 0,1, entonces el modelo que predice que todo el mundo está sano tendrá una precisión del 99,9. Pero la tasa de precisión no tiene sentido y la tasa de recuperación es 0, lo que muestra que este modelo no es válido.

Precisión

Salida: 0.9755555555555555

Resultado de salida:

matriz([[403, 2], [ 9, 36] ] )

Resultado de salida: 0,8

0,8

Para datos extremadamente sesgados, utilizar indicadores de precisión y recuperación es mejor que utilizar indicadores de precisión de clasificación.

Pero la precisión y la recuperación son dos indicadores. Si la precisión y la recuperación de un algoritmo funcionan de manera diferente, ¿cómo elegir entre estos dos indicadores?

Solución 1: Depende del escenario específico.

A veces nos centramos en la precisión, como en las predicciones de acciones. Esperamos que los resultados de la predicción de subidas de acciones sean precisos (de lo contrario, podemos perder dinero) y no nos importa perder otras oportunidades perdidas para las acciones. subir (perder alguna oportunidad de ganar dinero).

A veces nos centramos en el recuerdo, como el diagnóstico del paciente. Esperamos que todas las personas que tienen la enfermedad sean identificadas (de lo contrario, estas personas pueden empeorar), y no importa si algunas personas que no tienen la enfermedad son identificadas erróneamente (estas personas simplemente pueden someterse a un examen más detallado).

Solución 2: Preste atención tanto a la precisión como a la recuperación, es decir, el nuevo indicador: puntuación F1

La puntuación F1 es el promedio armónico de precisión y recuperación.

Características de la media armónica: si la precisión y la recuperación están muy desequilibradas, la puntuación f1 también será relativamente baja. Sólo si ambos son altos, la puntuación de F1 será alta.

El rango de valores de la puntuación F1: [0, 1]

El impacto de diferentes valores de precisión y recuperación en f1_score

Para la media armónica , si uno de los dos tiene una puntuación menor, bajará mucho el resultado.

Por lo tanto, puede caracterizar mejor los dos indicadores de precisión y recal.

Resultado: 0,8674698795180723

Para datos sesgados, la puntuación del indicador F1 es mejor que la precisión de la clasificación.

Siempre esperamos que tanto los indicadores de precisión como de recuperación sean lo más altos posible. Pero, de hecho, la precisión y el recuerdo son contradictorios entre sí y sólo podemos encontrar un equilibrio entre ellos.

Tome la regresión logística como ejemplo para ilustrar la relación contradictoria entre precisión y recuperación. La siguiente es la fórmula de la regresión logística.

Aquí el límite de decisión es 0 como punto divisorio. Cambie 0 a un umbral personalizado. El cambio en el umbral cambiará el límite de decisión, lo que afectará los resultados de precisión y recuperación.