La paradoja de Simpson ocurre porque

Controlar el factor de colisión dio como resultado la correlación opuesta, una variable subyacente oculta en los datos.

Bajo ciertas condiciones, dos conjuntos de datos satisfarán ciertas propiedades cuando se analizan por separado, pero una vez considerados en conjunto, se pueden sacar conclusiones opuestas. Simpson describió este fenómeno en su artículo publicado.

Cuando las personas intentan explorar si dos variables (como la tasa de admisión de estudiantes de primer año, el género) están relacionadas, se estudiarán por separado en grupos. Sin embargo, la parte que tiene ventaja en la comparación grupal es a veces la parte que pierde terreno en la evaluación global. En 1951, este fenómeno fue descrito y explicado oficialmente después de que E.H Simpson lo describiera en su artículo publicado. Más tarde, esta paradoja recibió su nombre, la paradoja de Simpson.