El surgimiento y desarrollo de la teoría de la probabilidad y la estadística matemática.

(Entrevista con Chen Xiru)

Reportero: Académico Chen Xiru, hable sobre el nacimiento y desarrollo de la teoría de la probabilidad y la estadística matemática.

Académico Chen Xiru: Comencemos con la estadística matemática. La estadística matemática es la ciencia y el arte de recopilar datos, analizarlos y sacar ciertas conclusiones sobre el problema que se estudia. Hay errores aleatorios (accidentales) en los datos de las encuestas estadísticas matemáticas. Esto genera incertidumbre en las conclusiones extraídas a partir de estos datos, y su cuantificación se basa en los conceptos y métodos de la teoría de la probabilidad. En esto se basa la estrecha relación entre la estadística matemática y la teoría de la probabilidad.

Las estadísticas se originaron a partir de la actividad de recopilación de datos, desde asuntos personales hasta el gobierno del país, es necesario recopilar todo tipo de datos relevantes. Por ejemplo, en los libros chinos antiguos hay muchos registros sobre el registro de hogares, el dinero, el servicio militar, los terremotos, las inundaciones y las sequías. Hoy en día, todos los países cuentan con una oficina de estadística o equivalente. Por supuesto, la mera actividad de recopilar y registrar datos no puede equipararse con el establecimiento de estadísticas. Los datos recopilados deben organizarse, categorizarse y expresarse de una forma refinada y llamativa. Sobre esta base, se pueden estimar, describir y explicar cuantitativa o cualitativamente las cosas en estudio, y se puede predecir su posible desarrollo futuro. Por ejemplo, basándose en datos de un censo o una encuesta por muestreo, describir la situación de la población de mi país y, basándose en los resultados apropiados de una encuesta por muestreo, evaluar cuantitativamente la relación entre los años de educación y los ingresos, así como la relación entre ciertos hábitos de estilo de vida y pasatiempos (como fumar) y la salud. A partir de los cambios en un determinado elemento o en algunos indicadores económicos en el pasado, se pueden predecir sus tendencias futuras, y las teorías y métodos para hacer estas cosas pueden constituir el contenido de una ciencia: la estadística matemática.

¿Cuándo comenzaron estas estadísticas? Me temo que es difícil encontrar un punto de partida obvio y aceptado. Algunos eruditos famosos apoyan la opinión de que el libro "Observaciones naturales y políticas de la Gaceta de la Muerte", publicado por el erudito británico Grant en 1662, marcó el nacimiento de esta disciplina. La Peste Negra prevaleció en Europa en la Edad Media y mató a muchas personas. A partir de 1604, la Iglesia de Londres emitió un "aviso de defunción" semanal que registraba el nombre, la edad, el sexo y la causa de la muerte de quienes murieron esa semana. En el reverso también se encuentran los nacimientos de esa semana; según la lista de bautizados, esto puede reflejar básicamente los nacimientos. A lo largo de las décadas, se ha acumulado una gran cantidad de datos. Grant fue el primero en organizar y utilizar estos vastos materiales. Originalmente hijo del propietario de una pequeña tienda, más tarde siguió los pasos de su padre y se volvió autodidacta. Gracias a este libro, fue elegido miembro de la Royal Society establecida ese año, lo que refleja el reconocimiento y la importancia de este libro en el mundo académico.

Este es un libro muy pequeño con ocho tablas. Desde la perspectiva actual, esto es sólo una tarea rutinaria de recopilación de datos, pero en su momento fue un logro de investigación científica original. Se puede decir que algunos de los conceptos propuestos en él todavía se utilizan hoy en día hasta cierto punto, como la simplificación de datos (una gran cantidad de datos caóticos deben ordenarse y reducirse para resaltar la información contenida en ellos), la estabilidad de frecuencia (ciertos eventos , algunos eventos son más estables en un período de tiempo más largo) La existencia de proporciones esencialmente estables a lo largo del tiempo, que es la base para la inferencia estadística), corrección de datos, tablas de vida (que reflejan la distribución de la esperanza de vida en la población, que sigue siendo un concepto básico en ciencia actuarial).

El método de Grant fue introducido en el estudio de cuestiones sociales y económicas por su economista política contemporánea Patty. Abogó por que en la investigación de estos temas no debe haber palabras vacías, sino que los datos reales deben hablar por sí solos. Su trabajo se resumió en el libro Aritmética política, publicado póstumamente en 1690.

Por supuesto, también cabe señalar que su trabajo aún se encuentra en la etapa descriptiva y no es estadística matemática en el sentido moderno. En aquel momento, la teoría de la probabilidad estaba todavía en su infancia y no era suficiente para proporcionar suficiente apoyo teórico para el desarrollo de la estadística matemática. Sin embargo, no podemos negar la importancia de su trabajo. Como una de las fuentes del desarrollo de la estadística matemática moderna, ellos y otros estudiosos posteriores trabajaron en los campos de la población, la sociedad y la economía, especialmente el astrónomo y estadístico belga Ketler 655.

Otra fuente importante de estadística matemática proviene del análisis de errores en astronomía y geodesia. En los primeros días, la precisión de las herramientas de medición no era alta y la gente esperaba obtener más datos a través de múltiples mediciones para obtener una estimación más precisa del objeto que se estaba midiendo. Los errores de medición son aleatorios y es posible abordarlos mediante la teoría de la probabilidad, es decir, la estadística. Galileo hizo este trabajo desde lejos. Dio una descripción general de la naturaleza del error de medición. El gran matemático francés Laplace estudió este problema durante mucho tiempo. La famosa distribución de Laplace en la teoría de la probabilidad actual es producto de su investigación.

Hay dos resultados de investigación más famosos y de mayor alcance en este campo: uno es el "método de mínimos cuadrados" inventado por el matemático y astrónomo francés Legendre cuando estudiaba el cálculo de las órbitas de los cometas a principios del siglo XIX (1805). El método se ha utilizado en trabajos de estimación de longitudes de meridianos. La invención de este método ahora se atribuye a Gauss, pero el primer escrito de Gauss que utiliza este método es de 1809, posterior a Legendre. Ahora se reconoce gradualmente una cosa: este invento fue realizado de forma independiente por dos personas, lo que parece más apropiado. Otro logro importante es que el erudito alemán Gauss propuso en 1809 que al estudiar el movimiento de los planetas alrededor del Sol, se debería utilizar la distribución normal para describir la distribución de los errores de medición. La distribución normal también se denomina distribución gaussiana. Su curva tiene forma de campana, muy parecida a la forma del Puente Yudai en el Palacio de Verano, por lo que a veces se la llama "curva en forma de campana". Situación común en el mundo: entre las diversas cosas, "pequeñas en ambos extremos y grandes en el medio", como la altura humana, no hay muchas que sean demasiado altas o demasiado bajas, pero la mayoría están en el medio - de Por supuesto, ésta es sólo una cuestión muy aproximada. Son sus propiedades matemáticas las que lo hacen ampliamente utilizado.

La distribución normal juega un papel extremadamente importante en la estadística matemática. Muchos métodos estadísticos que todavía se utilizan comúnmente en la actualidad se basan en el supuesto de que la cantidad en estudio tiene o se aproxima a una distribución normal. Tanto la experiencia como la teoría (el llamado "teorema del límite central" en la teoría de la probabilidad) ilustran la realidad de este supuesto. Muchos fenómenos en el mundo real parecen caóticos; por ejemplo, diferentes personas tienen diferentes alturas y pesos. Los productos producidos en masa tienen diferentes indicadores de calidad. No parece haber ningún patrón, pero generalmente sigue una distribución normal. Esto demuestra que hay orden en el caos. Propuso la distribución normal gaussiana e hizo grandes contribuciones en muchos campos a lo largo de su vida. Sin embargo, en el billete alemán de 10 marcos con imagen gaussiana sólo se dibuja una curva normal, lo que demuestra que la gente tiene en alta estima su contribución.

Un logro importante en el desarrollo de la estadística matemática antes del siglo XX fue propuesto por el genetista y estadístico británico Galton a finales del siglo XIX y desarrollado por K. Pearson, uno de los fundadores de la estadística moderna, y Otros académicos británicos. Desarrollo de la teoría de la correlación y la regresión estadística. La llamada correlación estadística se refiere a una relación no concluyente, como la relación general entre la altura X y el peso Y de una persona. Cuando X es más grande (pequeño), Y tiende a ser más grande (pequeño), pero no hay conclusión: Y No puede ser determinado por , todos pertenecen a esta naturaleza. La teoría de la correlación estadística cuantifica el grado de esta relación, mientras que la regresión estadística es una estimación aproximada de la relación entre variables estadísticamente relevantes, como la altura x y el peso y mencionados anteriormente, lo que se denomina ecuación de regresión. En el mundo real, los fenómenos suelen implicar muchas variables. Existen relaciones complejas entre ellos, muchas de las cuales no son deterministas. La invención de la teoría de la regresión correlacional proporciona una herramienta para la investigación cuantitativa de esta relación a través de la observación real, que tiene una gran importancia cognitiva y práctica.

A principios del siglo XX, debido a los avances en los aspectos anteriores, la estadística matemática había acumulado una gran cantidad de resultados; debido a limitaciones de espacio, no podemos enumerar todos los resultados importantes uno por uno, como como teoría de encuestas por muestreo y progreso metodológico, pero antes de eso, no podemos decir que la estadística matemática en el sentido moderno se haya establecido. Uno de sus principales signos es que esta disciplina aún carece de un marco teórico unificado. Esta tarea se completó en la primera mitad del siglo XX, que en sentido estricto puede definirse como 1921-1938. Varios maestros desempeñaron un papel importante, especialmente Fisher K. Pearson del Reino Unido, Neyman y E. Pearson, quienes desarrollaron la teoría de la prueba de hipótesis estadísticas, y Wald, quien propuso la teoría de la función de decisión estadística. El famoso estadístico de mi país, Bao Xu (1910-1970), también logró grandes logros en este trabajo.

Desde el final de la Segunda Guerra Mundial, la estadística matemática se ha desarrollado rápidamente, principalmente por las siguientes tres razones: Primero, el establecimiento del marco teórico de la estadística matemática y el avance de la teoría de la probabilidad y las herramientas matemáticas han proporcionado Abrió la puerta y proporcionó los medios para mejorar y profundizar teóricamente muchas de las primeras teorías y métodos aproximados, y en segundo lugar, por necesidades prácticas, se propusieron constantemente nuevos temas de investigación. constantemente surgieron problemas y modelos complejos que atrajeron el interés de los investigadores; en tercer lugar, la invención y popularización de las computadoras electrónicas, por un lado, proporcionó las herramientas informáticas necesarias: la implementación de métodos estadísticos a menudo implica una gran cantidad de procesamiento de datos y cálculos, que no pueden ser completados por mano de obra en un tiempo razonable, por lo que en los primeros años, aunque las personas conocen algunos métodos estadísticos, debido a la incapacidad humana, rara vez se ponen en práctica. La llegada de las computadoras resolvió este problema. Dar vida real a los métodos estadísticos. Al mismo tiempo, las computadoras también ayudan a promover la investigación de la teoría estadística, y la simulación estadística es una de sus manifestaciones. Si bien reconocieron los logros mencionados, muchos estadísticos también señalaron algunos problemas o desviaciones en el desarrollo durante este período. La razón principal es que el sabor a "matematización" en la investigación teórica sobre estadística matemática es cada vez más fuerte, y una parte considerable del trabajo de investigación permanece en el nivel matemático. La antigua tradición de combinar la investigación teórica con problemas prácticos se ha desvanecido, y algunos académicos también han presentado sugerencias para remediarlo. Al mismo tiempo, los problemas prácticos implican cada vez más grandes cantidades de datos con estructuras complejas. Según las especificaciones actuales de la estadística matemática, esto parece estar más allá de nuestras capacidades. Necesitamos algunos conceptos fundamentalmente innovadores para llevar el desarrollo de las estadísticas a un nuevo nivel para satisfacer las necesidades de las aplicaciones. Teniendo en cuenta estos antecedentes, algunos estadísticos se muestran optimistas en cuanto a que la estadística matemática se enfrenta a nuevos avances.

Cuando hablamos del desarrollo de la estadística matemática, nos centramos en la promoción de necesidades prácticas. Debido a que los conceptos y métodos de la teoría de la probabilidad son la base teórica de la estadística matemática, el progreso de la teoría de la probabilidad promoverá inevitablemente el desarrollo de la estadística matemática.

La probabilidad, también conocida como probabilidad y probabilidad, se refiere a la posibilidad de que ocurra una situación incierta. Por ejemplo, si se lanza una moneda, "aparece el emblema nacional" (el emblema nacional mira hacia arriba) es una situación incierta. Porque antes de lanzarlo no podemos estar seguros de si se produjo la situación a la que se hace referencia ("emblema nacional"). Si la moneda es un número par y el lanzamiento es lo suficientemente alto, ambas caras tienen las mismas posibilidades de aparecer. La probabilidad de que digamos "emblema nacional" es 1/2 al lanzar un dado par al mismo tiempo, la probabilidad de "cuatro puntos" es 1/6; Aparte de estos y otros casos simples similares, calcular probabilidades no es fácil y a menudo requiere algunos supuestos teóricos. En la vida real, las probabilidades a menudo se determinan mediante métodos empíricos. Por ejemplo, si hay n personas en una determinada zona y m personas padecen una determinada enfermedad, se dice que la probabilidad de que las personas de esa zona padezcan esta enfermedad es m/n.

El concepto de probabilidad tiene su origen en el juego de dados, muy popular en Europa desde la Edad Media. No es difícil entender que la posibilidad de que una determinada situación pueda observarse y despertar interés de investigación debe cumplir dos condiciones: Primero, que la situación pueda observarse bajo el número de repeticiones (la probabilidad de que ocurra es mayor con el número de repeticiones) ), una es que la situación está relacionada con los intereses de las partes o les preocupa, y estas condiciones deben cumplirse tirando los dados.

En ese momento, hubo un "problema de intercambio de libros sobre juegos de apuestas" que generó una acalorada discusión y tardó más de 100 años en resolverse correctamente. En este proceso nacieron algunos conceptos básicos importantes de la teoría de la probabilidad. Tomemos un caso simple de este problema: A y B apuestan, cada uno apuesta 30 yuanes y 60 yuanes. La probabilidad de ganar en cada ronda es igual, ambas 1/2. Convención: Quien gane tres juegos primero gana todas las apuestas. He apostado 60 yuanes en tres juegos, A tiene 2 victorias y 1 derrota. Pero es justo dejar de apostar por alguna razón y preguntar cómo se divide la apuesta de 60 yuanes entre dos personas. A primera vista, cree que debería distribuirse según 2:1, es decir, A recibe 40 yuanes y B recibe 20 yuanes. Alguien sugirió otras soluciones que resultaron ser incorrectas y correctas. En las tres primeras situaciones, A ganó al final, excepto B en la última, y ​​la proporción entre los dos fue de 3:1. Por lo tanto, la distribución justa de las apuestas debe basarse en una proporción de 3:1, es decir, A gana 45 yuanes y B gana 15 yuanes.

En aquella época, algunos estudiosos, como Huygens, Pascal, Fermat y otros, investigaron mucho sobre este tipo de juego y publicaron algunos trabajos. Por ejemplo, un libro de Huygens se ha utilizado durante mucho tiempo como libro de texto sobre teoría de la probabilidad en Europa. Estos estudios desarrollan y profundizan la probabilidad original y conceptos relacionados. Sin embargo, el hito más importante en esta etapa inicial de la teoría de la probabilidad fue el libro "Especulación" de Bernoulli.

Este libro fue publicado en 1713 después de su muerte. No sólo resume los logros de sus predecesores en el juego de probabilidad, sino que también tiene un contenido extremadamente importante, que es la "Ley de los Grandes Números" que ahora lleva su nombre. La ley de los grandes números es un teorema sobre el valor medio (aritmético), es decir, la suma de varios números X1, X2...Xn. Pero no es fácil explicar la base teórica. Ésta es la pregunta a la que quiere responder la ley de los grandes números de Bernoulli. Hasta cierto punto, esta ley de los grandes números es una de las leyes más básicas de toda la teoría de la probabilidad y la piedra angular teórica de la estadística matemática.

Aunque la teoría de la probabilidad se originó en los juegos de azar, rápidamente encontró muchas aplicaciones en la vida real. Primero, en términos de población, cuestiones actuariales, etc. , el principio de azar experimentó varios hitos en su desarrollo, con su tercera edición publicada en 1756 y la teoría analítica de la probabilidad del matemático francés Laplace en 1812. En 1933, el educador soviético Andrei Kolmogorov completó el sistema de axiomas de la teoría de la probabilidad. Bajo unos pocos axiomas simples desarrolló todo el gran edificio de la teoría de la probabilidad, del mismo modo que expuso toda la geometría bajo el sistema de axiomas de Euclides. Desde entonces, la teoría de la probabilidad se ha convertido en una rama importante de las matemáticas modernas y se han utilizado muchas teorías matemáticas profundas y abstractas. Bajo su influencia, la teoría de la estadística matemática también se está desarrollando en una dirección más profunda.