? Este es un caso de la segunda lección del curso optativo general "Métodos de cálculo en investigación económica".
? La ley de Benford es una ley estadística atípica con una larga historia. Aunque no ha sido probado en un sentido amplio, tiene importantes aplicaciones. El efecto más directo es ayudar a detectar el "fraude de datos" en diversos campos.
(1) ¿Ley de Benford
? Ley de Benford, también conocida como ley del primer número. Es una ley inherente a la estadística numérica y se refiere a todas las variables aleatorias naturales. Siempre que el espacio muestral sea lo suficientemente grande, la probabilidad de que el primer dígito de cada muestra sea del 1 al 9 es estable dentro de un cierto rango (ver figura). Es decir, las muestras que comienzan con 1 ocupan 0,3 del espacio muestral, las muestras que comienzan con 2 ocupan entre 0,17 y 0,19 del espacio muestral y las muestras que comienzan con 9 u 8 siempre representan solo aproximadamente 0,05.
? El número inicial de decenas de miles de datos en el mundo es cualquier número del 1 al 9, y la probabilidad de comenzar con cada número debería ser casi la misma. Pero si cuenta suficientes datos, se sorprenderá al descubrir que los datos que comienzan con 1 son los más. ?
? En 1935, ¿un estadounidense llamado Frank? El ingeniero Frank Benford (1883-1948) descubrió que las primeras páginas de una tabla de logaritmos estaban más sucias que las últimas, lo que indicaba que más personas leían las primeras páginas. Investigaciones adicionales encontraron que siempre que haya suficientes muestras en los datos, la frecuencia de los números que comienzan con 1 en los datos no es 1/9, sino 30,1%. La frecuencia de los números que comienzan con 2 es del 17,6% y luego disminuye en secuencia, siendo el 9 la frecuencia más baja, solo el 4,6%. ?
? Ben Ford comenzó a investigar otros números y encontró el patrón en una variedad de datos completamente diferentes. Por ejemplo, aproximadamente un tercio de los números residenciales tienen el 1 como primer número. La misma situación existe en muchas áreas con poca * * * conectividad: como los datos históricos del índice Dow Jones, el orden de los tamaños de los archivos almacenados en las computadoras personales, la longitud de los principales ríos del mundo, los números en el frente páginas de periódicos, y muchas otras cosas consistentes.
? En 1961, un científico estadounidense propuso que esta Ley de Ford es en realidad un fenómeno causado por la acumulación de números, incluso si no existe un número unitario. Por ejemplo, suponiendo que el índice del mercado de valores comienza desde 1.000 puntos y aumenta a una tasa anual del 10%, entonces se necesitarán más de 7 años para que el índice aumente de 1.000 puntos a 2.000 puntos, solo se necesitarán más de cuatro; años para subir de 2.000 a 3.000 puntos pero si harán falta más de 7 años para que el índice suba de 10.000 puntos a 20.000 puntos; Por lo tanto, podemos ver que los datos de índice que comienzan con 1 son mucho más altos que los datos de índice que comienzan con otros números.
Ben Ford
? Ben Ford fue originalmente un ingeniero eléctrico y físico estadounidense. Trabajó en los laboratorios de General Electric durante muchos años hasta su jubilación. Cuando el ingeniero tenía cincuenta años, se enamoró de un tema relacionado con los números. La conclusión de este proyecto es lo que ahora llamamos "Ley de Benford".
? De hecho, ¿no fue Benford quien descubrió por primera vez la ley de Benford, sino el astrónomo estadounidense Simon? Newcomb (Simon Newcomb, 1835. 3. 10-1909. 7. 11). En 1877, Newcomb se convirtió en director de la Oficina de la Era Astronómica Náutica de Estados Unidos y organizó a sus colegas para recalcular todas las constantes astronómicas importantes. Las tablas de logaritmos se usaban a menudo en cálculos astronómicos complejos, pero en ese momento no existía Internet ni Alibaba Cloud, por lo que los logaritmos se imprimían en libros y se almacenaban en bibliotecas. El cuidadoso Newcomb descubrió un extraño fenómeno: las páginas que contenían números que comenzaban por 1 en la tabla de logaritmos eran mucho peores que otras páginas, lo que parecía indicar que la probabilidad del primer número en el cálculo era mayor, por lo que publicó un artículo en 1881. Este fenómeno fue mencionado y analizado, pero no llamó la atención hasta el año 65438.
? Aunque parezca extraño, el descubrimiento de leyes científicas a veces proviene de fenómenos extremadamente pequeños y discretos, como el descubrimiento de Ben Ford: hay muchos números que comienzan con 1. ¿Es esto una regla? Descubrió que este fenómeno existía no sólo en las tablas logarítmicas sino también en otros tipos de datos, por lo que revisó una gran cantidad de datos para confirmarlo.
? Ben Ford tiene una visión más profunda de este tema que Newcomb.
Comenzó a investigar otros números y descubrió que el fenómeno de la "primera ley de los números" aparecía en datos completamente diferentes, como población, tasas de mortalidad, constantes físicas y químicas, estadísticas de béisbol, vidas medias de isótopos radiactivos, respuestas en libros de física, números primos, y Fibos Ese número. Es decir, siempre que los datos obtenidos por el sistema de unidades de medida se ajusten a esta ley. Por otra parte, los datos que se obtienen y restringen a voluntad normalmente no cumplen con esta Ley Ford. Por ejemplo, los números de lotería, los números de teléfono, los precios de la gasolina, las fechas y los datos de peso o altura de un grupo de personas se asignan de forma relativamente aleatoria o arbitraria y no se obtienen mediante un sistema de medición.
? Newcomb descubrió este patrón más de 50 años antes que Benford, pero es obvio que este último era una persona más solidaria. De lo contrario, se llamaría ley de Newcomb.
(3) ¿Es confiable la ley de Ben Ford?
? La primera ley numérica describe la frecuencia de uso de los números naturales del 1 al 9, y la fórmula es f(d) = log[1+(1/d)] (d es un número natural). Después del análisis, se encontró que los datos acumulativos naturales obtenidos por el sistema de unidades de medida se ajustan a la primera ley numérica, mientras que los datos obtenidos de forma arbitraria y restringida generalmente no lo hacen. Pero los datos de altura y peso de la persona no coinciden, ¿cómo explicarlo? Aunque la ley se aplica en muchos aspectos, la gente todavía está confundida acerca de este fenómeno.
? Luego está la manera de demostrar la ley mediante métodos matemáticos, pero hasta el momento no hay ningún resultado satisfactorio. Este es el mayor problema, y también es la razón por la que la famosa ley de Benford, conocida como la primera ley de los números, aún no ha aparecido en los libros de texto de matemáticas o estadística.
? Hay más de una prueba de esta regla, pero ninguna es estricta. El siguiente artículo, aunque estricto, obviamente incluye condiciones.
? La prueba es la siguiente: Supongamos que tenemos un espacio muestral grande con una variable aleatoria x. ,¿incógnita? ,...,x_{n}, donde n es lo suficientemente grande. ¿incógnita? ,¿incógnita? La ley de evolución de x { n } se puede simular mediante ecuaciones exponenciales.
? Si tomamos el logaritmo en base 10 en ambos lados de la solución de la ley exponencial, obtendremos la conclusión de que lg x(t) es proporcional al tiempo t.
? Si preguntas sobre la probabilidad de que la variable x esté entre 80 y 90, solo necesitas encontrar la solución t de t cuando x (t=80). ¿Y la solución de t cuando x(t=90) t? Entonces la relación del tiempo total t (t?-t?)/T es la probabilidad de que x esté entre 80 y 90.
? Entonces, ¿qué pasa si preguntamos cuál es la probabilidad de que el primer número sea 8? Gracias a las ideas de duanx y zhuww, solo debemos preocuparnos por la longitud de la parte decimal de lg x entre lg 8 y lg 9.
? Esto se debe a que la parte entera de aproximadamente 10 del logaritmo lg x determina cuántos dígitos tiene cada número
Si dibujas la imagen de lg x con respecto a la parte decimal del tiempo t, es en realidad es equivalente a plegar la imagen de lg x en el intervalo de [lg 0, lg 10]. No necesitamos preocuparnos por el tamaño del tiempo t, porque el eje del tiempo también se dobla, entonces la probabilidad de que sea el primer dígito. es d es [LG(d+1)-LG(d)]/(LG 10-LG 1)= LG(d+1)-LG(d)
Nota: El exponencial anterior. La ecuación es la solución de la siguiente ecuación diferencial. El significado físico de esta ecuación es que el cambio de x(t) en la unidad de tiempo es El valor de x(t) en el momento t es proporcional y el coeficiente proporcional es una constante k.
En el mundo real, muchos procesos evolutivos pueden aproximarse mediante la ecuación anterior, especialmente en la evolución real. La etapa inicial aún no ha alcanzado la saturación. En Wikipedia, podemos encontrar muchos ejemplos de este tipo. decaimiento exponencial, crecimiento exponencial y la parte degenerada de la ecuación de velocidad en química
(4) Aplicación de la ley de Benford
No importa cómo se interprete la ley de Bendford, existe. objetivamente y es útil Dado que la mayoría de los datos financieros cumplen con la ley de Bendford, se puede utilizar para verificar si existen datos financieros.
El caso de fraude de inversiones más grande en ese momento se detectó en el estado de Washington. La cantidad de 654,38 mil millones de dólares fue creada por el autor intelectual de este caso de fraude, Kevin Lawrence, y sus asociados. En nombre de la cadena de gimnasios de alta tecnología, ha recaudado una gran cantidad de fondos de más de 5.000 inversores.
Luego, malversan fondos públicos para su propio disfrute, comprándose casas de lujo, coches de lujo, joyas, etc. Para encubrir sus actividades ilegales, con frecuencia transfirieron fondos entre empresas y bancos extranjeros, falsificaron cuentas artificialmente y dieron a los inversores la ilusión de negocios prósperos. Afortunadamente, un contador (Darrell Dorrell) siente que algo anda mal en ese mismo momento. Recopiló más de 70.000 datos relacionados con cheques y remesas, comparó la frecuencia del primer dígito en estos datos con la ley de Bendford y descubrió que los datos no pasaron la prueba de la primera ley numérica. Finalmente, después de tres años de investigación judicial, finalmente se reveló la estafa de inversión. En 2002, Lawrence fue condenado a 20 años de prisión.
? En 2001, Enron, el mayor comerciante de energía de Estados Unidos, se declaró en quiebra y hubo rumores de que sus altos directivos eran sospechosos de falsificar cuentas. Se dice que los ejecutivos de Enron cambiaron los datos financieros, por lo que los datos de ganancias por acción que publicaron para 2001-2002 no cumplieron con esta Ley Ford. En febrero de 2001, la séptima empresa entre las 500 globales admitió ante la Comisión de Bolsa y Valores de Estados Unidos que había cometido fraude contable. El incidente de Enron llamó la atención del público sobre el fraude de datos contables, lo que condujo directamente al nacimiento de la Ley Sarbanes-Oxley en agosto de 2002.
? El IRS también utiliza la regla de Benford para examinar las declaraciones de impuestos e identificar la evasión fiscal. Se dice que alguien utilizó una vez esta regla para verificar los datos de la declaración de impuestos del ex presidente estadounidense Bill Clinton10, pero no se encontraron fallas.
? Además, la Ley de Benford se utiliza en análisis del mercado de valores y pruebas de fraude en la votación electoral.
? Obviamente, la ley de Benford es un arma importante en la lucha contra el fraude de datos. Por supuesto, debemos prestar atención a sus condiciones de aplicación:
1 Los datos no se pueden ordenar regularmente;
2 Los datos no se pueden configurar manualmente;
3. La cantidad de datos debe ser lo suficientemente grande. Algunas personas dicen que son más de 3.000, pero no sé si hay alguna base para ello;
4. No siempre es correcto, esto es un misterio sin resolver en la actualidad;
5. Si es exacto o no también es una cuestión estándar, porque está más cerca del algoritmo de Monte Carlo.