El fraude ocurre principalmente en los campos de la biología y los materiales. Las computadoras (especialmente el aprendizaje profundo) son el área más afectada y el fraude puede reaparecer fácilmente con una gran aleatoriedad. Es más, los artículos de segunda categoría y los documentos de cumbres no tienen valor de referencia. Entonces, a excepción de los grandes laboratorios de investigación con suficiente mano de obra barata, la cantidad de artículos publicados por otros depende básicamente del nivel de desvergüenza. Por eso ya no quiero tocar los lugares de ML.
Por ejemplo, todo el mundo sabe que la curva de rendimiento de la optimización combinatoria es una curva exponencial. Si crea una nueva condición de poda, no necesitamos una solución correcta en absoluto. Después de todo, la mayoría de las aplicaciones no requieren una solución correcta. Cortar 1 solución a cambio de 50 velocidades es muy razonable. ¿Qué mejoras de rendimiento no son lo suficientemente significativas? Se compararon lo mejor y lo peor de los cinco experimentos, pero no tan bueno como el escrito en C SIMD y Java. Para ser honesto, nadie puede decir si inventaste tu número de manera casual. Después de todo, funciona en teoría, pero no en la práctica. Eso es porque su programa estaba mal escrito.
Para decir que las ideas anteriores son ciertas después de todo, en el mejor de los casos soy un vago y no quiero hacer experimentos. Cuando se trata del campo del ML, obviamente es una estafa. El conjunto de datos está bien elegido y la idea es terrible. Siempre que pueda ver uno entre cientos de experimentos, es el germen superior: normalización, tasa de aprendizaje adaptativo y múltiples restricciones. ¿Cómo saben los revisores qué trabajo?
Además, el ML clásico requiere que escribas programas y realices experimentos. En DL, estos se pueden guardar y los datos se pueden extraer y compilar en un solo paso. Después de todo, se trata de una búsqueda de edificios impulsada por humanos. Simplemente encuentre un dominio para hacer un dibujo y dibújelo con mayor precisión que SOTA, y nacerá un documento. ¿Necesita hacer públicos su conjunto de datos y su código? El documento cumbre enviado por un pasante del Instituto Internacional de Investigación de una importante empresa también incluía códigos.
Recientemente, algunos estudios han comenzado a utilizar descaradamente la distribución del conjunto de datos de validación como restricción, e incluso ingresar directamente datos de muestra en el ciclo de entrenamiento. Buen chico, no vencer a Qi Tou es simplemente un insulto a la inteligencia de las personas, ¿no? La gente ha intensificado su fraude a formas nuevas y novedosas, y mucho menos ha sido atrapada. Esta es una gran investigación, ¿sabes?