Para utilizar computadoras para realizar investigaciones sobre la verificación e identificación de duplicaciones CNKI, primero se deben analizar y procesar los documentos digitales. Los documentos digitales se pueden dividir en dos categorías, a saber, texto en lenguaje natural y texto en lenguaje natural. Texto en lenguaje formal. El texto en lenguaje formal suele ser el código fuente de un programa de computadora. Aunque hay muchos casos de plagio, debido a su gramática y estructura de oración estandarizadas, el análisis y procesamiento son relativamente fáciles, y las investigaciones sobre la identificación de este tipo de plagio fueron anteriores. El principio de detección de copias para textos en lenguaje natural (como artículos) apareció 20 años después que la detección de copias de programas.
② En 1993, Manber de la Universidad de Arizona propuso el concepto de "huella digital aproximada", y en base a esto, propuso la herramienta sif para medir la similitud entre archivos mediante la coincidencia de cadenas. Brin y otros de la Universidad de Stanford en los Estados Unidos propusieron por primera vez el sistema COPS y el algoritmo correspondiente, y luego lo mejoraron con el prototipo SCAM. SCAM se basa en el modelo de espacio vectorial en la tecnología de recuperación de información y utiliza un método basado en estadísticas de frecuencia de palabras para medir la similitud del texto. Si y Leong de la Universidad Politécnica de Hong Kong utilizaron métodos estadísticos de palabras clave para medir la similitud de documentos y establecieron un prototipo de CHECK, que introdujo información estructural de documentos en la medición de similitud por primera vez. En 2000, Monostori et al. utilizaron árboles de sufijos para buscar la subcadena más grande entre cadenas y establecieron el prototipo MDR. Hasta entonces, los educadores de todo Estados Unidos ahora saben cómo utilizar una combinación de ejemplos de párrafos escritos en el aula, herramientas de búsqueda en Internet y tecnología antiplagio para frenar las fuentes de engaño.
③Se vuelve más difícil identificar el plagio en los periódicos chinos. El chino se diferencia del inglés en que utiliza caracteres como unidad básica de escritura y no existe una distinción obvia entre palabras. Por lo tanto, la segmentación de palabras chinas es la base del procesamiento de documentos chinos. El sistema de identificación de plagio de texto chino primero requiere la segmentación de palabras como su módulo más básico, por lo que la calidad de la segmentación automática de palabras del texto chino afecta la precisión de la identificación de plagio hasta cierto punto. Al mismo tiempo, las computadoras tienen deficiencias en la comprensión del lenguaje natural. El plagio no se limita al plagio y es difícil identificarlo con precisión. Por lo tanto, no podemos copiar completamente tecnologías extranjeras para resolver el problema de la identificación de plagio en los periódicos chinos. Zhang Huanjiong, de la Universidad de Correos y Telecomunicaciones de Beijing, utiliza la fórmula de la distancia de Hamming en la teoría de codificación para calcular la similitud del texto. Basado en la teoría de atributos, el Instituto de Tecnología Informática de la Academia de Ciencias de China calcula la distancia coincidente entre vectores para obtener similitud de texto. Basado en la teoría de la expresión matemática de los caracteres chinos, Cheng Yuzhu y otros transformaron el cálculo de la similitud del texto en el cálculo del coseno del ángulo entre vectores en el sistema de coordenadas espaciales. Song Shuabao de la Universidad Xi'an Jiaotong y otros desarrollaron el sistema CDSDG, que utiliza un algoritmo de medición de superposición basado en estadísticas de frecuencia de palabras para calcular la superposición semántica general y la superposición estructural en diferentes granularidades. Este algoritmo no solo puede detectar todos los comportamientos de copia ilegal de texto digital, sino también detectar comportamientos de copia ilegal, como la copia de subconjuntos y la copia parcial desplazada. El algoritmo de cálculo de similitud de Jin basado en el marco contextual considera la relación semántica entre objetos y proporciona la relación de similitud entre textos desde una perspectiva semántica. Jin Bo y He Teng de la Universidad Tecnológica de Dalian analizaron la estructura del texto de los artículos académicos en función de sus estructuras únicas y luego calcularon la similitud entre los artículos académicos mediante huellas digitales y estadísticas de frecuencia de palabras. Zhang Minghui propuso un nuevo algoritmo de imagen aproximado basado en párrafos para páginas web repetidas. Bao et al. propusieron un principio de detección de copias basado en el método del núcleo de secuencia semántica para un sistema de detección de copias de texto basado en cuadrículas. Jin Bo y Teng propusieron una arquitectura de sistema de detección de plagio basada en la comprensión semántica, cuyo núcleo es el cálculo de similitud de palabras basado en HowNet, y el alcance de la aplicación se extiende a los párrafos. Los sistemas de verificación de duplicación de papel basados en ontologías, como Nie Planning, utilizan la tecnología de ontología de la Web Semántica para construir una ontología de papel y calcular la similitud del papel.
Por favor, sigan prestando atención a la escuela. Marque Copy Paper(), encontrará más información sobre las pruebas en papel.