La base de datos del sistema de verificación de plagio en papel generalmente incluye dos partes: una base de datos de construcción propia y una base de datos externa. La base de datos de construcción propia se refiere a la base de datos de tesis recopilada y organizada por la institución donde está ubicado el sistema, incluidas las tesis de graduación de los estudiantes y los trabajos de proyectos de investigación científica. Estos artículos forman parte de la base de datos existente y se utilizan para comparar si existe similitud de contenido o plagio en los artículos a detectar. Las bases de datos externas son bases de datos en papel obtenidas de otras instituciones o de Internet. En comparación con la base de datos de creación propia, se ha mejorado aún más la precisión y la amplitud del sistema de verificación de duplicaciones.
Durante el proceso de verificación de duplicaciones, los exámenes que se van a verificar se compararán con los exámenes en la base de datos y el sistema analizará el contenido del texto de estos exámenes, incluidas palabras, oraciones, párrafos, etc. y proporcione la puntuación de similitud correspondiente. Si la similitud entre el artículo a detectar y algunos artículos en la base de datos excede un umbral establecido, el sistema marcará el artículo como sospechoso de plagio.
Para mejorar la precisión y eficiencia del sistema de verificación de plagio en papel, los investigadores han estado mejorando continuamente los algoritmos y modelos del sistema. Algunos métodos mejorados incluyen algoritmos de similitud de texto, algoritmos de análisis semántico y algoritmos de aprendizaje automático. Estos métodos pueden ayudar al sistema a determinar la similitud entre artículos e identificar con precisión el plagio.