Los métodos basados en la comparación de textos suelen utilizar la similitud del coseno o la similitud de Jacques para comparar la similitud entre dos artículos. Estos métodos generalmente requieren convertir el papel en una representación vectorial y luego calcular la similitud entre los vectores. Este método es simple y fácil de usar, pero no necesariamente captura las relaciones semánticas más complejas del artículo.
Los métodos basados en estadísticas evalúan la similitud entre dos artículos analizando su distribución léxica, estructura sintáctica e información semántica. Este enfoque generalmente requiere un análisis lingüístico en profundidad del artículo y, por lo tanto, requiere un uso computacional intensivo. Sin embargo, puede capturar con mayor precisión las características lingüísticas del artículo, proporcionando así resultados de detección de similitudes más precisos. El modelo puede predecir la similitud entre el artículo de entrada y otros artículos en función del contenido del artículo. Este método generalmente requiere una gran cantidad de datos anotados para el entrenamiento y el modelo debe optimizarse para obtener el mejor rendimiento. Sin embargo, una vez completada la formación, este método puede detectar de forma rápida y precisa similitudes entre dos artículos.