Este proyecto consiste en la aplicación de técnicas de procesamiento de lenguaje natural (PLN) para identificar patrones de escritura del autor y, así, permitir comparar la "forma" de escribir entre documentos. Cada persona tiene una forma de escribir diferente a los demás, y la forma de escribir nos identifica y diferencia de los demás. Además, cuando copiamos literalmente algún texto de otra fuente como, por ejemplo, un artículo hallado por Internet o un libro, se detecta de forma rápida que aquella "forma de escribir no es la nuestra.
InLab se encarga de desarrollar el prototipo de este proyecto. Se trata de recoger, para cada documento con autor conocido, un conjunto de indicadores como la longitud de las palabras, la de las frases, la riqueza del vocabulario, la frecuencia de las palabras, etc.
El proyecto indicará la probabilidad de plagio al introducir un documento nuevo de autor desconocido. Mediante una serie de algoritmos de clasificación (Support Vector Machine, Knn....) revelará la probabilidad con la que el documento pertenece al autor para cada uno de los indicadores identificados.