Detección de autoría para validar la identidad y evitar el plagio en las prácticas de la UOC

Período:
junio, 2015 –
octubre, 2015
Cliente
Entidad financiadora
Responsable
Equipo participante inLab FIB:
Especialidades
Tecnologías
Detección de autoría para validar la identidad y evitar el plagio en las prácticas de la UOC

Descripción

Este proyecto consiste en la aplicación de técnicas de procesamiento de lenguaje natural (PLN) para identificar patrones de escritura del autor y así permitir comparar la “forma” de escribir entre documentos. Cada persona tiene una forma de escribir diferente a otra y la forma de escribir nos identifica y nos diferencia respeto otra persona. Además, cuando copiamos literalmente algún texto de otra fuente, por ejemplo, una artículo encontrado por Internet o de un libro, se detecta de forma rápida que aquella “forma de escribir” no es la nuestra.

inLab se ha encargado de desarrollar el prototipo de esta proyecto. Se basa en recoger por cada documento con autor conocido, un conjunto de indicadores como longitud de palabras, longitud de frases, riqueza de vocabulario, frecuencia de palabras, etc.

El proyecto indicará la probabilidad de plagio al introducir un documento nuevo de autor desconocido. Lo que hará es asignar con qué probabilidad este documento pertenece al autor por cada uno de los indicadores identificados mediante una serie de algoritmos de clasificación (Support Vector Machine, Knn….).