Elisabeth Méndez. El profesor de Tecnología del IES José Caballero de Huelva y doctorando de Informática en la Universidad de Huelva, Diego Antonio Rodríguez Torrejón, ha obtenido la mejor posición en la Competición Internacional de Detección de Plagio en Documentos de Textos por un avanzado sistema que ha destacado con creces en velocidad y eficacia respecto a sus competidores.
El plagio es tan fácil como cortar y pegar, una práctica que se ha puesto muy de moda con el desarrollo de Internet, pero que sigue siendo una molestia para los autores y para los docentes de cualquier nivel, que exigen de sus alumnos algo más que un simple Control+C y Control+V.
“Este sistema es capaz de detectar el 76% del texto plagiado, delimitándolo con una precisión del 90%”, explica a Huelva Buenas Noticias este profesor, quien está inserto en el desarrollo de la tesis ‘Sistemas Escalables de Altas Prestaciones para la Detección Automática de Plagio en Documentos de Texto’, bajo la dirección del profesor del Departamento de Tecnologías de la Información, José Manuel Martín Ramos, con quien participa en esta competición desde 2010, y en la que en este 2013 han recibido el reconocimiento como el Equipo Ganador de la tarea de Alineamiento de Texto para la Detección de Plagio del Simposio PAN 2013.
Para conocer un poco mejor este moderno sistema de reconocimiento de texto plagiado y la labor que estos dos especialistas realizan en el ámbito, elevando el nombre de la Universidad de Huelva en competiciones internacionales, hemos conversado con el autor del mismo, Rodríguez Torrejón, quien nos habla en esta entrevista sobre la importancia de esta técnica y los reconocimientos que gracias a ella han recibido, adelantándonos además los futuros avances que esperan introducir en el sistema.
– ¿Cuál es el proyecto por el que habéis sido premiados?
– ‘Detección de Plagio en documentos de Texto’, un proyecto internacional PAN (Descubriendo el Plagio, la Autoría y el uso indebido del Software Social) que trata de fomentar mediante competiciones el desarrollo de programas informáticos que faciliten la solución a estos problemas de plagio.
– ¿Cómo podemos saber si nos encontramos ante un texto plagiado?
– Existen muchas técnicas y propuestas. La nuestra se basa en la búsqueda y comparación de los textos analizados mediante un tipo especial de n-gramas, es decir, grupos de trozos de palabras relevantes y cercanas extraídas del texto. Cuando un documento o parte es plagiado, aunque se reescriba, resuma, amplíe, se cambien o modifiquen palabras, manteniendo el sentido, estos n-gramas reaparecen agrupados con un frecuencia superior a la de coincidencia casual existente si los textos son independientes.
– ¿Cómo surge la idea de desarrollarlo?
– A partir de una actividad de una asignatura optativa del Máster de Tecnologías Informáticas Avanzadas, conocimos la iniciativa PAN, que proporcionaba el reto y las herramientas básicas para estudiarlo y la competición 2009. Nuestros primeros intentos de abordar el problema requerían un mes de cómputo. Ahora somos capaces de abordar estos problemas con mucha más efectividad y en escasos minutos e incluso segundos.
– ¿Qué reconocimiento es el que habéis recibido?
– El reconocimiento ha sido el de Equipo Ganador de la tarea de Alineamiento de Texto para la Detección de Plagio del Simposium PAN 2013, en del congreso internacional CLEF2013, que este año se celebrará en Valencia en Septiembre.
– ¿Y en qué se diferencia vuestro sistema del de los competidores?
– El software con el que trabajamos el profesor Martín Ramos y yo es capaz de detectar el software con el mejor equilibrio entre cantidad de plagio detectado y fiabilidad de las detecciones, sin fragmentación de las mismas, además de hacerlo en al menos cuatro veces menos tiempo que cualquier otra propuesta, y cinco veces más rápido que la propuesta del segundo clasificado por eficacia. La velocidad de todos los programas se comprueba y compara sobre la misma computadora. Sin embargo la velocidad del programa es aún muy superior ejecutado en nuestros servidores.
En la competición, fuimos capaces de realizar la comparación de 5185 pares de documentos con distintos tipos de plagio camuflado, como traducciones sucesivas, resúmenes, reescritura con sinonimia, enriquecimiento del texto, etc, detectando el 76% del plagio con una precisión del 90% en en 72 segundos, aunque en nuestros servidores conseguimos hacerlo en menos de cinco.
– ¿Habéis obtenido algún otro reconocimiento por este proyecto?
– Ya la edición del año pasado, recibimos una mención destacada por ser el programa más rápido, y el más eficaz para la detección de casos reales de plagio. También es el único sistema que aborda el plagio entre distintos idiomas sin usar traductores externos, lentos y caros. Además, obtuve una beca de la Fundación Científica Europea para asistir al congreso CLEF-2012/PAN-2012 en Roma por este trabajo.
– ¿Qué procedimiento es el más efectivo hoy día para identificar un texto plagiado?
– Sin duda, filtrarlo por nuestro sistema, capaz de buscar y comparar entre miles de documentos en solo milésimas de segundo, y luego, ante los casos detectados, la supervisión de un experto humano sobre los fragmentos identificados.
– ¿Y cuál es, a su parecer, el futuro de este sistema?
– Este sistema supone un gran avance en cuanto a la protección de la propiedad intelectual, la vigilancia del plagio en las publicaciones y trabajos académicos, la advertencia ante la falta de citas en trabajos científicos, el agrupamiento de noticias en distintos medios e idiomas sobre el mismo evento, la vigilancia sobre la difusión de una información, …
– ¿Qué importancia considera usted que tiene este avance para la enseñanza?
– Desde el punto de vista académico, hará replanteárselo varias veces a quien pretenda plagiar trabajos, y facilitará a revisores y profesores encontrar las fuentes cuando suceda, ya que las posibilidades que ofrece Internet a los plagiadores exceden las capacidades incluso de los expertos en muchas ocasiones.
– Diego, háblenos de las ventajas e inconvenientes de las herramientas que permiten identificar estos textos.
– Las ventajas son todas, porque el veredicto sobre si hay o no existencia de plagio siempre ha de ser dictado por un humano, que probablemente sin estas herramientas, no tendría oportunidad de encontrar el texto fuente, especialmente ante fragmentos plagiados que pueden pasar inadvertidos dentro de un trabajo extenso. El revisor humano se limitará a comparar solo las zonas de texto delimitadas y alineadas entre fuente y posible plagio, yendo al grano y evitando tener que leer y comparar los textos al completo.
Tan solo se esperan falsos positivos de plagio en menos de una de cada 10 detecciones antes de la revisión por el experto, por lo que está clara la ventaja.
– ¿Cuál es el siguiente paso que tenéis pensado dar ahora?
– Estamos perfeccionando un nuevo sistema para encontrar fuentes en la Web mediante buscadores externos, abordar la identificación entre dialectos del Indí y ofrecer el servicio externo a través de una página web a los interesados.
Para la próxima edición -6ª Competición Internacional- esperamos mejorar aún más nuestros algoritmos y servidores, es decir, los ordenadores que prestan el servicio, para seguir estando en la cima de este campo de investigación.
A lo mejor, incluso recaudar fondos para la investigación – concluye entre risas este investigador.-.