La investigadora onubense Noa Cruz abre nuevos caminos para detectar palabras clave en lingüística computacional

Noa Cruz.
Noa Cruz.
Noa Cruz.
Noa Cruz.

Redacción. El desarrollo de nuevos sistemas de aprendizaje automático que determinen palabras claves de negación y especulación ha abierto nuevos caminos en la comunidad investigadora del Procesamiento del Lenguaje Natural (PLN). Para el campo de la lingüística computacional es ésta una de las principales aportaciones de la tesis ‘Detección de la negación y la especulación en textos médicos y de opinión’, defendida por la doctora Noa Cruz, del Departamento de Tecnologías de la Información de la Universidad de Huelva.
Este trabajo se centra en los dos dominios en los que la negación y la especulación como información lingüística han recibido más atención: el biomédico y el de los artículos de opinión. En el primero, el método propuesto mejora los resultados obtenidos hasta la fecha para la sub-colección de documentos clínicos del llamado corpus Bioscope, que integra todo el conocimiento exacto dentro del ámbito de la investigación biomédica. En el segundo, la novedad de esta tesis radica en que aporta el primer sistema entrenado y evaluado en la colección de artículos de opinión Simon Fraser University anotado con información negativa y especulativa, al tiempo que supone el primer intento en detectar la especulación en este dominio.
Según la investigadora onubense, ingeniera informática, “se trata de identificar a nivel de la frase los tokens o unidades básicas del lenguaje (números, signos de puntuación, palabras, etc.) que se ven afectados por las palabras claves de negación y especulación”. En cuanto al ámbito biomédico la tesis de Cruz supone el primer estudio de evaluación comparativo de tokenizadores. En este sentido, aporta una información de enorme utilidad para desarrolladores de PLN a la hora de elegir las herramientas de tokenización más apropiadas como primera fase de cualquier tarea de lo que en lingüística computacional se denomina minería de texto.
Con respecto al dominio de los textos de opinión, hay sólo unos pocos trabajos sobre la detección de la información lingüística negativa y no hay ningún trabajo en la identificación de la especulación. El trabajo de Noa Cruz pretende corregir esta deficiencia con el desarrollo de un sistema que reconoce automáticamente tanto las palabras clave de negación y especulación como su alcance. En la comparación de ambos dominios, Cruz destaca que el porcentaje de información negativa y especulativa en el dominio de artículos de opinión es mayor que en el biomédico, debido a que los textos clínicos se distinguen por las frases cortas propias del lenguaje médico frente a los textos de opinión, en los que el estilo es más literario y de mayor riqueza lingüística.
El desarrollo de nuevos sistemas de aprendizaje automático para determinar palabras claves de negación y especulación que propone este trabajo, es decir, la identificación precisa de este tipo de información, podría beneficiar a muchas de las aplicaciones que el campo de la lingüística computacional pone al servicio de los estudios científicos.


Puerto de Huelva


Festival de Cine de Huelva

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Mercedes
Aniversario Holea
Huelva Comercio
feria vimar
csif
unia
Ecoembes
matsa
Hospital Quirón
Cocehu
Aguas de Huelva
Las cosas del toro
Atlantic Copper becas
Ayuntamiento de palos de la frontera
Caja Rural hipoteca joven
cepsa
Diputación de Huelva