Un nuevo sistema transcribe
automáticamente textos manuscritos antiguos
La Universidad Politécnica de Valencia (UPV) lidera
un proyecto europeo que desarrolla un sistema para el reconocimiento
automático de imágenes de documentos antiguos manuscritos, para poder
transcribirlos de la forma más rápida posible.
El proyecto Trascriptorium, que arrancó
a principios de este año, forma parte del Séptimo Programa Marco de la Unión
Europea y, además de la UPV, también participan en él dos socios británicos,
uno austríaco, uno griego y uno holandés.
El coordinador del proyecto, Joan Andreu Sánchez, ha
explicado a EFE que el proyecto busca un prototipo para probar "cómo se
podrían utilizar en un entorno real técnicas automáticas e interactivas que
ya se están desarrollando" para poder transcribir documentos manuscritos
antiguos, con técnicas que aprenden automáticamente y que, por tanto, se
aplican a cualquier lengua y aceleran el trabajo.
"El proceso de transcripción actualmente se
hace manualmente y la idea es incorporar técnicas automáticas de reconocimiento
del habla en este tipo de entorno transcripción", ha apuntado, y ha
indicado que estas técnicas "no están lo suficientemente exploradas y
difundidas en el reconocimiento de la escritura".
Sánchez ha incidido en que las técnicas que utilizan
"no tienen que ver" con las técnicas de reconocimiento óptico de
caracteres (OCR).
"Para las técnicas de OCR se utilizan técnicas
de segmentación, es decir, se aíslan los caracteres y luego se reconocen; pero
la escritura manuscrita es ligada y no hay técnicas que lo separen
automáticamente, por lo que el proceso de reconocimiento no se puede
abordar carácter a carácter sino como un todo de caracteres, palabras y
líneas", ha explicado.
Una de las principales ventajas de este proyecto es
que las técnicas que utilizan "aprenden automáticamente a partir de
ejemplos y por tanto, no son específicas para una determinada lengua sino que
se pueden aplicar a cualquier lengua".
En concreto, Transcriptorium se desarrolla en castellano,
holandés, alemán e inglés, aunque, el investigador ha señalado que el grupo
de trabajo de la UPV también ha explorado documentos "en árabe y otras
lenguas".
"Si se desea tener transcripciones de calidad,
actualmente el transcriptor tiene que posteditar la salida de un sistema de
reconocimiento pero con este proyecto usamos técnicas interactivas para que, a
media que transcribe, el sistema se adapte y es capaz de aprender a raíz de lo
que se está transcribiendo", ha señalado.
De esta forma, para un volumen de unas mil páginas,
unas 50 se transcriben a mano y una vez hecho esto, "se entrenan modelos
para proporcionar resultados razonables para el resto de páginas, lo que
acelera el trabajo".
Tras la limpieza de la imagen, el proceso contempla
la detección de zonas textuales de interés, posteriormente se
detectan las líneas automáticamente y luego se transcriben con herramientas ya
usadas en el reconocimiento automático del habla.
Estas técnicas se pueden aplicar "a
cualquier tipo de documento “de biblioteca, archivos o colecciones privadas
y en concreto, el proyecto trabaja con textos desde el siglo XV hasta
principios del XX, entre ellos, registros matrimoniales (en castellano) o
sentencias judiciales (en alemán).
Trabajan también en la colección del filósofo Jeremy
Benthan, unos 30.000 documentos que el College London está transcribiendo
manualmente, con el propósito es proporcionar herramientas para facilitar esos
procesos de transcripción.
El grupo lo forman expertos en transcripción
automática (UPV), en procesamiento de documentos antiguos, en crowd-sourfing
(colaboración altruista en procesos de transcripción) y en proporcionar
recursos lingüísticos.
Además, Sánchez ha explicado que existe una
biblioteca para "difundir este tipo de tecnología en las bibliotecas que
tienden a hacer disponibles en la red este tipo de documentos" y ha
incidido en que el software que desarrolla el proyecto será
"libre".
FUENTE: http://www.abc.es/
GRACIAS POR COLABORAR CON EL BLOG Tweets por @ELCAJONDENURIA
No hay comentarios:
Publicar un comentario
Pon tu comentario aquí