Asociación para la Promoción de las Lenguas vía la Lexicografía y el Open Data

Nuestro proyecto

Los fundamentos de nuestro enfoque

Los datos abiertos son una apuesta muy importante en nuestra sociedad para permitir su intercambio, de todos y para todos, todo tipo de conocimiento e información. En Francia las administraciones y el Estado los ofrecen continuamente: los datos geográficos, el tráfico, los trabajos, información diversa sobre su funcionamiento, etc.

Por el contrario, en ciencias hay muy pocos datos accesibles al contrario que las consultas, por supuesto gratuitas, pero obligadas en los sitios web de las instituciones que las producen. Estamos muy lejos de lo que se puede ver en términos de difusión con respecto al mundo anglosajón.

Ellos saben desde hace mucho que restringir la difusión de la información, del saber, bloquea su evolución y la innovación que se puede derivar de ella. Los cursos gratuitos, los datos sin procesar son un complemento a la enseñanza clásica, no una competencia. Un profesor llevará siempre un plus innegable. Por tanto, los datos abiertos no deben asustar, más bien al contrario. La difusión de la información y de las ciencias conlleva dicho precio si no queremos que otras las reemplacen, y mantener la diversidad cultural.

La falta de recursos lexicográficos libres (diccionarios, herramientas lingüísticas para la traducción y la localización, etc.) está patente. Se debe a una falta de datos iniciales como listas lexicográficas de palabras con información gramatical para permitir su cotejo y análisis fiable (sin ambigüedad).

Tener un repertorio plurilingüe en el que pudiésemos encontrar listas de palabras enriquecidas y disponibles como datos abiertos supondría, por tanto, una ventaja innegable para la búsqueda (de ciencias humanas o búsqueda fundamental sobre la traducción), la conservación del patrimonio local y las actividades de las empresas privadas (que también podrían concentrarse en la actividad principal de su oficio sin perder tiempo en la búsqueda o la creación de estos datos de nuevo) sino también la enseñanza o incluso para el proyecto personal de cualquier individuo.

Muchos países o agrupaciones interesados en la conservación del patrimonio lingüístico que tengan pocos medios también podrían tener un interlocutor que no sea del ámbito local.

Nuestro enfoque

Nuestro primer objetivo es, por tanto, favorecer la creación de una base de datos plurilingüe que contenga datos lexicográficos, semánticos e históricos y proporcionen registros de datos lo más completos posibles y estandarizados que se propondrán como ficheros CSV (siglas en inglés de comma separated values, que en español es: valores separados por comas) con una licencia de datos abiertos y todos los derechos para su utilización, reproducción y modificación. Este formato también se elige por su flexibilidad en el uso y en la interpretación sea cual sea la tecnología que se emplea para explotarlos. La elección de la licencia es pragmática: no nos debemos apropiar por completo o en parte de una lengua que es un bien común. Nuestro propósito final es realizar esta tarea, al final, para todas las lenguas que tengan un sistema escrito para expresarse. Comenzaremos por las lenguas más documentadas como el francés, el español o el inglés, por ejemplo, pero vamos a hacer todo lo posible para integrar lenguas regionales en paralelo (occitano, catalán, bretón, etc.) u otras lenguas extranjeras según las respuestas positivas de sus respectivos especialistas. Nuestra acción, al final, llegará a todos los tipos de idiomas y dialectos, permitirá un recuento de las palabras de las que constan de la forma más exhaustiva posible junto con las relaciones que las unen (categorías gramaticales, conjugaciones, etc.). Los datos se proporcionarán como datos abiertos con una licencia Creative Commons de reconocimiento unported 3.0.

Un segundo objetivo es producir una herramienta de consulta de la base de datos en línea para permitir búsquedas en una lengua en particular o entre dos lenguas para proporcionar ayuda en la traducción. Los criterios de búsqueda podrían ser los siguientes:

También se propondrá una búsqueda simple por lengua de una lista alfabética de palabras o expresiones.

La interfaz del sitio estará internacionalizada por completo para permitir su uso a un público lo más amplio posible.

El trabajo que representa el proyecto comienza por un análisis del francés:

A continuación, para cada nueva lengua deberemos hacer lo siguiente:

Por tanto es un trabajo de larga duración. Para dar otra perspectiva de la duración del proceso hay que contar con unos 6 u 8 meses para la cualificación de las palabras en francés.