Asociación para la Promoción de las Lenguas vía la Lexicografía y el Open Data

Estado del arte

Los fundamentos de nuestro enfoque

Los datos abiertos son una apuesta muy importante en nuestra sociedad para permitir su intercambio, de todos y para todos, todo tipo de conocimiento e información. En Francia las administraciones y el Estado los ofrecen continuamente: los datos geográficos, el tráfico, los trabajos, información diversa sobre su funcionamiento, etc.

Por el contrario, en ciencias hay muy pocos datos accesibles al contrario que las consultas, por supuesto gratuitas, pero obligadas en los sitios web de las instituciones que las producen. Estamos muy lejos de lo que se puede ver en términos de difusión con respecto al mundo anglosajón.

Ellos saben desde hace mucho que restringir la difusión de la información, del saber, bloquea su evolución y la innovación que se puede derivar de ella. Los cursos gratuitos, los datos sin procesar son un complemento a la enseñanza clásica, no una competencia. Un profesor llevará siempre un plus innegable. Por tanto, los datos abiertos no deben asustar, más bien al contrario. La difusión de la información y de las ciencias conlleva dicho precio si no queremos que otras las reemplacen, y mantener la diversidad cultural.

La falta de recursos lexicográficos libres (diccionarios, herramientas lingüísticas para la traducción y la localización, etc.) está patente. Se debe a una falta de datos iniciales como listas lexicográficas de palabras con información gramatical para permitir su cotejo y análisis fiable (sin ambigüedad).

Tener un repertorio plurilingüe en el que pudiésemos encontrar listas de palabras enriquecidas y disponibles como datos abiertos supondría, por tanto, una ventaja innegable para la búsqueda (de ciencias humanas o búsqueda fundamental sobre la traducción), la conservación del patrimonio local y las actividades de las empresas privadas (que también podrían concentrarse en la actividad principal de su oficio sin perder tiempo en la búsqueda o la creación de estos datos de nuevo) sino también la enseñanza o incluso para el proyecto personal de cualquier individuo.

Muchos países o agrupaciones interesados en la conservación del patrimonio lingüístico que tengan pocos medios también podrían tener un interlocutor que no sea del ámbito local.

Breve estado del arte de los recursos y herramientas lexicográficos o lingüísticos

Los enlaces de la derecha muestran el detalle de nuestras búsquedas en la red durante un año aproximadamente. Nuestras investigaciones presentadas aquí no aspiran a ser exhaustivas. Hay que recordar, por ejemplo, que uno de los recursos en línea puede desaparecer o cambiar de dirección en cualquier momento según quién lo mantenga. Así pues, su descubrimiento y su visibilidad son aleatorios a largo plazo. Para convencerse de ello sólo hay que fijarse en la cantidad de contenido al que a veces se hace referencia en páginas institucionales mediante motores de búsqueda y que en realidad son enlaces rotos.

Podríamos multiplicar los ejemplos de este tipo, pero el breve «estado de la cuestión» que acabamos de presentar parece lo suficiente edificante: los datos que se encuentran disponibles en la actualidad están muy incompletos y están «repartidos»; algo que nuestro proyecto tiene la firme intención de corregir. Por ejemplo, los traductores automáticos ofrecen la posibilidad de obtener una traducción bruta, pero no la pulen en caso de polisemia. Para ello es necesario consultar un diccionario que muestre los diferentes sentidos de una palabra, pero no siempre proporciona un contexto y, casi nunca, su etimología.

Además, nuestro proyecto tiene por objetivo obtener aún más rigor, en especial, en lo que se refiere a la clasificación y a la actualización de los datos. Desgraciadamente, se ha constatado que incluso las instituciones de renombre descuidan algunos detalles de sus recursos en línea que, en nuestra opinión, tienen mucha importancia. El proyecto APLLOD espera poder aprovechar el carácter participativo de Internet para garantizar el progreso constante de su contenido gracias al control regular de nuestro equipo de traductores y lingüistas que son los garantes de la calidad de nuestra página.

Por último, tenemos previsto compartir datos lo más completos posible. Así, trabajaremos para poner a disposición de los usuarios una plataforma eficaz e intuitiva. Por otro lado, queremos emplear formatos reutilizables adaptados a diversas aplicaciones para que haya recursos libres de derechos que estén en consonancia con una información de calidad.