Association pour la Promotion des Langues via la Lexicographie et l’Open Data

Notre projet

Les fondements de notre démarche

L’open data devient un enjeu majeur de notre société pour permettre le partage, par tous et pour tous, de connaissances et d’informations quelles qu’elles soient. En France, les collectivités et l’État s’y mettent doucement : données géographiques, sur la circulation, sur les travaux, informations diverses sur leur fonctionnement, etc.

Par contre, en sciences, très peu de données sont accessibles autrement qu’en consultation, certes gratuite, mais forcée sur les sites web des institutions les produisant. On est très loin de ce qu’on peut voir en terme de diffusion par leurs équivalents dans le monde anglo-saxon.

Eux ont compris depuis bien longtemps que restreindre la diffusion l’information, du savoir, bloque toujours leur évolution et l’innovation qui peut en découler. Les cours gratuits, les données brutes sont un complément à l’enseignement classique, pas un concurrent. Un professeur amènera toujours un plus indéniable. L’Open Data ne doit donc pas faire peur, bien au contraire. La diffusion de l’information et des sciences est à ce prix si on ne veut pas que ce soit celles des autres qui les remplacent et maintenir la diversité culturelle.

Le manque de ressources lexicographiques libres (dictionnaires, outils linguistiques pour la traduction ou la localisation, etc.) est patent. Il est dû à un déficit de données initiales comme des listes lexicographiques de mots avec des informations grammaticales pour permettre des recoupements ou des analyses fiables (sans ambiguïté sur les mots).

Avoir un conservatoire multilingue où l’on pourrait trouver des listes de mots enrichies et disponibles en Open Data serait donc un avantage indéniable pour la recherche (sciences humaines ou recherche fondamentale sur la traduction), la conservation des patrimoines locaux et les activités des entreprises privées (qui pourraient ainsi se concentrer sur leur cœur de métier et ne pas perdre de temps à rechercher ou à recréer ces données) mais aussi l’enseignement ou même n’importe quel individu pour tout projet personnel.

Nombre de pays ou de groupements d’intérêts pour la conservation du patrimoine linguistique ayant peu de moyens pourraient ainsi avoir un interlocuteur qu’ils n’ont pas forcément localement.

Notre démarche

Notre but premier est donc de favoriser la création d’une base de données multilingue, contenant des données lexicographiques, sémantiques et historiques, en fournissant des jeux de données les plus complets possibles et standardisés qui seront proposés sous forme de fichiers CSV (en anglais : comma separated values, soit en français : valeurs séparées par des virgules) en licence open data libres de tous les droits pour l’utilisation, la reproduction et la modification. Ce format est choisi pour sa souplesse d’utilisation et d’interprétation, quelle que soit la technologie mise en œuvre pour l’exploiter ensuite. Le choix de la licence est quant à lui pragmatique : on ne devrait pas s’approprier tout ou partie d’une langue qui est un bien commun à tous. Notre dessein final est de réaliser cela, à terme, pour toutes les langues ayant un système écrit pour les exprimer. On commencera par les langues les plus documentées comme le français, l’espagnol ou encore l’anglais, par exemple, mais nous allons aussi tout faire pour intégrer en parallèle les langues régionales (occitan, catalan, breton, etc.) ou d’autres langues étrangères en fonction des réponses positives de leurs spécialistes respectifs. Notre action, au final, portera sur tous types de langues ou dialectes, permettra un recensement le plus exhaustif possible des mots qu’ils comportent et des relations qui les lient (catégories grammaticales, conjugaisons, etc.). Les données seront fournies en Open Data sous licence « Creative Commons Attribution 3.0 non transposé ».

Un second but est de produire un outil de consultation de la base de données en ligne pour permettre des recherches dans une langue en particulier ou entre deux langues pour de l’aide à la traduction. Les critères de recherche pourront être :

Une recherche simple par langue proposant une liste alphabétique des mots ou expressions sera aussi proposée.

L’interface du site sera intégralement internationalisée pour permettre son utilisation par le plus vaste public possible.

Le travail que représente le projet commence par une analyse du français :

Ensuite pour chaque nouvelle langue traitée, on devra :

C’est donc un travail de très longue haleine. Pour donner un ordre autre d’idée sur la durée du traitement, il faut compter environ six à huit mois pour la qualification des mots en français.