Association pour la Promotion des Langues via la Lexicographie et l’Open Data

État de l’art

Les fondements de notre démarche

L’open data devient un enjeu majeur de notre société pour permettre le partage, par tous et pour tous, de connaissances et d’informations quelles qu’elles soient. En France, les collectivités et l’État s’y mettent doucement : données géographiques, sur la circulation, sur les travaux, informations diverses sur leur fonctionnement, etc.

Par contre, en sciences, très peu de données sont accessibles autrement qu’en consultation, certes gratuite, mais forcée sur les sites web des institutions les produisant. On est très loin de ce qu’on peut voir en terme de diffusion par leurs équivalents dans le monde anglo-saxon.

Eux ont compris depuis bien longtemps que restreindre la diffusion l’information, du savoir, bloque toujours leur évolution et l’innovation qui peut en découler. Les cours gratuits, les données brutes sont un complément à l’enseignement classique, pas un concurrent. Un professeur amènera toujours un plus indéniable. L’Open Data ne doit donc pas faire peur, bien au contraire. La diffusion de l’information et des sciences est à ce prix si on ne veut pas que ce soit celles des autres qui les remplacent et maintenir la diversité culturelle.

Le manque de ressources lexicographiques libres (dictionnaires, outils linguistiques pour la traduction ou la localisation, etc.) est patent. Il est dû à un déficit de données initiales comme des listes lexicographiques de mots avec des informations grammaticales pour permettre des recoupements ou des analyses fiables (sans ambiguïté sur les mots).

Avoir un conservatoire multilingue où l’on pourrait trouver des listes de mots enrichies et disponibles en Open Data serait donc un avantage indéniable pour la recherche (sciences humaines ou recherche fondamentale sur la traduction), la conservation des patrimoines locaux et les activités des entreprises privées (qui pourraient ainsi se concentrer sur leur cœur de métier et ne pas perdre de temps à rechercher ou à recréer ces données) mais aussi l’enseignement ou même n’importe quel individu pour tout projet personnel.

Nombre de pays ou de groupements d’intérêts pour la conservation du patrimoine linguistique ayant peu de moyens pourraient ainsi avoir un interlocuteur qu’ils n’ont pas forcément localement.

Rapide état de l’art des ressources et outils lexicographiques ou linguistiques

Les liens à droite présentent le détail de nos recherches sur le net pendant environ un an. Nos investigations présentées ici ne visent pas à être exhaustives. Il faut se rappeler, par exemple, qu’une ressources en ligne peut disparaître ou changer d’adresse du jour au lendemain selon qui la maintient. Cela rend leur découverte et leur visibilité à très long terme aléatoire. Il n’y a qu’à regarder le nombre de contenu parfois référencés sur les sites institutionnels par un moteur de recherche qui sont des liens morts pour s’en convaincre.

On pourrait bien sûr multiplier les exemples de ce type, mais le petit « état des lieux » que nous venons d’achever semble assez édifiant : les données actuellement disponibles sont très incomplètes et « éparpillées », ce que notre projet a à cœur de corriger. Par exemple, les traducteurs automatiques offrent la possibilité d’obtenir une traduction brute, mais pas de trancher en cas de polysémie. Il faut pour cela consulter un dictionnaire, qui répertorie les différents sens d’un mot, mais ne fournit pas toujours un contexte et quasiment jamais l’étymologie d’un mot.

De plus, notre projet aspire à davantage de rigueur, notamment quant à la classification et l’actualisation des données. Nous avons malheureusement constaté que même des institutions de renom négligeaient certains détails de leurs ressources en ligne qui, à notre sens, ont pourtant toute leur importance. Le projet APLLOD entend bien profiter du caractère participatif d’Internet pour assurer le progrès constant de son contenu grâce à l’écoute et au contrôle régulier de notre équipe de traducteurs et de linguistes qui seront les garants de la qualité de notre site.

Enfin, nous envisageons un partage de données qui puisse toucher le plus grand nombre. Ainsi nous travaillerons à mettre à disposition des utilisateurs une plate-forme efficace et intuitive. Nous projetons par ailleurs d’employer des formats réutilisables, adaptés à diverses applications, afin que ressources libres de droits riment avec informations de choix.