Association pour la Promotion des Langues via la Lexicographie et l’Open Data

Les données que nous proposons

La caractérisation d’une langue ou d’un dialecte

Une langue sera formellement définie, en interne, par un triplet de valeurs issues des différents systèmes de codage de l’IETF :

On obtient ainsi une approche exhaustive pour la description d’une langue quelle qu’elle soit.

La caractérisation d’un mot ou d’une locution

Dans chaque langue, on aura pour les termes stockés les informations suivantes :

Pour les verbes, on constituera en plus des tables de conjugaison.

Organisation du travail

Au téléchargement seront proposés autant de fichiers pour une langue qu’il y a de tables dans la base pour exprimer toutes les relations entre les données. Des identifiants faisant le lien entre les différentes valeurs de chaque fichier, dans un but d’efficacité et de compression de la taille des fichiers au maximum. Il faut en effet garder en tête que le français représente 350 000 mots ou expressions et l’espagnol 570 000 environ à titre d’exemple.

Hors les sociétés privées, dans le genre des éditeurs comme Larousse, nous devrions devenir la plus complète des sources de données lexicographiques et sémantiques.

Nous n’utiliserons comme sources que les travaux de personnes reconnues compétentes en la matière :

Le travail sera entièrement collaboratif et ne nécessitera pas de contrôles a posteriori du contenu comme les systèmes de type Wikipédia puisque celui-ci sera issu de gens compétents et bénévoles. Tout ceci participera à la simplification et à une économie de structure.