Modalités d'annotation de la BEFM

Annotation ?

Si vous avez à répondre à des questions sur un texte ou sur un corpus de textes il peut être pertinent d'utiliser l'outil informatique afin de réaliser des traitements automatisés.

Ces traitements ne sont possibles que si au préalable les textes ont été découpés en mots et si chaque mot a été associé à son entrée dans le dictionnaire. Pour distinguer certains mots (être est un nom mais aussi un verbe) et pour faciliter les traitements ultérieurs on associe en général à chaque mot une catégorie grammaticale. Cette opération est appelée la lemmatisation ou annotation du texte (on associe chaque mot à son lemme c'est à dire le mot qui lui correspond dans le dictionnaire).

Principes utilisés pour la BEFM

Dominique Labbé a commencé à élaborer la BEFM il y a près de 35 ans. Il travaille désormais avec Cyril Labbé et ensemble ils développent des logiciels spécifiques permettant de satisfaire 2 objectifs principaux :

  • Les lemmes retenus pour chaque mot sont les plus proches possible du vocabulaire que l'on trouve dans les dictionnaires du commerce : verbes à l'infinitif, noms au masculin singulier,...
  • La procédure mise en place pour annoter les textes permet de limiter le taux d'erreur. On peut estimer que ce taux est inférieur à 0,5 % alors qu'il est en général supérieur à 2 % pour les logiciels utilisés habituellement.

En savoir plus

Les documents suivants rendent compte de manière plus détaillée des travaux réalisés, des méthodes utilisées :