Modalités d'annotation de la BEFM
Annotation ?
Si vous avez à répondre à des questions sur un texte ou sur un corpus de textes il peut être pertinent d'utiliser l'outil informatique afin de réaliser des traitements automatisés.
Ces traitements ne sont possibles que si au préalable les textes ont été découpés en mots et si chaque mot a été associé à son entrée dans le dictionnaire. Pour distinguer certains mots (être est un nom mais aussi un verbe) et pour faciliter les traitements ultérieurs on associe en général à chaque mot une catégorie grammaticale. Cette opération est appelée la lemmatisation ou annotation du texte (on associe chaque mot à son lemme c'est à dire le mot qui lui correspond dans le dictionnaire).
Principes utilisés pour la BEFM
Dominique Labbé a commencé à élaborer la BEFM il y a près de 35 ans. Il travaille désormais avec Cyril Labbé et ensemble ils développent des logiciels spécifiques permettant de satisfaire 2 objectifs principaux :
- Les lemmes retenus pour chaque mot sont les plus proches possible du vocabulaire que l'on trouve dans les dictionnaires du commerce : verbes à l'infinitif, noms au masculin singulier,...
- La procédure mise en place pour annoter les textes permet de limiter le taux d'erreur. On peut estimer que ce taux est inférieur à 0,5 % alors qu'il est en général supérieur à 2 % pour les logiciels utilisés habituellement.
En savoir plus
Les documents suivants rendent compte de manière plus détaillée des travaux réalisés, des méthodes utilisées :
- Normes de saisie et de dépouillement des textes politiques par Dominique Labbé dans : Cahier du CERAT,1990, pp.1-135.
- Développement d'outils d'analyse statistique textuelle par A. Pibarot, L. Denoue, D. Labbé et J. Picard Publié dans : Travaux scientifiques du Service de Santé des Armées. XVI, 1995, p. 305-307.
- La lemmatisation des grandes bases de textes. Un exemple : Corneille, Molière et Racine par Dominique Labbé dans : L’édition électronique en littérature et dictionnairique, évaluation et bilan, Juin 2002, Rouen,France.
- Les particularités
d'un discours politique : les gouvernements minoritaires de Pierre Trudeau et de Paul Martin au Canada.
Par Cyril Labbé, Dominique Labbé & Denis Monière. Corpus, 4, 2005, p. 79-104.
- Les déclarations gouvernementales sous la Ve République (1959-1997). In AUTIN Jean-Louis et WEILL Laurence (Eds). Le Droit figure du politique. Etudes offertes au professeur Michel Miaille par Dominique Labbé Montpellier : Université de Montpellier I, 2008, tome I, p. 843-865.
- Existe-t-il un genre épistolaire ? Hugo, Flaubert et Maupassant : Communication aux dixièmes Nouvelles Journées de l’ERLA (Brest 20-21 novembre 2008) par Cyril Labbé et Dominique Labbé. BanksDavid. Le texte épistolaire du XVIIe siècle à nos jours, L’Harmattan, pp.53-85, 2013.
- Segmentation des corpus chronologiques : 143 ans de discours gouvernemental au Québec. Par Dominique Labbé & Denis Monière. In Bolasco Sergio, Chiari Isabella, Giuliano Luca (Eds). Proceedings of 10th International Conference Statistical Analysis of Textual Data. Rome : Edizioni Universitarie di Lettere Economia Diritto, 2010, Vol 2, p. 805-816.
- Lexicométrie : quels outils pour les sciences humaines et sociales ? Par Cyril Labbé & Dominique Labbé. Communication aux Journées d’étude Usages de la lexicométrie en sociologie. Université de Versailles, 12-13 juin 2013
- Identification de l’auteur d’un texte (Hugo, Lamartine, Musset et Vigny). L’œuvre et son auteur : problèmes d’attribution. Par Dominique Labbé, mai 2014, Lille, France.
- Un siècle et demi de discours gouvernemental au Canada. Contribution de la lexicométrie à l’Histoire politique. Par Dominique Labbé & Denis Monière. In Née Emilie, Daube Jean-Michel, Valette Mathieu, Fleury Serge (dir.). Proceedings of the 12th International Conference on Textual Data Statistical Analysis. Paris: June 3-6 2014, p. 485-494.