Annotations utilisées pour la BEFM

Format XML TEI

Les textes de la BEFM sont encodés au format XML TEI

Chaque mot est encadré par une balise w. Une recherche sur [word="aimeraient"] vous donnera accès à toutes les occurences du mot aimeraient

La balise w peut contenir les attributs suivants :

@lemma

L'attribut @lemma fournit le lemme du mot c'est à dire son entrée dans le dictionnaire

Par exemple <w lemma="dormir">dormiront</w> ou <w lemma="seul">seules</w>

Tous les mots des textes disposent d'une annotation @lemma

Une recherche sur [lemma="aimer"] vous donnera pour réponse toutes les occurences, dans le corpus, du mot aimer dans toutes les formes : aimera, Aimeront, aimerait,...

@pos

L'attribut @pos (pos pour Part Of Speech, partie du discours) correspond à la nature du mot : adverbe, nom, verbe, adjectif.

Tous les mots des textes qui constituent la BEFM disposent d'une balise @pos à l'exclusion des lettres euphoniques comme "t" dans "que cherche-t-on ?" ou "l'" dans "l'on est bien avancé !"

@msd

L'attribut @msd (morphosyntactic description ou description morphosyntactique en français) fournit des informations morphosyntactiques sur le mot. Il permet, si on le souhaite, de limiter la recherche à une catégorie plus précise

Par exemple la recherche [pos="VER"] retournera tous les verbes alors que [msd="fut"] retournera tous les verbes au futur.