Littré, schéma d’encodage TEI

Présentation de la structure informatique du Dictionnaire de la langue française d'Émile Littré, encodé en XML et respectant les spécifications de la TEI-P5. Ce projet a été réalisé à partir de la version électronique du Littré conçue par François Gannaz (version 1.3) et correspond à l'intégralité de l’édition originale de 1872 en 4 volumes, enrichie de son supplément de 1877.

« Le passé de la langue conduit immédiatement l'esprit vers son avenir. »
(Émile Littré, Préface du Dictionnaire de la langue française)

Nomenclature

Convaincu de la nécessité de connaître les emplois passés pour éclairer les usages présents, Émile Littré construit la nomenclature de son Dictionnaire de la langue française sur le socle de celle du Dictionnaire de l'Académie Française ; ce « corps de la langue » est donc enrichi à partir de nombreuses sources d'addition :

  • le « dépouillement des auteurs classiques » d'une part, ainsi que les « auteurs du seizième siècle, du quinzième, et même [...] les auteurs antérieurs, s'il était possible d'y puiser sans réserve » ;
  • les « termes de métier » (à partir de la nomenclature des travaux de Furetière et Richelet)  et les termes scientifiques d'autre part, deux objets par ailleurs bien distincts : « tandis que la langue des métiers est toujours populaire, souvent archaïque, et tirée des entrailles même de notre idiome, la langue scientifique est presque toute grecque, artificielle et systématique : là l'étymologie se présente d'elle-même ».
<text> Corps du document
Enfants
B. <body
Modèle body
Parents
T. <TEI
<body>
Enfants
E. <entry> <entryFree
Modèle entry | entryFree ) +
Parents
T. <text
<entry> Article (entrée)
Attributs
@ana ? supplement
Issu du supplément
@xml:id
Enfants
E. <etym
F. <form
S. <sense
Modèle form note type="REM." ? note type="plan" ? sense + re type="PROV." * note type="REM." | re type="SYN." | note type="HIST." | etym ) * re ana="supplement" ?
Parents
B. <body

Chaque entrée est dotée d'un identifiant unique, correspondant à sa vedette. Cet identifiant permet d'assurer la liaison entre les nombreux renvois et les entrées auxquelles ils réfèrent. Il peut-être :

  • une forme simple, auquel cas il s'agit du lemme de ce mot, éventuellement suivi d'un point et d'un indice numérique afin de différencier deux entrées portant sur le même lemme
    exemple : @xml:id="abrégé.1" et xml:id="abrégé.2" ;
  • une forme composée – type locution – transcrite telle quelle
    exemple : @xml:id="te_deum" et @xml:id="vaque_à_tout" ;

<entryFree> Renvoi, préfixe, suffixe, forme fléchie…
Attributs
@ana ? supplement
Issu du supplément
@type ? prefixe | suffixe )
@xml:id
Enfants
D. <def> <dictScrap
E. <etym
F. <form
X. <xr
Modèle formxr | etym | dictScrap | def | note type="REM." ) *
Parents
B. <body

Cet élément permet de distinguer les entrées courtes.

  • un préfixe, auquel cas sa forme sera suivie d'un tiret court, son statut de suffixe étant précisé par l'attribut @type
    exemple : @xml:id="andr-" ;
  • un suffixe, auquel cas sa forme sera la même que celle d'un mot simple, son statut de suffixe étant précisé par l'attribut @type
    exemple : @xml:id="acé" ;
<form>
Enfants
G. <gram
O. <orth
P. <pron
Modèle orth + pron ? gram ?
Parents
E. <entryFree
<ref> Renvoi

Littré intègre à son Dictionnaire de la langue française de nombreux renvois entre différentes entrées, qu'il convient de structurer finement afin de mieux comprendre le squelette définitionnel des items. Cela permettrait de représenter systématiquement ce réseau voulu par l'auteur et donner ainsi au texte une vraie dimension électronique, une réelle épaisseur.
Le lien entre le renvoi et sa référence est désormais assuré par la mise en place des attributs @xml:id

Attributs
@target
Modèle {text}
Parents
B. <bibl
D. <dictScrap
E. <etym
G. <gram
P. <p> <pron
X. <xr
<xr> Corrélat (Contient un renvoi avec ses introducteurs)
Enfants
R. <ref
Modèle {text} | ref ) +
Parents
E. <entryFree> <etym
F. <form
S. <sense> <sense

Morphologie

Chaque entrée est composée d'un certain nombre d'éléments significatifs, à commencer par form, un élément obligatoirement présent et encodant des informations relatives à l'identification de l'item traité.
<form> Forme de la vedette
Enfants
C. <cit
G. <gram
N. <note
O. <orth
P. <pron
X. <xr
Modèle orth + note * pron * note * gram ?  ) + xr ? cit * note ?
Parents
E. <entry
Au minimum, ces informations se résument à la représentation graphique du mot (<orth>), éventuellement enrichie d'indications grammaticales (<gram>) ou sur la prononciation de l'item (<pron>). Ces indications, le cas échéant, peuvent être enrichies de discussions ou remarques critiques de l'auteur (<note>), notamment sur la prononciation ou des particularités grammaticales.
<orth> Graphie
Modèle {text}
Parents
F. <form> <form
<pron> Prononciation
Enfants
C. <cit
R. <ref
Modèle {text} | ref | cit ) *
Parents
F. <form> <form
<gram> Indication grammaticale
Attributs
@norm ? A | S | V )
Enfants
R. <ref
Modèle {text} | ref ) *
Parents
F. <form> <form
<note> Note mixte
Enfants
O. <oVar
R. <ref
Modèle {text} | ref | oVar ) *
Parents
C. <cit
F. <form
Q. <quote

Significations

« l'Académie met toujours en premier rang la signification qui est la principale dans l'usage, c'est-à-dire celle avec laquelle le mot revient le plus souvent soit dans le parler, soit dans les écrits. [...] Sans doute, en un dictionnaire qui ne donne ni l'étymologie ni l'historique des mots, ce procédé empirique a été le meilleur à suivre. [...] en plaçant de la sorte au premier rang ce que le lecteur est disposé à trouver le plus naturel comme étant le plus habituel, on lui donne une satisfaction superficielle il est vrai, mais réelle pourtant. Toutefois cet avantage est acheté au prix d'inconvénients qui le dépassent de beaucoup. En effet ce sens le plus usité, le premier qui se présente d'ordinaire à la pensée quand on prononce le mot, le premier aussi que l'Académie inscrit, est souvent, par cela même qu'il est habituel et courant dans le langage moderne, un sens fort éloigné de l'acception vraie et primitive ; il en résulte que, ce sens ayant été ainsi posé tout d'abord, il ne reste plus aucun moyen de déduire et de ranger les acceptions subséquentes. [...]

Autre a dû être la méthode d'un dictionnaire qui consigne l'historique des mots et en recherche l'étymologie. Là, tous les éléments étant inscrits, on peut reconnaître la signification primordiale des mots. L'étymologie indique le sens originel dans la langue où le mot a été puisé ; l'historique indique comment, dès les premiers temps de la langue française, ce mot a été entendu, et supplée, ce qui est souvent fort important, des intermédiaires de signification qui ont disparu. Avec cet ensemble de documents, il devenait praticable, et, j'ajouterai, indispensable de soumettre la classification à un arrangement rationnel, sans désormais rien laisser à ce fait tout accidentel de la prédominance de tel ou tel sens dans l'usage commun, et de disposer les significations diverses d'un même mot en une telle série, que l'on comprît, en les suivant, par quels degrés et par quelles vues l'esprit avait passé de l'une a l'autre. »
(Préface du Littré)

<sense> Acception
Attributs
@ana ? supplement
Issu du supplément
@n ? {positiveInteger}
Enfants
C. <cit
D. <dictScrap
Q. <q
S. <sense
X. <xr
Modèle dictScrap | cit | xr ) note type="REM." ? cit | dictScrap ) * sense * re type="PROV." | q | xr ) *
Parents
E. <entry

La structure des acceptions formule cette hypothèses à valider :

  • Une acception est toujours introduite par une glose (ou citation de définition).
  • Les sous-acceptions se succèdent en série stricte, sans insertions d'autres composants entre les items.
  • Les proverbes et les renvois sont toujours renvoyés en fin d'acception.
<sense> Sous-acception
Attributs
@ana ? supplement
Issu du supplément
Enfants
C. <cit
D. <dictScrap
X. <xr
Modèle cit | dictScrap ) cit | dictScrap ) * xr | re type="PROV." ) *
Parents
S. <sense
Est-ce qu'une sous-acception est toujours introduite par une glose (ou une citation de définition) ?
<dictScrap> Contenu mixte
Attributs
@ana ? supplement
Issu du supplément
Enfants
D. <def
O. <oVar
Q. <q
R. <ref
Modèle {text} | def | q | ref | oVar ) *
Parents
E. <entryFree
S. <sense> <sense
« Nous en sommes encore à nous demander comment un homme tel que M. Littré, et comment une maison aussi habile que celle qui figure au bas du titre, ont pu condamner le lecteur à un tel imbroglio et négliger à ce point un accessoire si essentiel dans un livre de recherches : presque point d'alinéas ; certains paragraphes ont jusqu'à deux, trois, quatre et même cinq cent lignes ; les exemples n'ont rien qui les distingue du texte de la définition ; les vers revêtent la forme et le caractère de la prose. »
(Pierre Larousse, Préface du Grand Dictionnaire universel, 1865)
<def> Définition
Modèle {text} *
Parents
D. <dictScrap
E. <entryFree
<q> Exemple, Locution
Enfants
O. <oVar
Modèle {text} | oVar ) *
Parents
D. <dictScrap
S. <sense

Cet élément, codant un discours à détacher de celui de l'auteur, dénote principalement des exemples, éventuellement des locutions figées voire des proverbes (la frontière est parfois mince).

Le besoin de sous-structuration de ces textes permet le repérage et l'analyse de nombreuses marques chères à l'auteur, révélant un texte très structuré, notamment dans la séparation entre les locutions et leur glose.
exemple : « se dit de », « se dit quand », « c'est-à-dire ».

<note type="plan"> Plan des acceptions
Attributs
@type="plan" plan
Enfants
D. <dictScrap
L. <list
Modèle dictScrap ? list
Parents
E. <entry
<list>
Enfants
I. <item
Modèle item +
Parents
<item>
Attributs
@n {string}
Modèle {text}
Parents
L. <list

Citations

<cit> Citation
Attributs
@ana ? supplement
Issu du supplément
Enfants
B. <bibl
N. <note
Q. <quote
Modèle quote bibl note ?
Parents
E. <etym
F. <form
P. <p> <pron
S. <sense> <sense
« La citation régulière et systématique d'exemples pris aux meilleurs auteurs est une innovation qui paraît être en conformité avec certaines tendances historiques de l'esprit moderne. »
(Préface du Littré)
<quote>
Enfants
N. <note
O. <oVar
Modèle {text} | oVar | note ) *
Parents
C. <cit
<bibl> Référence bibliographique
Enfants
A. <author
B. <biblScope
Modèle author ? biblScope
Parents
C. <cit
<author> Auteur
Attributs
@xml:id ?
Modèle {text}
Parents
B. <bibl
<oVar> Rappel de la vedette
Modèle {text}
Parents
D. <dictScrap
E. <etym
Q. <q> <quote

Remarques, histoire, étymologie…

<note type="REM."> Remarques
Attributs
@ana ? supplement
Issu du supplément
@type="REM." REM.
Enfants
C. <cit
O. <oVar
P. <p
R. <ref
X. <xr
Modèle p + | ( {text} | cit | ref | oVar | xr ) +  )
Parents
E. <entry> <entryFree
S. <sense

« Sous ce chef, j'ai réuni quelques notions complémentaires qui n'entrent pas d'ordinaire dans les plans lexicographiques, mais qui pourtant ne me semblent pas dénuées d'intérêt et d'utilité. [...] Ces remarques, de leur nature, sont très diverses. »
(Préface du Littré)

Ainsi, ces remarques concernent notamment des difficultés de la langue, et l'auteur s'inspire des grammairiens, tout en apportant des éléments nouveaux, afin d'éclairer l'usage tant dans l'emploi que dans l'orthographe.

Toujours suivant ce principe directeur de « combine[r] l'usage présent de la langue et son usage passé, afin de donner à l'usage présent toute la plénitude et la sûreté qu'il comporte », Littré éclaire certaines proscriptions contemporaines concernant des faits de langue pourtant attestés chez les grands auteurs classiques.

<p> Regroupement d'informations
Enfants
C. <cit
R. <ref
Modèle {text} | ref | cit ) *
Parents
<re type="PROV."> Proverbe
Attributs
@type="PROV." PROV.
Enfants
C. <cit
F. <form
R. <ref
Modèle {text} | form | cit | ref ) *
Parents
E. <entry
S. <sense> <sense

« Il est enfin un dernier ordre de remarques, tantôt mises sous ce chef, tantôt incorporées dans la série des acceptions du mot. Il s'agit de l'interprétation de certaines locutions figurées ou proverbiales. »
(Préface du Littré)

<re type="SYN."> Nuance
Attributs
@type="SYN." SYN.
Enfants
C. <cit
R. <ref
Modèle {text} | cit | ref ) *
Parents
E. <entry

« [...] la discussion des synonymes m'a souvent averti de prendre garde aux nuances et de ne pas recevoir comme une véritable explication le renvoi d'un terme à l'autre. »
(Préface du Littré)

La structuration raffinée et aboutie des nuances du Littré, d'ores et déjà effectuée par Frédéric Glorieux, est un bon exemple du degré de balisage pouvant être atteint sur l'ensemble du texte, donnant ainsi l'occasion de se pencher sur la lecture et l'étude d'une partie signifiante et cohérente de ce dictionnaire.

<note type="HIST."> Information historique
Attributs
@type="HIST." HIST.
Enfants
C. <cit
L. <label
N. <note
Modèle labelcit | note ) +  ) +
Parents
E. <entry

« Je donne le nom d'historique à une collection de phrases appartenant à l'ancienne langue. Lorsqu'un mot a été exposé complètement tel qu'il est aujourd'hui dans l'usage, lorsque les sens y ont été rangés d'après l'ordre logique, lorsque des exemples classiques, autant que faire se peut, ont été rapportés à l'appui, lorsque la prononciation a été indiquée et, au besoin, discutée, lorsque enfin des remarques grammaticales et critiques ont touché, dans les cas qui le comportent, à l'emploi du mot ou aux difficultés qu'il présente, alors s'ouvre un nouveau paragraphe pour les textes tirés de la langue d'oïl. Ainsi placé, c'est le prolongement naturel d'une série que l'on tronque quand on s'arrête à notre temps et aux temps classiques. Après avoir vu comment écrivent Corneille, Pascal, Bossuet, Voltaire, Montesquieu et nos contemporains, on pénètre en arrière et l'on voit comment ont écrit Montaigne, Amyot, Commines et Froissart, Oresme et Machaut, Joinville, Jean de Meung, Guillaume de Lorris, Villehardouin, le sire de Couci, le traducteur du livre des Psaumes, et Turold, l'auteur de la Chanson de Roland. »
(Préface du Littré)

<etym> Étymologie
Attributs
@ana ? supplement
Issu du supplément
Enfants
C. <cit
O. <oVar
R. <ref
X. <xr
Modèle {text} | oVar | cit | xr | ref ){text} ) *
Parents
E. <entry> <entryFree

« Cette rubrique, née toujours de la volonté de l'auteur de lié passé et présent, prend corps dans « la détermination ou du moins la discussion de l’origine de chaque mot établie par la comparaison des mêmes formes dans le français, dans les patois et dans l'espagnol, l'italien, et le provençal ou langue d'oc. »
(Page de garde du Littré)

« [...] ceux qui iront jusqu'à désirer de connaître l'étymologie entreront dans l'histoire du mot, et trouveront, au-dessous de cette histoire, l'étymologie qui très souvent en est dépendante. »
(Préface du Littré)

ana()
Contenu @ana="supplement"="supplement" ?
Usage
C. <cit
D. <dictScrap
E. <entry> <entryFree> <etym
S. <sense> <sense
<re ana="supplement"> Sous-entrée en supplément
Attributs
@ana="supplement" supplement
@orig ?
Enfants
C. <cit
D. <dictScrap
E. <etym
S. <sense
Modèle sense | cit | dictScrap | etym | note type="HIST." | note type="REM." | re type="SYN." | re type="PROV." ) *
Parents
E. <entry

Structure générale et entête

<TEI> Élément racine
Attributs
@xml:id
Enfants
T. <teiHeader> <text
Modèle teiHeader text
Parents start.
<teiHeader> Métadonnées
Enfants
F. <fileDesc
Modèle fileDesc
Parents
T. <TEI
<fileDesc> Description du fichier
Enfants
S. <sourceDesc
T. <titleStmt
Modèle titleStmt publicationStmt sourceDesc
Parents
T. <teiHeader
<titleStmt> Titre
Enfants
T. <title
Modèle title
Parents
F. <fileDesc
<publicationStmt> Mention de publication
Enfants
D. <date
I. <idno
P. <publisher
Modèle date idno publisher availability status="restricted"
Parents
F. <fileDesc
<availability status="restricted">
Attributs
@status="restricted" restricted
Enfants
P. <p
Modèle p +
Parents
<sourceDesc> Description des sources
Enfants
B. <bibl
Modèle bibl +
Parents
F. <fileDesc
<bibl>
Enfants
R. <ref
Modèle {text} | ref ) *
Parents
S. <sourceDesc