langage
documentaire
Désigne l'ensemble des mots (par exemple, les mots-clé) et symboles (par exemple, le signe +) utilisés à des fins de classification et de recherche des documents dans le domaine de la documentation ou des sciences de l'information. En fait, il s'agit d'un langage artificiel qui, tout en utilisant le vocabulaire de la langue, mais avec une syntaxe qui lui est propre, permet d'exprimer de façon synthétique le contenu des documents dans le but de les classer et de les retrouver rapidement en cas de besoin. Voir aussi indexation
Désigne le langage parlé que les humains utilisent naturellement pour communiquer entre eux, soit la langue (par exemple, l'arabe, l'éwé, le français, le russe, etc.). On parle aussi de langue naturelle. Voir aussi traitement automatique du langage naturel.
Concept selon lequel lire un texte, c'est non seulement à prendre connaissance de l'information brute qu'il contient, mais aussi à l'interpréter en fonction de critères pouvant être complexes et faisant intervenir les dimensions intellectuelles (par exemple, en fonction de critères philosophiques, documentaires, socio-économiques, etc.), culturelles et même affectives. Les systèmes d'analyse de texte sont des outils d'aide à lecture experte en ce qu'ils ne prétendent pas traiter automatiquement la signification d'un texte compte tenu de la diversité des interprétations dont il peut faire l'objet, mais pluôt de permettre à l'utilisateur de définir ses propres objectifs d'analyse ou de lecture avant l'extraction automatique des données appropriées. C'est aussi la raison pour laquelle les systèmes d'analyse de texte sont avant tout des systèmes interactifs. Voir aussi : analyse de contenu, système d'analyse de texte par ordinateur.
Procédure permettant de ramener un mot portant des marques de flexion (par exemple, la forme conjuguée d'un verbe) à sa forme de référence (dite lemme). Autrement dit, il s'agit, dans le cadre d'une analyse de texte par ordinateur ou d'un traitement automatique de la langue de manière générale, de reconnaître un mot par rapport à sa forme de base, et cela, quelle que soit la forme sous laquelle il apparaît dans un texte. La lemmatisation sert ainsi à la reconnaissance morphologique des mots d'un texte. Voir aussi lemme, base de données lexicales.
Désigne la forme de référence d'un mot, c'est-à-dire la forme du mot sans les marques (dites marques de flexion) qui l'actualisent dans le discours. En d'autres termes, il s'agit de la forme infinitive pour un verbe, masculin singulier pour un adjectif, singulier pour un nom, etc. Généralement, les entrées des dictionnaires (que ce soit les dictionnaires sur papiers ou les dictionnaires électroniques) sont des lemmes. On parle aussi de forme canonique. Voir aussi lemmatisation, base de données lexicale.
Désigne, en ATO, tout élément ou signe constitutif d’un texte (lettres de l'alphabet, mots ou groupes de mots, signes typographiques, chiffres et caractères spéciaux) en ce qu'il apparaît ou occurre dans un texte, et, par ce fait, participe à la signification ou à l'interprétation du texte . Par exemple, les signes suivants sont des lexèmes : a, manger, 1996, ?, (, ). En somme, il s'agit de tout caractère ou suite de caractères (dite chaîne de caractères) reconnu et traitable par le système d’analyse de texte en regard du texte. Le lexème est alors un élément du lexique. On parle aussi de forme lexicale ou d'unité lexicale. Voir aussi lexique, forme fonctionnelle, mot lexical. Linguistique Concept utilisé à place du terme mot, ce dernier ayant des sens ambigus compte tenu de ses différentes définitions en linguistique. Le lexème désigne alors l'unité minimale de signification et est à ce titre considéré comme l'unité de base du lexique. Par exemple, parmi les signes suivants, mangeons, mangez, 1996, ?, seuls mangeons et mangez, ont une unité minimale de signification, soit le lexème mang.
Désigne, en ATO, l’ensemble des éléments ou signes constitutifs d’un texte donné. Le lexique comprend donc les mots ou groupes de mots, signes typographiques, chiffres et caractères spéciaux reconnus dans le texte par le système d’analyse de texte. C'est donc l'ensemble des lexèmes, présentés généralement sous forme de liste, avec leur fréquence d'apparition dans le texte. Voir aussi axe paradigmatique, lexème. Linguistique Terme généralement utilisé pour désigner l'ensemble des mots d'une langue, d'une activité humaine et même d'un locuteur. On parle aussi de vocabulaire.
Voir vocabulaire contrôlé.
Discipline traitant par des moyens informatiques, des descriptions systématiques (dites descriptions formelles) relevant des théories linguistiques sur le fonctionnement du langage parlé des humains (on parle aussi de langage naturel). De fait, la linguistique informatique s'intéresse, d'une part, aux approches théoriques rendant essentiellement compte des structures des phrases en ce qu'elles sont des objets complexes, par exemple, au niveau de leurs interprétations sémantiques et, d'autre part, à la traduction de ces théories dans un langage artificiel permettant de les mettre en oeuvre informatiquement (on parle de formalisme linguistique). Le but est de traiter automatiquement divers aspects de la langue parlée (par exemple, les structures d'agencement des catégories grammaticales dans une phrase ou la mise en évidence des phénomènes syntaxiques dans une phrase). On parle aussi d'informatique linguistique. Voir aussi génie linguistique, intelligence artificielle.
Le concept de lisibilité d'un texte renvoie à la plus ou moins grande difficulté de lecture d'un texte en fonction, entre autres, du type de vocabulaire utilisé (par exemple, vocabulaire connu ou inconnu) et de la longueur des phrases du texte. En d'autres termes, le concept de lisibilité ne concerne ni le sens du texte ni sa structure argumentaire, mais seulement les indices de surface du texte. Un des indices classiques de la lisibilité est l'indice de Gunning. Voir aussi indice de lisibilité.
© Service ATO (UQAM) et EBSI (Université de Montréal) |