Michel Mathieu-Colas | Université Sorbonne Paris Nord / Sorbonne Paris Nord University (original) (raw)
Papers by Michel Mathieu-Colas
Les Cahiers de lexicologie, revue internationale de lexicologie et de lexicographie, s'intére... more Les Cahiers de lexicologie, revue internationale de lexicologie et de lexicographie, s'intéressent au lexique dans ses relations avec les autres composantes de la langue (syntaxe, sémantique, morphologie, phonologie, discours...). Tant du point de vue théorique que de ses applications, ils sont ouverts au traitement informatique de la langue, dans ses divers aspects. La revue accepte les contributions rédigées dans les langues suivantes: français, anglais, allemand, espagnol. Elle souhaite constituer un lieu de débats entre tous les chercheurs concernés par les études lexicales.
Rapport technique du LDI-Université Paris 13, Villetaneuse, 295 pages
HAL (Le Centre pour la Communication Scientifique Directe), Dec 1, 2010
This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the... more This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the geographical and/or historical frame and gives information about his or her nature and functions. Special attention has been given to noting the different spellings. Although the first source of information was a set of specialized books (most of them French), the Internet has been widely used, after carefully selecting and checking the data.Le dictionnaire présenté offre une large couverture (plus de 8 000 entrées et plus de 10 000 variantes). Il indique, pour chaque divinité, le domaine géographique et/ou historique, et donne des indications sur sa nature et ses fonctions. Une attention particulière a été accordée à la notation des différentes graphies. Bien que la source première ait été constituée par un corpus d'ouvrages spécialisés (français pour la plupart), le Web a été largement pris en compte, après un filtrage rigoureux des données
De la theorie du recit a la narratologie. Tantot le recit se caracterise par son mode (Genette), ... more De la theorie du recit a la narratologie. Tantot le recit se caracterise par son mode (Genette), tantot par son objet (Ricoeur) : l'A. s'interroge sur la legitimite de cette querelle et montre que l'idee meme d'un concept englobant n'a rien de deraisonnable, la seule solution etant d'admettre un sens restreint et un sens large. Tout en etant limitee a l'etude du recit comme telle, la narratologie deborde largement des types de discours autre que le message a dominante verbale. En s'affranchissant de la figuration evenementielle ou en depassant les limites de la discursivite (semiotique) la notion de narrativite finit par perdre son identite et sa consistance
Les travaux du LDI reposent sur une conception unifiée de la linguistique : nous refusons toute s... more Les travaux du LDI reposent sur une conception unifiée de la linguistique : nous refusons toute séparation artificielle entre le lexique, la syntaxe et la sémantique. La grammaire ne saurait se réduire pas à une algèbre indépendante des mots : ceux-ci sont au centre de la langue ; mais en même temps, ils ne constituent des mots que parce qu'ils véhiculent un sens, et ce sens n'est déterminable que dans le cadre des phrases. Ce dernier point, en particulier, s'avère pour nous fondamental. Comment rendre compte des variations de sens d'un verbe usuel comme saisir : Le chien saisit une balle. L'utilisateur saisit un texte. La cuisinière saisit la viande. Le locataire saisit le tribunal. L'huissier saisit les meubles. Saisir une occasion. Se saisir d'une arme. Etre saisi d'étonnement. Je ne saisis pas très bien... sans décrire de manière appropriée les types de sujets et de compléments ? On retrouve ici le principe de contextualité cher aux logiciens, de Frege à Putnam 2. 1.2. La phrase élémentaire Etant admis que toute description doit être resituée dans le cadre de la phrase, nous adoptons comme modèle élémentaire le découpage prédicat/arguments : tout énoncé simple s'articule autour d'un noyau syntaxique et sémantique-le prédicat (verbe, adjectif ou nom)-que viennent compléter un ou plusieurs arguments nominaux. C'est le prédicat qui détermine le nombre de positions constitutives de la phrase : P(x) marcher x marche P(x,y) aimer x aime y P(x,y,z) donner x donne y à z La même chose vaudrait pour les adjectifs ou les noms prédicatifs 3. Entendus en ce sens, les « schémas d'arguments » permettent de rendre compte, pour chaque prédicat 1 Les recherches présentées ici ont fait l'objet d'un groupe de travail, au sein du
Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement ... more Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement du point de vue syntaxique et semantique, mais aussi en termes de domaines. Cette information ouvre la voie a plusieurs applications, telles que l'elimination des ambiguites, la realisation de glossaires ou l'identification du sujet d'un texte. Pour ce faire, il est utile de distinguer deux niveaux de description, le domaine et le sous-domaine. On montrera ici l'interet de cette information pour le traitement automatique des langues, en precisant le lien entre les deux categories et la methode de codage proposee.
La description des noms composes se limite souvent a un petit nombre de classes morphologiques (p... more La description des noms composes se limite souvent a un petit nombre de classes morphologiques (preposition + nom, verbe + nom, nom + nom, nom + adjectif, etc.). Une analyse plus fine permet de mettre evidence, bien au contraire, l'extreme richesse des formes de composition. Dans cette etude, plus de 700 types sont identifies, allant des formes les plus simples (par ex. les onomatopees : "du bla-bla") aux structures les plus complexes ("des pommes de terre en robe de chambre", "une lettre recommandee avec accuse de reception"). Ce niveau de precision est indispensable pour tout traitement approprie de la langue.
Nous voudrions rendre compte ici d'une expérience qui met en jeu, tout à la fois, la notion de « ... more Nous voudrions rendre compte ici d'une expérience qui met en jeu, tout à la fois, la notion de « classe d'objets », telle que nous l'avons élaborée au LLI, et les nouvelles ressources disponibles sur le Web. Nous partirons, à titre d'exemple, de la classe des noms de divinités, que nous avions déjà décrite, il y une dizaine d'années, avec des procédés classiques (dictionnaires, encyclopédies, ouvrages spécialisés pour la constitution de la nomenclature, et sélection de textes pour la description de la syntaxe). Il s'agira de mettre cette description à l'épreuve du Web et de tester, en même temps, ce que le Web peut apporter ou non à ce type d'étude 1. Plus précisément, nous proposons la démarche suivante : − description de la classe ; − constitution d'un corpus extrait du Web ; − élaboration de concordances pour étudier l'environnement des noms de divinités. Il conviendra d'examiner si le Web confirme les analyses antérieures et s'il permet de les affiner ou de les compléter ; − utilisation du contexte pour enrichir la liste des noms. Cette expérience est complémentaire de la précédente puisqu'il s'agit cette fois de déterminer si la description syntaxique, projetée sur le Web, permet d'identifier de nouvelles unités.
Introduction: The quality of a child is also determined by the health status of the child, especi... more Introduction: The quality of a child is also determined by the health status of the child, especially in the toddler period. This period is a golden period for child development, so it is very important to ensure that the child's growth runs optimally, including ensuring that the nutritional status of toddlers is in a good category. The problem of short toddlers illustrates the existence of chronic nutritional problems that can be affected by the condition of the mother during pregnancy, the fetus, infants and toddlers, including diseases suffered during toddlers. This study aimed to analyze the relationship between parenting factors and stunting. Methods: Design of this study was analytic observational with cross sectional approach. The sampling technique used was purposive sampling by taking samples from two areas of stunting loci in Ubud District with a sample size of 92 people. The data collected are primary and secondary data. Data analysis used Chi Square and Fisher's ...
Journal of Health and Medical Sciences, 2020
Excessive anxiety during childbirth can cause changes in bodily functions. The impact is that the... more Excessive anxiety during childbirth can cause changes in bodily functions. The impact is that the labor process takes longer, causing complications to both mother and baby. One of the non-pharmacological ways that can be done so that the labor process is gone naturally is by providing complementary massage therapy and frangipani aromatherapy. This research aims to determine the effect of back massage using frangipani aromatherapy oil in the first stage of labor on the duration of childbirth. The type of this research is Quasi-Experimental Design, posttest control group design. The sample is 80 people consisting of the control group of 40 people and the treatment group of 40 people. The sampling technique used is Consecutive Nonprobability Sampling. The data were recorded in the observation sheet. Also. The data analysis was done through univariate and bivariate "unpaired t-test". The results showed that the average duration of childbirth in the control group was 31.25 minu...
Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes perme... more Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes permettant de decrire, a partir de la liste des lemmes, toutes les formes flechies correspondantes (mise au pluriel et, pour les adjectifs, au feminin). Il prend en compte la diversite des formes (plusieurs centaines de types morphologiques pour les noms composes) et la complexite de certains schemas flexionnels, notamment pour les mots a trait d'union (FRANCS-comtois mais FRANC-comtoises, arriere-GRAND-meres ou arriere-GRANDS-meres). Le systeme propose se veut suffisamment flexible pour pouvoir prendre en charge tous les cas de figure.
Http Www Theses Fr, 1993
Les mots a trait d'union representent une des principales difficultes de l'orthographe fr... more Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou l'interet d'un recensement systematique, presente sous la forme d'un dictionnaire electronique. Chaque entree donne lieu a un codage formel et semantique : description morphotogique (type de composition, categorie grammaticale, flexion) ; particularites orthographiques (notation des variantes) ; informations semantiques (traits, domaines, classes d'objets et registres). Au total, plus de 17000 unites se trouvent ainsi decrites. Le format adopte permet une analyse precise des parametres en presence. La reflexion porte en particulier sur la morphologie, l'orthographe et la typologie (etude des formes de composition : plus de trois cents types repertories). Le dictionnaire est complete par un lecique de 1900 locutions impliquant un trait d'union (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) et par une presentation des principaux modeles productifs regissant les neologismes et les creations libres. Au-dela des particularites liees au trait d'union, l'accent est mis, du point de vue methodologique, sur les modalites de representation de l'information lexicale dans un dictionnaire electronique : le degroupement des entrees permet de prendre en charge, a cote de la description morphologique des unites, leur caracterisation semantique (notamment les domaines et les "classes d'objets"). Ce type d'information s'avere indispensable pour l'utilisation effective du dictionnaire dans des applications informatiques.
Cahiers De Lexicologie Revue Internationale De Lexicologie Et Lexicographie, 2014
Nous avons, il y a quelques années, présenté une étude sur les noms de divinités, considérés comm... more Nous avons, il y a quelques années, présenté une étude sur les noms de divinités, considérés comme une classe sémantique cohérente, et exploré les possibilités offertes par le Web pour l'enrichissement de cette classe 1. L'analyse s'appuyait sur un dictionnaire inédit élaboré à partir d'une sélection d'ouvrages spécialisés. Le dictionnaire s'est depuis notablement enrichi : il comporte d'ores et déjà plus de 5 400 entrées (soit près de 12 000 formes, compte tenu des variantes) et est disponible en ligne 2. A partir du noyau initial issu de sources écrites, nous avons élargi le champ d'exploration en recourant au Web, après un examen minutieux des sites considérés et un recoupement des données (ont été consultés, en particulier, de nombreux livres ou articles de revues scientifiques directement accessibles). Si les procédures d'enrichissement automatique dont nous rendions compte précédemment demeuraient limitées, l'interrogation directe à partir de moteurs de recherche s'est révélée très productive. Cependant, la richesse des données ne diminue en rien les difficultés inhérentes à une telle entreprise. Les noms de divinités sont particulièrement complexes et leur description exige beaucoup de soin, comme l'illustrent les exemples suivants. L'Encyclopédie de la Pléiade nous apprend que le dieu arabe pré-islamique 'Athtar ('Astar en Éthiopie) porte le même nom qu'un dieu ougaritique dont la forme féminine 'Athtart correspond à la divinité phénicienne 'Ashtart, elle-même assimilable à la variante grecque Astarté ou à l'Ishtar mésopotamienne (Caquot 1970 : 349 et 354). Mais selon d'autres sources-et en faisant abstraction de l'esprit rude-Ashtart provient d'Ashtar (ou en est le corrélat féminin), cependant
La variation propre aux langues naturelles peut se manifester a tous les niveaux : phonetique, or... more La variation propre aux langues naturelles peut se manifester a tous les niveaux : phonetique, orthographe, morphologie, syntaxe. Il arrive aussi qu'elle interfere avec la semantique, en cas d'homonymie ou de polysemie (repartition des formes en fonction des emplois). Mais ces phenomenes sont souvent decrits de maniere imprecise et donnent lieu a de nombreuses contradictions. Cette etude plaide pour une approche plus rigoureuse, dans la perspective d'un traitement automatique des langues. L'informatique ne saurait se satisfaire de l'implicite ou de l'approximation. Tout comme l'incertitude en microphysique, le flou propre aux variantes peut et doit faire l'objet d'une representation fine.
Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures ... more Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures paradigmatiques". A partir d'une base de donnees de large couverture (plus de cent mille unites lexicales de toutes categories : noms composes, locutions verbales, etc.), plusieurs tests sont mis en oeuvre, impliquant differents types de commutation : substitution de synonymes (devenir chevre / *devenir bique), d'antonymes (avec une analyse plus detaillee des composes de type Adjectif Nom : un haut fonctionnaire / *un bas fonctionnaire) ou d'elements d'une meme classe semantique (un temps de chien / *un temps de chat). Ce dernier point permet d'affiner et de generaliser l'analyse. Il faut compter aussi avec les cas de defigement, dont on trouve de nombreux exemples sur le Web (journee portes fermees) et la possibilite de double interpretation (les deux sens de table ronde). Si les irregularites distributionnelles ne sont pas le seul element de l'idiomatic...
Les Cahiers de lexicologie, revue internationale de lexicologie et de lexicographie, s'intére... more Les Cahiers de lexicologie, revue internationale de lexicologie et de lexicographie, s'intéressent au lexique dans ses relations avec les autres composantes de la langue (syntaxe, sémantique, morphologie, phonologie, discours...). Tant du point de vue théorique que de ses applications, ils sont ouverts au traitement informatique de la langue, dans ses divers aspects. La revue accepte les contributions rédigées dans les langues suivantes: français, anglais, allemand, espagnol. Elle souhaite constituer un lieu de débats entre tous les chercheurs concernés par les études lexicales.
Rapport technique du LDI-Université Paris 13, Villetaneuse, 295 pages
HAL (Le Centre pour la Communication Scientifique Directe), Dec 1, 2010
This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the... more This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the geographical and/or historical frame and gives information about his or her nature and functions. Special attention has been given to noting the different spellings. Although the first source of information was a set of specialized books (most of them French), the Internet has been widely used, after carefully selecting and checking the data.Le dictionnaire présenté offre une large couverture (plus de 8 000 entrées et plus de 10 000 variantes). Il indique, pour chaque divinité, le domaine géographique et/ou historique, et donne des indications sur sa nature et ses fonctions. Une attention particulière a été accordée à la notation des différentes graphies. Bien que la source première ait été constituée par un corpus d'ouvrages spécialisés (français pour la plupart), le Web a été largement pris en compte, après un filtrage rigoureux des données
De la theorie du recit a la narratologie. Tantot le recit se caracterise par son mode (Genette), ... more De la theorie du recit a la narratologie. Tantot le recit se caracterise par son mode (Genette), tantot par son objet (Ricoeur) : l'A. s'interroge sur la legitimite de cette querelle et montre que l'idee meme d'un concept englobant n'a rien de deraisonnable, la seule solution etant d'admettre un sens restreint et un sens large. Tout en etant limitee a l'etude du recit comme telle, la narratologie deborde largement des types de discours autre que le message a dominante verbale. En s'affranchissant de la figuration evenementielle ou en depassant les limites de la discursivite (semiotique) la notion de narrativite finit par perdre son identite et sa consistance
Les travaux du LDI reposent sur une conception unifiée de la linguistique : nous refusons toute s... more Les travaux du LDI reposent sur une conception unifiée de la linguistique : nous refusons toute séparation artificielle entre le lexique, la syntaxe et la sémantique. La grammaire ne saurait se réduire pas à une algèbre indépendante des mots : ceux-ci sont au centre de la langue ; mais en même temps, ils ne constituent des mots que parce qu'ils véhiculent un sens, et ce sens n'est déterminable que dans le cadre des phrases. Ce dernier point, en particulier, s'avère pour nous fondamental. Comment rendre compte des variations de sens d'un verbe usuel comme saisir : Le chien saisit une balle. L'utilisateur saisit un texte. La cuisinière saisit la viande. Le locataire saisit le tribunal. L'huissier saisit les meubles. Saisir une occasion. Se saisir d'une arme. Etre saisi d'étonnement. Je ne saisis pas très bien... sans décrire de manière appropriée les types de sujets et de compléments ? On retrouve ici le principe de contextualité cher aux logiciens, de Frege à Putnam 2. 1.2. La phrase élémentaire Etant admis que toute description doit être resituée dans le cadre de la phrase, nous adoptons comme modèle élémentaire le découpage prédicat/arguments : tout énoncé simple s'articule autour d'un noyau syntaxique et sémantique-le prédicat (verbe, adjectif ou nom)-que viennent compléter un ou plusieurs arguments nominaux. C'est le prédicat qui détermine le nombre de positions constitutives de la phrase : P(x) marcher x marche P(x,y) aimer x aime y P(x,y,z) donner x donne y à z La même chose vaudrait pour les adjectifs ou les noms prédicatifs 3. Entendus en ce sens, les « schémas d'arguments » permettent de rendre compte, pour chaque prédicat 1 Les recherches présentées ici ont fait l'objet d'un groupe de travail, au sein du
Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement ... more Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement du point de vue syntaxique et semantique, mais aussi en termes de domaines. Cette information ouvre la voie a plusieurs applications, telles que l'elimination des ambiguites, la realisation de glossaires ou l'identification du sujet d'un texte. Pour ce faire, il est utile de distinguer deux niveaux de description, le domaine et le sous-domaine. On montrera ici l'interet de cette information pour le traitement automatique des langues, en precisant le lien entre les deux categories et la methode de codage proposee.
La description des noms composes se limite souvent a un petit nombre de classes morphologiques (p... more La description des noms composes se limite souvent a un petit nombre de classes morphologiques (preposition + nom, verbe + nom, nom + nom, nom + adjectif, etc.). Une analyse plus fine permet de mettre evidence, bien au contraire, l'extreme richesse des formes de composition. Dans cette etude, plus de 700 types sont identifies, allant des formes les plus simples (par ex. les onomatopees : "du bla-bla") aux structures les plus complexes ("des pommes de terre en robe de chambre", "une lettre recommandee avec accuse de reception"). Ce niveau de precision est indispensable pour tout traitement approprie de la langue.
Nous voudrions rendre compte ici d'une expérience qui met en jeu, tout à la fois, la notion de « ... more Nous voudrions rendre compte ici d'une expérience qui met en jeu, tout à la fois, la notion de « classe d'objets », telle que nous l'avons élaborée au LLI, et les nouvelles ressources disponibles sur le Web. Nous partirons, à titre d'exemple, de la classe des noms de divinités, que nous avions déjà décrite, il y une dizaine d'années, avec des procédés classiques (dictionnaires, encyclopédies, ouvrages spécialisés pour la constitution de la nomenclature, et sélection de textes pour la description de la syntaxe). Il s'agira de mettre cette description à l'épreuve du Web et de tester, en même temps, ce que le Web peut apporter ou non à ce type d'étude 1. Plus précisément, nous proposons la démarche suivante : − description de la classe ; − constitution d'un corpus extrait du Web ; − élaboration de concordances pour étudier l'environnement des noms de divinités. Il conviendra d'examiner si le Web confirme les analyses antérieures et s'il permet de les affiner ou de les compléter ; − utilisation du contexte pour enrichir la liste des noms. Cette expérience est complémentaire de la précédente puisqu'il s'agit cette fois de déterminer si la description syntaxique, projetée sur le Web, permet d'identifier de nouvelles unités.
Introduction: The quality of a child is also determined by the health status of the child, especi... more Introduction: The quality of a child is also determined by the health status of the child, especially in the toddler period. This period is a golden period for child development, so it is very important to ensure that the child's growth runs optimally, including ensuring that the nutritional status of toddlers is in a good category. The problem of short toddlers illustrates the existence of chronic nutritional problems that can be affected by the condition of the mother during pregnancy, the fetus, infants and toddlers, including diseases suffered during toddlers. This study aimed to analyze the relationship between parenting factors and stunting. Methods: Design of this study was analytic observational with cross sectional approach. The sampling technique used was purposive sampling by taking samples from two areas of stunting loci in Ubud District with a sample size of 92 people. The data collected are primary and secondary data. Data analysis used Chi Square and Fisher's ...
Journal of Health and Medical Sciences, 2020
Excessive anxiety during childbirth can cause changes in bodily functions. The impact is that the... more Excessive anxiety during childbirth can cause changes in bodily functions. The impact is that the labor process takes longer, causing complications to both mother and baby. One of the non-pharmacological ways that can be done so that the labor process is gone naturally is by providing complementary massage therapy and frangipani aromatherapy. This research aims to determine the effect of back massage using frangipani aromatherapy oil in the first stage of labor on the duration of childbirth. The type of this research is Quasi-Experimental Design, posttest control group design. The sample is 80 people consisting of the control group of 40 people and the treatment group of 40 people. The sampling technique used is Consecutive Nonprobability Sampling. The data were recorded in the observation sheet. Also. The data analysis was done through univariate and bivariate "unpaired t-test". The results showed that the average duration of childbirth in the control group was 31.25 minu...
Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes perme... more Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes permettant de decrire, a partir de la liste des lemmes, toutes les formes flechies correspondantes (mise au pluriel et, pour les adjectifs, au feminin). Il prend en compte la diversite des formes (plusieurs centaines de types morphologiques pour les noms composes) et la complexite de certains schemas flexionnels, notamment pour les mots a trait d'union (FRANCS-comtois mais FRANC-comtoises, arriere-GRAND-meres ou arriere-GRANDS-meres). Le systeme propose se veut suffisamment flexible pour pouvoir prendre en charge tous les cas de figure.
Http Www Theses Fr, 1993
Les mots a trait d'union representent une des principales difficultes de l'orthographe fr... more Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou l'interet d'un recensement systematique, presente sous la forme d'un dictionnaire electronique. Chaque entree donne lieu a un codage formel et semantique : description morphotogique (type de composition, categorie grammaticale, flexion) ; particularites orthographiques (notation des variantes) ; informations semantiques (traits, domaines, classes d'objets et registres). Au total, plus de 17000 unites se trouvent ainsi decrites. Le format adopte permet une analyse precise des parametres en presence. La reflexion porte en particulier sur la morphologie, l'orthographe et la typologie (etude des formes de composition : plus de trois cents types repertories). Le dictionnaire est complete par un lecique de 1900 locutions impliquant un trait d'union (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) et par une presentation des principaux modeles productifs regissant les neologismes et les creations libres. Au-dela des particularites liees au trait d'union, l'accent est mis, du point de vue methodologique, sur les modalites de representation de l'information lexicale dans un dictionnaire electronique : le degroupement des entrees permet de prendre en charge, a cote de la description morphologique des unites, leur caracterisation semantique (notamment les domaines et les "classes d'objets"). Ce type d'information s'avere indispensable pour l'utilisation effective du dictionnaire dans des applications informatiques.
Cahiers De Lexicologie Revue Internationale De Lexicologie Et Lexicographie, 2014
Nous avons, il y a quelques années, présenté une étude sur les noms de divinités, considérés comm... more Nous avons, il y a quelques années, présenté une étude sur les noms de divinités, considérés comme une classe sémantique cohérente, et exploré les possibilités offertes par le Web pour l'enrichissement de cette classe 1. L'analyse s'appuyait sur un dictionnaire inédit élaboré à partir d'une sélection d'ouvrages spécialisés. Le dictionnaire s'est depuis notablement enrichi : il comporte d'ores et déjà plus de 5 400 entrées (soit près de 12 000 formes, compte tenu des variantes) et est disponible en ligne 2. A partir du noyau initial issu de sources écrites, nous avons élargi le champ d'exploration en recourant au Web, après un examen minutieux des sites considérés et un recoupement des données (ont été consultés, en particulier, de nombreux livres ou articles de revues scientifiques directement accessibles). Si les procédures d'enrichissement automatique dont nous rendions compte précédemment demeuraient limitées, l'interrogation directe à partir de moteurs de recherche s'est révélée très productive. Cependant, la richesse des données ne diminue en rien les difficultés inhérentes à une telle entreprise. Les noms de divinités sont particulièrement complexes et leur description exige beaucoup de soin, comme l'illustrent les exemples suivants. L'Encyclopédie de la Pléiade nous apprend que le dieu arabe pré-islamique 'Athtar ('Astar en Éthiopie) porte le même nom qu'un dieu ougaritique dont la forme féminine 'Athtart correspond à la divinité phénicienne 'Ashtart, elle-même assimilable à la variante grecque Astarté ou à l'Ishtar mésopotamienne (Caquot 1970 : 349 et 354). Mais selon d'autres sources-et en faisant abstraction de l'esprit rude-Ashtart provient d'Ashtar (ou en est le corrélat féminin), cependant
La variation propre aux langues naturelles peut se manifester a tous les niveaux : phonetique, or... more La variation propre aux langues naturelles peut se manifester a tous les niveaux : phonetique, orthographe, morphologie, syntaxe. Il arrive aussi qu'elle interfere avec la semantique, en cas d'homonymie ou de polysemie (repartition des formes en fonction des emplois). Mais ces phenomenes sont souvent decrits de maniere imprecise et donnent lieu a de nombreuses contradictions. Cette etude plaide pour une approche plus rigoureuse, dans la perspective d'un traitement automatique des langues. L'informatique ne saurait se satisfaire de l'implicite ou de l'approximation. Tout comme l'incertitude en microphysique, le flou propre aux variantes peut et doit faire l'objet d'une representation fine.
Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures ... more Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures paradigmatiques". A partir d'une base de donnees de large couverture (plus de cent mille unites lexicales de toutes categories : noms composes, locutions verbales, etc.), plusieurs tests sont mis en oeuvre, impliquant differents types de commutation : substitution de synonymes (devenir chevre / *devenir bique), d'antonymes (avec une analyse plus detaillee des composes de type Adjectif Nom : un haut fonctionnaire / *un bas fonctionnaire) ou d'elements d'une meme classe semantique (un temps de chien / *un temps de chat). Ce dernier point permet d'affiner et de generaliser l'analyse. Il faut compter aussi avec les cas de defigement, dont on trouve de nombreux exemples sur le Web (journee portes fermees) et la possibilite de double interpretation (les deux sens de table ronde). Si les irregularites distributionnelles ne sont pas le seul element de l'idiomatic...