Liens vers les séminaires d’autres laboratoires d’Aix-Marseille Université
Laboratoire Parole et Langage (LPL)
Laboratoire de Psychologie Cognitive (LPC)
Centre de Recherche en Psychologie de la Connaissance, du Langage et de l’Émotion (PsyClé)
Institut de Neurosciences Cognitives de la Méditerranée (INCM)
( ... )
Mardi 25 juin 2013 (13h)
Titre à préciser
Nathalie Gasiglia (SLT, Univ. Lille 3)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Résumé à préciser
Mardi 11 juin 2013 (13h)
Titre à préciser
Line Jakubiec-Jamet (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Résumé à préciser
Mardi 4 juin 2013 (13h)
Un système de traduction de verbes entre arabe standard et arabe dialectal par analyse morphologique profonde
Ahmed Hamdi (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Le développement d’outils de TAL pour les dialectes de l’arabe se heurte à l’absence de ressources pour ces derniers. Comme conséquence d’une situation de diglossie, il existe une variante de l’arabe, l’arabe moderne standard, pour laquelle de nombreuses ressources ont été développées et ont permis de construire des outils de traitement automatique de la langue. Etant donné la proximité des dialectes de l’arabe, le tunisien dans notre cas, avec l’arabe moderne standard, une voie consiste à réaliser une traduction surfacique du dialecte vers l’arabe moderne standard afin de pouvoir utiliser les outils existants pour l’arabe standard. Nous décrivons dans cet article une architecture pour une telle traduction et nous l’évaluons sur les verbes.
Mardi 28 mai 2013 (13h)
La limite entre l’organisation structurale de la langue et des régularités de performance à la lumière de la distinction entre construction et énoncé
José Deulofeu (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Résumé à préciser
Mardi 21 mai 2013 (13h)
Système PERCOLI, participation au défi REPERE 2013
Meriem Bendris ((TALEP, LIF))
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Le projet REPERE vise à encourager la recherche en reconnaissance des personnes dans les contenus télé. Ce projet est à l’intersection de plusieurs domaines de recherche : reconnaissance de la parole et du locuteur, détection et reconnaissance du visage, détection d’entités nommées, etc. Le LIF participe au sein du consortium PERCOL au programme d’évaluation du projet qui a lieu chaque année. Dans cet exposé, nous présenterons le système complet soumis par PERCOL ainsi que les résultats obtenus dans chacune des tâches. Nous montrerons qu’il est possible d’exploiter la complémentarité des modalités audio, image et texte afin d’améliorer l’identification des personnes dans chaque modalité.
Mardi 14 mai 2013 (13h)
Détection et correction d’erreurs de transcription pour la traduction simultanée automatique
Frédéric Béchet et Benoit Favre (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Même si des erreurs de transcription automatique sur les mots outils n’ont pas toujours un impact important sur les applications, les erreurs majeures comme celles provoquées par les mots hors vocabulaire ont sensiblement plus d’impact, notamment sur la traduction simultanée automatique. Nous montrerons dans cet exposé comment il est possible de détecter automatiquement certaines erreurs de transcription en tirant parti de mesures de confiance acoustiques, linguistiques, et syntaxiques. Dans le cadre d’un système de dialogue, nous montrerons aussi comment corriger ces erreurs grâce des interactions orales supplémentaires similaires à celles que l’on aurait avec un interprète lors d’une traduction simultanée. Ces travaux sont réalisés dans le cadre du projet BOLT dont nous décrirons les grandes lignes.
Mardi 7 mai 2013 (13h)
Résolution automatique de puzzles linguistiques
Paul Sabatier (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
On donne à la machine une liste de mots (les pièces du puzzle) pour lesquels il existe au moins une phrase bien formée combinant tous et seulement ces mots. A la machine de produire la ou les solutions. Dans une première partie, nous montrerons comment le logiciel ILLICO s’y prend pour résoudre ce type de contraintes (parmi d’autres) sur les expressions à produire ou à analyser. Dans une seconde partie, on explorera d’autres approches pour résoudre ce type de problème.
Mardi 9 avril 2013 (13h)
Asymétrie des faces (macro)syntaxique et prosodique de l’énoncé
Philippe Martin (Univ. de Toronto)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
L’analyse de corpus de parole spontanée a ébranlé quelques idées parfois bien ancrées sur les caractéristiques syntaxiques du français. La macrosyntaxe du GARS par exemple a montré qu’un énoncé se divisait généralement en macrosegments successifs définis en prénoyaux, noyau et postnoyaux, le noyau étant le macrosegment pouvant à lui seul apparaître comme énoncé bien formé complet. Je montrerai par quelques exemples de non congruence macrosyntaxique que la structure prosodique est déterminante dans les processus d’encodage et de décodage des différentes structures organisant les unités de l’énoncé, en évoquant également quelques arguments portant sur la nature dynamique opérant sur l’axe temporel de l’encodage et du décodage de l’organisation prosodique. Quelques cas où l’intonation de l’énoncé transforme des relations de parataxe du texte en relations de rection, et inversement des relations de rection des macrosegments du texte sont perçues comme parataxe grâce à l’intonation seront également présentés.
Mardi 19 mars 2013 (13h)
Connecting words : background, methods and applications
Gemma Bel Enguix (Research Group on Mathematical Linguistics, Univ. Rovira i Virgili, Tarragona)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
We will have an overview of several approaches to natural language from network theory. The talk will be focused in the different ways of connecting words : by proximity, phonological similarity, semantic associations…, the properties of the graphs that are obtained, and the possible applications. Complex networks, natural language and cognitive science can take advantage of this line of research.
Mardi 12 mars 2013 (13h)
Automatically Constructing a WordNet by Extracting Lexico-Semantic Knowledge from Corpora
Reinhard Rapp (Univ. Mainz)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
The presentation gives an overview on the recently started AutoWordNet project which aims to automatically construct a resource similar to WordNet. The suggested methodology comprises the following main steps : Starting from a large part-of-speech tagged corpus of the respective language, various methods for computing related words, such as syntax-based and based on latent semantic analysis, are evaluated. This is done by comparing their results to a data set comprising the 200,000 human similarity judgments from the Princeton Evocation project, rather than to the inadequate 80 item TOEFL dataset which has been the standard for some time. In a further step, to identify synsets, an algorithm for unsupervised word sense induction is applied, and subsequently each word in the vocabulary is assigned to one or (if ambiguous) several of the synsets. Finally, to find out about the relations between words (e.g. hyponymy, holonymy, and meronymy) an adapted version of Peter Turney’s methodology for computing relational similarities is developed and applied.
Mardi 5 février 2013 (13h)
Un treebank de français parlé - Annotation macrosyntaxique, microsyntaxique et prosodique
Sylvain Kahane (MoDyCo, Univ. Paris Ouest - Nanterre)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Nous présenterons les différentes annotations du corpus Rhapsodie, un corpus de français parlé de 3h (33 000 mots) très richement annoté. Nous discuterons tout particulièrement du découpage en unités maximales et de ses incidences pour l’analyse syntaxique automatique. Nous présenterons la chaîne de traitement et les outils utilisés pour l’annotation de Rhapsodie et nous verrons ce qui peut être utilisé dans le cadre d’un passage à l’échelle.
Lundi 4 février 2013 (13h)
Transformation automatique de phrases
Théo Zimmermann (ENS, Paris)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Quelle que soit la grammaire de référence, comment inférer automatiquement des transformations de phrases à partir d’exemples de couples de phrases
Mardi 29 janvier 2013 (13h)
Morphologie et syntaxe de l’arabe
Ahmed Hamdi (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
La langue arabe est une langue sémitique, elle présente des phénomènes morphologiques et syntaxiques particuliers. Nous aborderons ces particularités dans cet exposé. Nous expliquerons quelques approches utilisées pour le traitement de la morphologie arabe, en présentant quelques systèmes d’analyse et de génération morphologique. A la fin de l’exposé, nous donnerons un aperçu de nos travaux de thèse qui s’inscrivent dans le cadre du traitement automatique de l’arabe standard et l’arabe tunisien.
Mardi 22 janvier 2013 (14h)
Inférence faiblement supervisée pour l’analyse syntaxique et en rôles sémantiques
Christophe Cerisara (LORIA, Nancy)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Cet exposé présente une nouvelle approche d’apprentissage faiblement supervisé, qui s’appuie sur un corpus textuel annoté uniquement en POS-tag. Un modèle bayésien (discriminant dans ce travail) infère des structures (syntaxiques et/ou en rôles sémantiques) sur ce corpus, un peu à la manière du modèle DMV (Klein, 2005), mais en étant fortement guidé et contraint par des connaissances définies a priori sous la forme de règles d’annotations. A la différence d’autres travaux en analyse non-supervisée (Posterior Regularization...), les règles sont au coeur du modèle, qui peut être vu comme un analyseur symbolique hybridé avec un modèle bayésien. L’inférence (Gibbs sampling dans ce travail) choisit les règles à appliquer (les désambiguise) de manière à optimiser le posterior qui encode la sparsité de certains traits syntaxiques : préférences lexicales et cadres de sous-catégorisation. L’évaluation en français et en anglais donne des résultats intéressants, compétitifs avec les autres méthodes non- et semi- supervisées.
Mardi 15 janvier 2013 (13h)
La création d’une carte mentale pour assister la navigation dans le dictionnaires électroniques
Michael Zock (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Tout le monde a déjà rencontré le problème suivant : on cherche un mot (ou le nom d’une personne) que l’on connaît, sans être en mesure d’y accéder à temps. Les travaux des psychologues ont montré que les personnes se trouvant dans cet état cognitif savent énormément de choses concernant le mot recherché (sens, nombre de syllabes, origine, etc.), et que les mots avec lequel ils le confondent lui ressemblent étrangement (lettre ou son initial, catégorie syntaxique, champ sémantique, etc.). Mon objectif (à long terme) est de réaliser un programme tirant bénéfice de cet état de faits pour assister un locuteur ou rédacteur à (re)trouver le mot qu’il a sur le bout de la langue. À cette fin, je prévois d’ajouter à un dictionnaire électronique existant un index d’association (collocations rencontrées dans un grand corpus). Autrement dit, je propose de construire un dictionnaire analogue à celui des êtres humains, qui, outre les informations conventionnelles (définition, forme écrite, informations grammaticales) contiendrait des liens (associations), permettant de naviguer entre les idées (concepts) et leurs expressions (mots). Un tel dictionnaire permettrait donc l’accès à l’information recherchée soit par la forme (lexicale : analyse), soit par le sens (concepts : production), soit par les deux.
Mardi 8 janvier 2013 (13h)
Alignment models for statistical machine translation
Nadi Tomeh (Postdoc, Columbia University)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Bitext alignment is the task of aligning a text in a source language and its translation in the target language. Aligning amounts to finding the translational correspondences between textual units at different levels of granularity. Many practical natural language processing applications rely on bitext alignments to access the rich linguistic knowledge present in a bitext. While the most predominant application for bitexts is statistical machine translation (SMT), they are also used in multilingual (and monolingual) lexicography, word sense disambiguation, terminology extraction, computer-aided language learning andtranslation studies, to name a few. Bitext alignment is an arduous task because meaning is not expressed seemingly across languages. It varies along linguistic properties and cultural backgrounds of different languages, and also depends on the translation strategy that have been used to produce the bitext. In SMT, obtaining the alignment is the first step to construct a phrase table which is the main source of knowledge in the translation system. In this seminar, I will present some approaches to perform the alignment task on the level of words and phrases ; and how to use them to build and filter phrase tables.
Mardi 11 décembre 2012 (13h)
Description linguistique sur corpus : les contraintes lexicales dans les constructions présentant des dépendances à distance en français contemporain
Lolita Bérard (ATILF, Nancy)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
La thèse s’inscrit dans la perspective de la linguistique sur corpus et porte sur des structures qui ont été analysées à partir d’exemples construits en termes de « contrôle à distance » (Chomsky). En s’appuyant sur des corpus néerlandais, Arie Verhagen a remarqué une grande régularité dans le lexique des « verbes ponts », c’est-à-dire des verbes qui apparaissent dans ces structures : le livre que [tu veux] qu’il lise, et conclut que leur fonction est énonciative : ils permettent au locuteur de donner son point de vue ou de demander l’opinion de l’interlocuteur. En français, des contraintes lexicales semblent également exister mais on note l’apparition de « il faut », qui remet en cause cette hypothèse. D’autre part, des différences d’usage émergent des différents corpus étudiés : textes scientifiques, journalistiques et corpus de français parlé. La structure des contrôles à distance est employée plus fréquemment à l’oral, et avec un lexique verbal plus restreint. Pour mener à bien cette étude, il est question de créer en collaboration avec l’équipe traitement de corpus oraux en français une ressource à partir de corpus existants. Le corpus sera ensuite annoté de manière à permettre la recherche d’expressions régulières sophistiquées. Ainsi, on pourra poursuivre cette étude des dépendances à distance en étudiant des structures plus variées (comparaison, fragments modaux dans les « gappings »...).
Mardi 20 novembre 2012 (13h)
Le projet DECODA
Thierry Bazillon (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Mardi 23 octobre 2012 (13h)
Mesures complémentaires au taux d’erreur mot pour la transcription automatique de la parole
Benoit Favre (TALEP, LIF)]
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Le taux d’erreur mot est la mesure de facto de progression de la qualité des transcriptions automatiques de la parole. Toutefois, la distance à une transcription de référence qu’il mesure ne reflète pas l’utilité d’une transcription automatique à un humain dans la réalisation d’une tâche écologiquement valide. Lors du workshop d’été 2012 organisé à l’université de Johns Hopkins, nous avons étudié des mesures alternatives au taux d’erreur mot afin de mieux représenter l’impact de la transcription automatique sur de telles tâches, et en particulier la tâche d’audit, à l’aide d’enregistrements, des décisions prises lors de réunions. Les résultats montrent que le taux d’erreur mots n’est pas corrélé à la capacité d’un sujet à effectuer la tâche, et qu’il est possible d’en prédire automatiquement le succès à l’aide de diverses mesures de la corruption des transcriptions et de la difficulté, pour le sujet, à retrouver les décisions.
Mardi 16 octobre 2012 (13h)
Presentation of Penn Arabic TreeBank (PATB) : Methodolgy, style and annotation process
Wigdan Mekki (GREYC, Univ. Caen)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Treebanks are widely used in the Natural Language Processing (NLP) community to support the creation and training of parsers and taggers. It is also used in research on machine translation (parallel TreeBanks) or research on joint syntactic and semantic role labeling. Treebanks have also been used as the basis for downstream annotation projects, such as PropBanks for example the Penn Discourse Treebank. In this talk, I will present The Penn Arabic Treebank (PATB) : it’s methodology, style and annotation guidelines. Arabic is a language with very rich morphology, the complexity of which challenges the design of an annotation system, I will present different issues that are specific to Arabic and show that PATB methodology relied on traditional Arabic grammar, previous grammatical theories of Modern Standard Arabic and modern approaches, and especially the Penn Treebank approach to syntactic annotation. Arabic Treebank has significantly been revised and enhanced with both human and automatic correction processus, I will also present and discuss relevant issues to the revision process.
Lundi 16 juillet 2012 (13h)
Construction semi-automatique d’un lexique de polarités pour l’extraction d’opinions
Nuria Gala (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Les ressources lexicales sont indispensables à de nombreuses applications en TAL, cependant, elles sont difficiles à construire (coût, couverture, etc). Dans le but de capitaliser sur une ressource existante (un lexique de familles de mots), nous avons voulu vérifier l’hypothèse suivante : si on connaît la polarité d’un adjectif (positif, neutre, négatif), il est plausible que les mots de sa famille morphologique portent la même polarité. Dans cet exposé, nous présenterons le lexique de 7.483 mots obtenu par propagation automatique de polarités. Nous montrerons aussi les résultats issus d’une évaluation intrinsèque des données et de l’intégration dans un système d’extraction automatique d’opinions sur corpus. (Le lexique est accessible et téléchargeable sur http://polarimots.lif.univ-mrs.fr/ ).
Lundi 25 juin 2012 (13h)
Traitement automatique du tunisien
Ahmed Hamdi (TALEP, LIF) & Rahma Boujelbane
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Lundi 11 juin 2012 (13h)
Reconnaissance automatique de relations causales
Cécile Grivaz (Ecole Polytechnique Fédérale de Lausanne, Suisse)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Les relations de discours en général et les relations causales en particulier sont nécessaires pour la compréhension d’un texte et leur reconnaissance automatique serait utile pour de nombreux systèmes de traitement de la langue dont les systèmes de question-réponse. La reconnaissance automatique de ces relations est rendue difficile par la grande proportion de relations non marquées. Dans cette présentation, je montrerai que l’état de l’art actuel en traitement automatique du langage ne permet pas de détecter les relations causales non marquées suffisamment précisément pour qu’un tel système soit utile en pratique. En particulier, je montrerai que les paires de verbes — représentation simple des évènements et marqueur causal intuitif — ne sont pas de bons prédicteurs de la causalité et que les évènements qui prennent part à des relations causales devraient être représentés de façon bien plus complexe.
Vendredi 1er juin 2012 (13h)
La documentation du Nisvai : une langue encore non décrite
Jocelyn Aznar (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Comment développer des ressources alors qu’on ne possède aucune information sur une langue ? La présentation porte sur la création des premières ressources d’une langue qui n’a pas été décrite précédemment. Nous parlerons de trois différents points de vue sur la création de ressources pour une langue : la documentation des langues en danger, le traitement automatique des langues et la typologie linguistique. Ces trois points de vue, loin de rentrer en conflit, apportent des problématiques qui permettent d’affiner la qualité les ressources linguistiques. Après avoir décrit l’espace où se situe notre travail, nous présenterons les trois domaines et leur problématique. Nous verrons ensuite notre travail sur le terrain pour terminer sur les premières ressources que nous avons produit.
Lundi 21 mai 2012 (13h)
Annotation syntactico-sémantique du corpus DECODA
Thierry Bazillon (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Lundi 14 mai 2012 (13h)
Extraction de relations lexicales à partir de définitions lexicographiques adjectivales
Selja Seppälä (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Vendredi 4 mai 2012 (11h)
Concept and prototypical implementation of language-aware editing functions based on interactive NLP resources
Cerstin Mahlow (Univ. Bâle, Suisse)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Composing, revising, and editing are highly demanding tasks. Even in polished and published texts from professional writers we can observe errors and mistakes. For many errors, we can infer how they came to be : Word processors offer character-based functions only. These functions do not take into account elements and structures of the language the author is using. Authors are thus forced to translate their high-level goals into long and complex sequences of low-level character-based functions. Both the translation process and the execution of such sequences of functions are error-prone. In text editors for programmers we find so-called language-aware editing functions. These functions operate on the elements and structures of a programming or mark-up language and help to avoid errors, as language-aware functions make revising and editing less tedious and error-prone. In this talk, I argue that the concept of language awareness can be transferred to writing natural language texts using word processors. I propose functions that take the structures of natural languages into consideration. I distinguish information functions, movement functions, and operations to support revising and editing. The design is based on current findings from writing research. Language-aware editing functions rely on the recognition and categorization of relevant elements and structures with respect to a certain language. I use methods and resources from computational linguistics for morphological analysis and generation, and for part-of-speech tagging. The prototypical implementation of language-aware functions for revising and editing of German texts serves as a proof of concept. The implementation illustrates opportunities and limits of current NLP resources for German ; when evaluating respective resources we face a rather disappointing situation : NLP resources for German are less suitable than assumed and less applicable for real-world applications than usually claimed in the literature.
Lundi 16 avril 2012 (13h)
Vers des agents conversationnels dotés d’une intelligence socio-émotionnelle
Magalie Ochs (LTCI, Télécom ParisTech)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Les interactions humain-machine sont aujourd’hui intrinsèquement sociales et émotionnelles, impliquant souvent une expérience affective dans un contexte social particulier. Doter une machine d’une intelligence socio-émotionnelle signifie lui donner la capacité de sociabiliser aisément avec l’utilisateur et de gérer ses propres émotions et celles de son interlocuteur. Dans cette présentation, nous nous intéresserons à la place de l’intelligence sociale et émotionnelle dans la conversation humain-machine. Différentes problématiques sous-jacentes à la création d’agents conversationnels dotés d’une telle intelligence seront introduites. Pour déterminer le comportement socio-émotionnel d’agents virtuels durant une conversation avec un utilisateur, des modèles computationnels, construits principalement à partir d’une approche centrée utilisateur, seront présentés.
Lundi 19 mars 2012 (13h)
’Sciences’ de la connaissance, de l’ intelligence et de la communication : objectifs et stratégies et quelques réflexions concernant leur adéquation
Michael Zock (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Lundi 12 mars 2012 (13h)
PictiTab, un logiciel d’aide à la communication sur tablette pour enfants autistes
Laure Brieussel & Paul Sabatier (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Vendredi 24 février 2012 (10h30)
Contraintes sur la sélection des informations dans les définitions terminographiques
Selja Seppälä (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 29 septembre 2011 (11h)
Modèles génératifs à sémantique latente pour la recherche d’information
Emmanuel Eckard (École Polytechnique Fédérale de Lausanne)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 12 mai 2011 (14h)
Analyse et génération transformationnelle avec NooJ
Max Silberztein (LASELDI, Univ. de Franche-Comté, Besançon)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Nous présenterons les fonctionnalités de NooJ qui permettent de produire automatiquement des paraphrases, et aussi de les analyser.
Jeudi 14 avril 2011 (14h)
Ressources lexicales, ressources morphologiques : panoramique, apports du TAL
Nuria Gala (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Les ressources lexicales (qu’elles soient mono- ou multilingues) existent depuis la naissance de l’écriture. Cependant, leur contenu, la structuration des entrées, l’accès aux informations, etc. ont fortement évolué en fonction des besoins et des usages de chaque époque et, également, en fonction des principales révolutions technologiques. Dans les derniers cinquante ans, la création et l’utilisation de ressources lexicales ont été étroitement liées au développement du TAL. Dans ce séminaire, après une rétrospective consacrée à quelques ressources de façon générale, je présenterai quelques lexiques morphologiques du point de vue de leur contenu et de leur utilisation en TAL. Je montrerai, enfin, quelques résultats préliminaires en vue de la constitution d’une ressource morphologique pour les langues romanes.
Jeudi 7 avril 2011 (14h)
Contribution à la traduction automatique du français vers la Langue des Signes Française (LSF) avec un signeur virtuel
Loïc Kervajan (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Mon travail se situe dans le cadre de la traduction automatique du français vers la langue des signes française (LSF) avec synthèse de gestes au moyen d’un signeur virtuel. Je présenterai tout d’abord quelques éléments descriptifs et théoriques de la LSF. Je montrerai ensuite l’approche de la formalisation de la partie dite standard du lexique de la LSF et de quelques phénomènes morphosyntaxiques permettant d’introduire la LSF dans le système de traduction automatique à pivot interlingue « TiLT » développé à France Telecom R&D. Je finirai par présenter quelques résultats obtenus et le prototype d’une application découlant de ce travail de thèse.
Jeudi 31 mars 2011 (14h)
Implication Textuelle et Réécriture
Paul Bédaride (Univ. de Stuttgart)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Nous présenterons plusieurs contributions sur le thème de la détection d’implications textuelles (DIT). La DIT est la capacité humaine, étant donné deux textes, à pouvoir dire si le sens du second texte peut être déduit à partir de celui du premier. Une des contributions apportée au domaine est un système de DIT hybride prenant les analyses d’un analyseur syntaxique stochastique existant afin de les étiqueter avec des rôles sémantiques, puis transformant les structures obtenues en formules logiques grâce à des règles de réécriture pour tester finalement l’implication à l’aide d’outils de preuve. L’autre contribution est la génération de suites de tests finement annotés avec une distribution uniforme des phénomènes couplée avec une nouvelle méthode d’évaluation des systèmes utilisant les techniques de fouille d’erreurs développées par la communauté de l’analyse syntaxique permettant une meilleure identification des limites des systèmes.
Jeudi 24 mars 2011 (14h)
Utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique
Elsa Tolone (Institut Gaspard-Monge, Univ. Marne-la-Vallée)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Les tables du Lexique-Grammaire (Gross 1975) constituent un lexique syntaxique très riche pour le français. Les catégories grammaticales couvertes sont les verbes, les noms prédicatifs, les expressions figées et les adverbes simples et figés. Cette base de données linguistique n’est cependant pas directement exploitable informatiquement car elle est incomplète et manque de cohérence. Notre objectif est d’adapter les tables pour les rendre utilisables dans diverses applications de Traitement Automatique des Langues (TAL), notamment l’analyse syntaxique (Tolone 2009). Pour cela, il faut expliciter les propriétés intervenant dans chacune d’entre elles, qui sont uniquement décrites dans la littérature (Tolone et al. 2010). Ensuite, nous montrons comment, grâce au travail décrit dans (Constant & Tolone 2010) et (Tolone & Sagot 2011), nous avons converti les tables du Lexique-Grammaire en un lexique au format Lefff (Sagot 2010), appelé lexique LGLex, permettant ainsi son intégration dans l’analyseur syntaxique FRMG (Thomasset & de La Clergerie 2005). Nous évaluons les résultats de l’analyseur syntaxique FRMG sur le corpus de référence de la campagne Passage en comparant sa version basée sur le Lefff avec notre version reposant sur les tables du Lexique-Grammaire converties.
Jeudi 10 mars 2011 (14h)
Bernd Bohnet (Univ. de Stuttgart)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Support Vector Machines with Hash Kernels for Very Accurate and Fast Graph-based and Transition-based Dependency Parsing
Graph-based and Transition-based dependency parsing are the major approaches in dependency parsing. In this talk, we will review both approaches and show how a support vector machine equipped with a Hash Kernel can substantially improve the accuracy and parsing speed. A Hash Kernel is useful for any learning task where huge numbers of features should be considered. Parsing is an example where negative features are useful but still filtered out in the standard approach because of their immense number. We conclude the talk with an overview of other techniques to improve (dependency) parsing such as clustering and parser stacking.
Jeudi 27 janvier 2011 (14h)
From Word Associations to Word Translations
Reinhard Rapp (Univ. de Tarragone, Espagne)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
It is shown that the behaviour of test persons as observed in association experiments can be simulated statistically on the basis of the common occurrences of words in large text corpora, thereby applying the law of association by contiguity which is well known from psychological learning theory. Some results are presented for responses upon single words as well as on multiword stimuli. In a second step, the approach is extended towards second language vocabulary acquisition. Hereby it is assumed that in a typical teaching situation a second language learner is exhibited to a mix of languages. If the law of association by contiguity were applicable here, it should be possible to identify word translations by computing the strongest target language associations to each word of the source language. As we did not have transcripts of teaching classes available, our computations are based on the very large Gigaword corpora from the Linguistic Data Consortium and on the Wacky Corpora from the Web-as-a-Corpus Initiative. We present results for language pairs involving English, French, German, Italian and Spanish.
Jeudi 20 janvier 2011 (14h)
Une métrologie robuste des réseaux lexicaux fondée sur la dynamique des balades aléatoires à travers les relations lexicales
Bruno Gaume (CLLE, ERSS, Toulouse)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Je commencerai par présenter les quatre propriétés fondamentales omniprésentes dans les réseaux lexicaux. Je présenterai ensuite la dynamique des trajets d’un marcheur qui se déplace aléatoirement sur les sommets d’un réseau lexical à travers les relations lexicales. Nous verrons que l’étude de ces dynamiques permet de définir des outils de métrologie lexicale. Je présenterai ensuite quatre applications de ces métrologies :
— R2SW : Une modélisation réaliste des RPMH qui permet générer artificiellement à partir de réseaux aléatoires, des réseaux
possédant les mêmes propriétés que les réseaux lexicaux (Gaume B, Mathieu F, Navarro E, 2010) ;
— WISIGOTH : une méthode d’enrichissement endogène des réseaux lexicaux (Sajous F, Navarro E, Gaume B, Prévot L,Chudy Y, 2010) ;
— SLAM : un modèle de Solution Lexicale Automatique de Métaphores analogique
(Desalle, Y , Gaume B, Duvignau K, 2009)[http://erss.irit.fr/demetweb/Metaph...]
— APPROX : Une modélisation de la dynamique d’acquisition du lexique par les jeunes enfants (Gaume B, Duvignau K, Prevot L, Desalle Y, 2008) ; (Desalle Y, Hsieh S-K, Gaume B, and Cheung H, 2010].
Jeudi 25 novembre 2010 (13h30)
Transcription et traitement de la parole spontanée pour sa reconnaissance automatique
Thierry Bazillon (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 18 novembre 2010 (14h)
Les dictionnaires électroniques du français de Jean Dubois et Françoise Dubois-Charlier et l’initiative FondamenTAL (2è partie) (en savoir +)
Paul Sabatier (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 4 novembre 2010 (14h)
Temporal relation learning
Gashem Mirroshandel
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 21 octobre 2010 (13h)
Les dictionnaires électroniques du français de Jean Dubois et Françoise Dubois-Charlier et l’initiative FondamenTAL (1ère partie) (en savoir +)
Paul Sabatier (TALEP, LIF)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 7 octobre 2010 (10h)
Acquisition de ressources lexicales
Lionel Nicolas (I3S, Nice)
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Vendredi 24 septembre 2010 (14h)
Projets de recherche 2010-2011 de la composante Modèles Numériques de l’équipe TALEP du LIF
(Lieu : Campus de Luminy, Bâtiment TPR1, Entrée G, 5ème étage, salle 531)
Jeudi 24 juin 2010 (14h30)
Structures du discours : de la formalisation à l’annotation
Laurent Prévot (LPL, Aix-en-Provence)
Dans ce séminaire je présenterai de manière assez générale mon travail sur la modélisation du discours. Le discours couvre ici aussi bien les cas monologique et dialogique ainsi qu’oral et écrit. L’approche trouve ses fondements dans la sémantique (dynamique) mais dépasse assez rapidement ce cadre strict pour prendre en compte l’interface sémantique/pragmatique au sens large et tenter de se colleter avec certaines des complexités du discours et de l’interaction. Ces difficultés sont généralement écartées dans les approches sémantiques classiques (aspect interactifs, gestion du fond commun,..). Je parlerai également de la question de l’annotation de la structure du discours, en particulier dans une perspective sémantique.
Jeudi 17 juin et Vendredi 18 juin 2010
Journées scientifiques du LIF à Agay
Jeudi 22 avril 2010 (14h30)
LEXVALF : Lexique électronique des valences verbales du français (en savoir +)
Principes et données linguistiques, André Valli (LIF, TALEP)
Structure, consultation et mise à jour du lexique électronique, Laure Brieussel (LIF, TALEP)
Vendredi 26 mars 2010 (12h)
Analyse automatique du discours en utilisant des méthodes d’apprentissage supervisé et semi-supervisé
Stergos Afentanos (IRIT, Toulouse)
L’analyse discursive est très importante en linguistique mais en TAL aussi, pour des tâches comme la génération automatique de textes, la création des résumés, l’extraction d’opinion, la traduction automatique, etc.
Je présenterai brièvement une théorie particulière d’analyse discursive, la "Segmented Discourse Representation Theory" (SDRT, Asher 1993, Asher & Lascarides 2003) fondée sur la logique dynamique. Je présenterai ensuite une approche d’apprentissage supervisé (basée sur un modèle de "maximum entropy") que nous avons utilisée (Afantenos, Denis, Muller, Danlos, 2010) afin de trouver les unités discursives élémentaires (UDEs), en classifiant chaque token comme token ouvrant, token fermant ou rien. Afin d’éviter partialement la "skewdness" dans nos vecteurs d’entraînement nous avons utilisé certaines informations données par la partie chunking de MACAON (Nasr & Volanschi 2005). Je présenterai ensuite une deuxième façon d’apprentissage supervisé pour trouver les UDEs ; il s’agit d’une classification binaire sur les nœuds d’un arbre syntaxique. Je montrerai comment on peut utiliser ces deux approches pour faire du co-training (apprentissage semi-supervisé).
Pour l’extraction des graphes SDRT, je présenterai une analyse (Afantenos & Asher 2010) qui valide empiriquement la contrainte de la frontière droite (Asher 1993) et montrerai comment on peut utiliser cette contrainte pour apprendre les graphes SDRT. Dans cette approche un graphe SDRT est considéré comme une série séquentielle des décisions, cela afin d’éclater un graphe SDRT dans une série de plusieurs graphes et ainsi exponentiellement incrémenter le nombre d’instances qu’on peut utiliser pour l’entraînement d’algorithme d’apprentissage.
Il sera question ensuite de l’extraction des rôles sémantiques au sein d’une phrase. Cette tâche a beaucoup de points en commun avec l’extraction des UDEs. Cela n’est pas par hasard car dans les deux cas on cherche à trouver les morceaux d’un texte qui dénotent une action. La différence est que concernant les rôles sémantiques on cherche aussi les actants de cette action (agent, patient, etc) mais aussi un certain nombre des rôles adjuncts. Je montrerai comment la connaissance acquise pour l’extraction des UDEs peut nous aider pour l’extraction des rôles sémantiques.
Jeudi 25 mars 2010 (13h)
TransSearch : un moteur de recherche de traductions
Julien Bourdaillet (IRO, Université de Montréal)
Bien que les concordanciers bilingues soient des outils très simples, ils restent un des outils les plus utilisés des traducteurs professionnels parmi les outils d’aide à la traduction. Néanmoins, ils ne bénéficient pas encore des avancées récentes en traduction automatique. Nous présenterons l’intégration d’une fonctionnalité d’alignement de mots au concordancier bilingue commercial TransSearch. L’utilisation de méthodes d’alignement statistique de mots permet maintenant de repérer les traductions de requêtes utilisateur dans sa mémoire de traduction. Nous décrirons les algorithmes d’alignement utilisés, les post-traitements linguistiques, et les expériences réalisées.
Jeudi 11 mars 2010 (14h30)
Contraintes et grammaticalité graduelle pour l’analyse syntaxique profonde
Jean-Philippe Prost (LIFO, Nantes)
Les cadres formels pour l’analyse syntaxique basés sur la théorie des modèles, tels que les Grammaires de Propriétés, présentent, entre autres avantages, celui de permettre l’analyse de phrases non-canoniques (au sens où elles ne répondent pas nécessairement à l’ensemble des canons grammaticaux de la langue). En relâchant les propriétés linguistiques non-satisfaites, il est alors possible de fournir une représentation de la structure syntaxique d’une phrase sous la forme d’une structure syntagmatique classique, dite "approchée". Cette structure présente un certain nombre d’avantages à la fois théoriques et applicatifs pour la prise en compte d’une grammaticalité graduelle dans l’analyse syntaxique. Au cours de cette présentation j’introduirai un modèle de représentation et de calcul pour la grammaticalité graduelle. Je discuterai ensuite certaines des pistes de recherche ouvertes par ce modèle, tant linguistiques qu’informatiques.
Mardi 12 janvier 2010 (11h)
Résumé automatique de texte et de parole : modélisation intraphrase et autres contributions
Benoit Favre (Laboratoire d’Informatique de l’Université du Maine)
Le résumé automatique tente de répondre à la surcharge d’information en offrant un contenu ciblé et non redondant à partir d’un ensemble de documents. Les méthodes classiques opèrent par sélection de phrases dans un contenu textuel ou dans des transcriptions de parole. Je proposerai lors de cette présentation une approche capable de s’affranchir des limites de la modélisation à la phrase pour traquer l’information à l’intérieur de celle-ci. Dans le cadre de ce modèle, les résumés sont produits par sélection des phrases qui couvrent un maximum de concepts par programmation linéaire en nombres entiers. À l’aide de contraintes supplémentaires, il est possible d’y introduire la compression de phrases et la réécriture d’expressions à l’intérieur des phrases. Je traiterai aussi de l’application de cette méthode à la parole et présenterai le problème de la segmentation en phrases, un aspect essentiel du traitement des transcriptions.
Lundi 4 janvier 2010 (14h)
Grammaires et analyseurs PCFG-LA
Présentation des grammaires d’interaction
Joseph Le Roux (Dublin City University, Irlande)
Jeudi 1er octobre 2009 (14h30)
Résumés automatiques de documents juridiques
Guy Lapalme (IRO, Université de Montréal)
Nous présenterons les développements dans le cadre du projet ISASLI (Intelligent system for Semantic processing, Automatic translation and Summarization of Legal Information). Ce projet est une collaboration avec NLP Technologies, une entreprise créée par une diplômée de notre département, qui commercialise un service de résumé automatique de jugements de la cours fédérale du Canada. Nous montrerons les différentes étapes du système ainsi que ensuite RevSum, un logiciel Web d’aide à la révision de résumés automatiques qui présente le document original et le résumé, et qui offre une interaction simple et rapide à l’échelle de la phrase.
Jeudi 11 juin 2009 (14h30)
Une méthode empirique pour quantifier la dispersion sémantique dans des familles morpho-phonologiques