Ayuda
Ir al contenido

Dialnet


Resumen de Des linguistes et des outils : au-delà des corpus

Dominique Legallois, Sara Leroy

  • En matière de linguistique de corpus, il a déjà été beaucoup dit, et beaucoup fait. Le recours à des sommes de données conséquentes, rationnellement organisées et interrogeables par des requêtes complexes a fait surgir de nouveaux modes de saisie des unités linguistiques. Plus qu'un simple changement dans les techniques et les heuristiques d'analyse, l'irruption des corpus informatisés dans la discipline a favorisé l'émergence de nouvelles perspectives. Ainsi, la récurrence, jusqu'alors insoupçonnée, de certaines formes linguistiques, ou au contraire la variation dans la réalisation de ces formes, sont détectées sur des corpus de volume approprié ; des modes d'organisation de séquences (grammaticales, textuelles, discursives) sont identifi és et permettent de fonder ou de développer une véritable linguistique de l'usage. L'importance de l'utilisation de corpus informatisés en linguistique n'est donc plus à prouver. Le renouvellement de la linguistique empirique est essentiellement redevable à l'extension de la puissance des ordinateurs et à l'important effort de numérisation des textes et de mise à disposition des bases de données1 ; l'essor de l'ingénierie informatique et le développement d'interfaces de consultation et d'outils d'analyse de plus en plus " user friendly ", qui permettent aux linguistes d'effectuer, sur ces corpus, des requêtes complexes, ont contribué à en répandre l'usage. Enfi n, des ouvrages sont également venus 1 Avec cependant toujours des manques pour les ressources en français si on les compare, par exemple, à celles de l'anglais, plus variées tant pour les genres que pour les modalités (oral/écrit). Revue de Sémantique et Pragmatique. Juin 2010. Numéro 27. pp. 7-10. 8 Dominique Legallois et Sarah Leroy RSP o 2010 o n° 27 guider et documenter les linguistes désirant s'initier à la recherche en corpus2. Mais l'apport de l'informatique à la linguistique ne saurait se réduire à la seule interrogation de corpus. Ainsi, les occurrences extraites à partir de corpus sont encore, dans une certaine mesure, des données brutes - certes, en principe déjà interprétables - pour lesquelles on peut envisager un surplus d'opérations pour approfondir la qualité de l'analyse. Dit autrement, le rapport du linguiste à l'informatique ne saurait être exclusivement celui d'un simple utilisateur d'une technologie. Bien au contraire, le corpus et l'extraction de données constituent bien souvent le point de départ d'une autre relation possible qui demande une stratégie de conception : il ne s'agit naturellement pas, pour le linguiste, de devenir programmeur ou informaticien, mais d'inventer des usages informatiques - et ce, quelle que soit sa compétence en la matière3 - en relation avec ses besoins et ses hypothèses de linguiste. Il ne s'agit pas, encore une fois, d'intervenir au niveau proprement logiciel, mais d'utiliser les capacités et les résultats des outils et des données existants pour de nouveaux usages, de nouvelles opérations. Chaque recherche nécessite un travail complexe sur les données ; or ni la communauté scientifi que, ni l'industrie ne peuvent produire des logiciels adaptés ou adaptables à ces traitements variés. Il importe donc de savoir quels sont, parmi les outils existants et disponibles, ceux qui pourront aider à construire des chaînes de traitements ad hoc, chaînes qui consistent, par exemple, à annoter des informations, à nettoyer des résultats trop " bruyants ", à détourner des ressources de leur destination première pour de nouvelles applications, à formaliser des phénomènes linguistiques, à implémenter des grammaires locales. Deux bénéfi ces sont alors observables : d'une part, les linguistes identifi ent désormais leurs besoins et les outils qui y répondent et sont alors à même de faire partager leurs ressources ; d'autre part, les analyses spécifi ques se complexifi ent en coordonnant les différents états des données. 2 Parmi ces ouvrages, on peut citer Habert B., Nazarenko A., Salem A., 1997, Les Linguistiques de corpus, Paris : Armand Colin, Bilger M. (éd.), 2000, Corpus : méthodologie et applications linguistiques, Paris : Champion, Habert B., 2005, Instruments et ressources électroniques pour le français, Gap/Paris : Ophrys. Reconnaissons cependant le plus grand éventail proposé par la littérature anglo-saxonne. 3 Signalons cependant au passage qu'il peut y être grandement aidé par des ouvrages comme celui de Tanguy L. & Hathout N., 2007, Perl pour les linguistes : programmes en Perl pour exploiter les données langagières, Paris : Hermès. Des linguistes et des outils : au delà des corpus 9 RSP o 2010 o n° 27 L'essentiel des travaux de ce recueil s'attache à présenter des cas concrets d'analyses outillées de données issues de corpus ; ils sont en cela emblématiques d'une recherche linguistique qui recourt à une chaîne de traitements pour convertir ces données, ou encore les modaliser, dans un format plus adéquat. J. François étudie le comportement syntaxico-sémantique du nom force(s), et plus précisément ses disparités d'emploi dans les rubriques Société, France et International de l'année 2005 du Monde. Il s'agit donc d'une analyse lexicogrammaticale et sémantique, qui se distingue des approches privilégiant le repérage automatique des cooccurrences à distance, puisqu'elle s'appuie sur la méthode des segments répétés. La dimension syntaxique y est donc conservée. Le rapport à l'outil se caractérise ici par la complémentarité de deux logiciels : le concordancier AntConc de Laurence Anthony et le logiciel LEXICO 3 du Syled (André Salem et al., Université Paris 3). S. Ferrari et D. Legallois ont pour objectif d'implémenter une grammaire locale de l'évaluation dans une plate-forme (Linguastream) dédiée au traitement textuel. À partir d'un corpus d'opinions données par des lecteurs sur des sites Internet, les auteurs mettent en évidence des séquences lexicogrammaticales récurrentes, consacrées à l'expression des jugements d'opinion, et repérées notamment par le logiciel Collocate (M. Barlow). Il ne s'agit pas là à proprement parler d'un traitement automatique de la langue, mais de la conception d'un format informatique suffi samment souple pour que la grammaire locale puisse être projetée sur d'autres types de textes. Au-delà de l'investigation des corpus, les contributions plaident pour la création d'outillages informatiques pour les nécessités de l'analyse, pour le détournement de certaines fonctions, pour la ré-invention des instruments selon les besoins et les possibilités de chaque utilisateur. Outre ses apports pour la confi guration de traitements post-corpus, l'informatique peut aussi se révéler une précieuse auxiliaire de la linguistique dans la mesure où elle permet à certains travaux, notamment en sémantique lexicale, d'exploiter sous de nouveaux angles certaines ressources jusqu'ici disponibles mais peu maniables. Ainsi, P. Gréa, S. Loiseau et J.-P. Magué proposent de modéliser, grâce à des graphes, des ressources lexicographiques numérisées provenant de dictionnaires monolingues. Ces graphes permettent d'identifi er des structurations sémantiques en domaines et en champs sémantiques ; à partir de ces résultats, une analyse contrastive de plusieurs graphes est proposée, qui met en évidence la nature du discours commun présent dans les dictionnaires. Enfi n, le travail de A. Bertels, D. Speelman, et D. Geeraerts porte sur une étude sémantique du vocabulaire spécifi que d'un corpus technique. La 10 Dominique Legallois et Sarah Leroy RSP o 2010 o n° 27 méthode utilisée par les auteurs permet d'identifi er et de quantifi er la spécifi cité du vocabulaire, mais également, sur la base du recoupement formel des cooccurrents de deuxième ordre, de mesurer et d'apprécier la monosémie des termes. Le résultat du travail remet en cause la perspective doxale selon laquelle plus un mot est spécifi que à un vocabulaire technique, plus il est monosémique. Une informatique linguistique quelque peu intimidante et tentaculaire a pu par le passé détourner les linguistes de l'outillage informatique. Heureusement, depuis plusieurs années, les collaborations entre linguistes et informaticiens se sont multipliées - permettant, d'une part, des apports fondamentaux pour les sciences du langage et, d'autre part, une assise linguistique plus solide du traitement automatique des langues. Insistons encore sur le fait qu'il s'agit bien de considérer la linguistique comme une discipline informatisée, c'est-àdire sollicitant la technologie et revendiquant le bricolage, et non comme une discipline informatique. C'est pourquoi les objets d'analyse sont ici avant tout en lien avec des thématiques propres à la linguistique - thématiques somme toute classiques : sémantique lexicale et textuelle, syntaxe, analyse du discours - et non avec le traitement automatique en lui-même. La diversité des contributions refl ète donc ce que nous souhaitions promouvoir pour ce numéro : hétérogénéité des approches, hétérogénéité des outils, mais également des compétences et des savoir-faire informatiques.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus