Apprentissage supervisé d'un étiqueteur morphosyntaxique automatique de la langue amazighe
Mots-clés :
Linguistique computationnelle, apprentissage machine, annotation morphosyntaxique, langue amazighe, SVMs, CRFs, TALSynopsis
Comme la plupm1 des langues qui n'ont que récemment commencé les investigations en Traitement Automatique des Langues (TAL), la langue amazighe est peu dotée en ressources et outils du TAL. Dans ce sens, l'un des objectifs principaux de cette thèse est de doter cette langue de son premier étiqueteur morphosyntaxique.
L'étiquetage morphosyntaxique est la première couche au-dessus du mveau lexical et le niveau le plus bas de l'analyse syntaxique et de toutes les tâches du TAL traitant des niveaux linguistiques supérieurs. Cette tâche produit des infonnations supplémentaires au texte en entrée ; chose très bénéfique pour les autres tâches dn TAL l'utilisant.
Afin d'atteindre cet objectif, nous avons fonné deux modèles de classification de séquences, à savoir: les séparateurs à vaste marge (Suppm1 Vector Machines, SVMs), et les champs markoviens conditionnels (Conditional Random Fields, CRFs) en utilisant une phase de segmentation. Dans nos expérimentations, nous avons utilisé la technique de 10 fois validation croisée pour évaluer notre approëhe. Etant donné que nous avons utilisé un corpus d'environ - 20k mots, les résultats obtenus sont très prometteurs.
La création des données étiquetées est une tâche difficile, alors que l'obtention des données brutes même si elles nécessitent du temps pour leur prétraitement pour les langues peu dotées, est moins coûteuse. Nous avons eu recours à l'utilisation de ressources externes afin d'améliorer la perfonnance de l'étiqueteur. Ainsi, nous avons construit un corpus d'environ un quart de million de mots, dont nous avons utilisé le caractère infomrntif des mots hors vocabulaire et la mesure de confiance à même de réduire le taux d'en-eur de l'étiqueteur. Pour améliorer la précision de notre étiqueteur morphosyntaxique, nous avons également exploré une ressource lexicale enrichie avec les étiquettes grammaticales.
Téléchargements
Références
Boukhris, F. Boumalk, A. El moujahid, E., & Souifi, H. 2008. La nouvelle grammaire de /'amazighe. Publications de !'IRCAM.
Boukouss, A. 1995. Société, langues et cultures au Maroc. Publications de la Faculté des Lettres de Rabat, Maroc.
Boukouss, A. 2012. Revitalisation de la langue amazighe: défis, enjeux et stratégies. Publications de ] 'IRCAM.
Boulaknadel, S. 2009. Amazigh ConCorde: An Appropriate Concordance for Amazigh. ln Proceedings of Ier Symposium International sur le Traitement Automatique de la Culture AMazighe (SITACAM). Agadir, Morocco.
Boulaknadel, S., & Ataa Allah, F. 2011. Building a Standard Amazigh Corpus. ln Proceedings of International Co,iference on Intelligent Human Computer Interaction. Prague, Tchec.
Boumalk, A., & Naît Zenad, K. 2009. Vocabulaire grammatical. Publications de !'IRCAM.
Brill, E. 1992. A Simple Rule-Based Pa11 Of Speech Tagger. ln Proceedings of the Third Conference on Applied Natural Language Processing.