Le Traitement Automatique du Language Naturel (TALN)

0 Shares

Ou la rencontre entre linguistique et informatique !

Le Traitement Automatique du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. 

Il s’agit d’un domaine de l’apprentissage automatique, doté de la capacité d’un ordinateur à comprendre, analyser, manipuler et générer un langage humain.

Grâce au traitement du langage naturel, une cohérence tente d’être apportée aux textes en s’attachant au sens des phrases et formules.

Mais comment ça marche ?

Les méthodes de TALN prêtent attention aux hiérarchies afin de mettre en cohérence les mots entre eux.

Ce n’est pas chose facile car de nombreux mots ont plusieurs sens : une « souris » peut par exemple définir l’animal, le petit boîtier servant à se diriger sur un écran d’ordinateur, ou même un morceau précis de viande d’agneau… Bonne chance !

Pour leur faire apprendre le langage par les ordinateurs, différents domaines d’application de la linguistique sont pris en compte :

  • La morphologie, qui s’intéresse à la composition des mots et de leur corrélation avec d’autres mots.
  • La syntaxe, qui définit la manière dont les mots sont agencés dans une phrase.
  • La sémantique, qui correspond à la signification des mots et des groupes de mots.
  • La pragmatique, grâce à laquelle le contexte est pris en compte.
  • Enfin la phonologie, qui s’occupe des sonorités de la langue orale, notamment importante pour la reconnaissance vocale.

Et les domaines d’application ? Ils sont multiples !

LEVIATAN utilise le TALN dans une solution développée pour la reconnaissance automatique du type de document juridique, de la compréhension et l’interprétation d’un ensemble contractuel composé d’un contrat initial et de ses avenants, et de la détection de clauses juridiques complexes.

Une autre application, développée par LEVIATAN, utilisée pour l’extraction et l’analyse automatique de CV permettant :

  • La reconnaissance de zones d’informations d’un CV (expériences, formations, compétences, informations personnelles, …) quelque soit l’ergonomie de celui-ci, par un algorithme de vision artificielle.
  • L’extraction et le stockage structuré des données brutes issues de CV dans leur diversité de formats (fichiers textes, pdf, images, …).
  • Le rapprochement des données extraites des CV avec celles d’offres d’emploi par un algorithme artificiel de classification.

Le Traitement Automatique du Langage Naturel représente donc un défi colossal dans le domaine de l’informatique mais aussi une avancée importante dans le traitement de l’information.

Une belle rencontre entre linguistique et Informatique !