Jour 1 - Conférences > 16h30 - Fouille de textes

L'introduction à la "fouille de texte et de données" et positionnement de l'offre logicielle
 
Patrice Bellot (contact)
Laboratoire d'informatique et systèmes (LIS)
Aix-Marseille Université (AMU), Université de Toulon, Centre National de la Recherche Scientifique (CNRS)
 
Patrice Bellot est Professeur en informatique à Aix-Marseille Université, membre du Laboratoire d'Informatique et Systèmes (LIS) et chargé de mission « fouille de données textuelles » à l'Institut INS2I du CNRS. Ses travaux de recherche portent sur les méthodes numériques de recherche d’information et de recommandation automatique de contenus mais aussi sur l’analyse automatisée des sentiments et des émotions.

Présentation

La fouille de données textuelles informatisée met en jeu un certain nombre de disciplines scientifiques parmi lesquelles la linguistique et les statistiques sont centrales.

Au fil des années et selon certains choix guidés par la nature des données manipulées (langues, textes et documents) et des tâches à réaliser mais aussi par des impératifs ergonomiques ou économiques, l'équilibre entre ces disciplines a évolué pour donner lieu à une offre logicielle vaste et variée, plus ou moins interactive ou dépendante de ressources humaines et de données volumineuses.

Ce sont ces différents aspects qui seront présentés et qui permettront d'introduire les ateliers en les mettant en perspective avec les enjeux actuels.

Programme

Introduction sur les domaines scientifiques impliqués dans la fouille de textes

  • TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
  • Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standardpour évaluer des modèles et des outils
  • Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...

Panorama méthodologique de l'offre logicielle académique ou commerciale

  • Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
  • Des outils logiciels plus ou moins interactifs

Vidéothèque

Conférence ANF TDM 2020 (1h45)
Conférence ANF TDM 2021 (1h30)

Personnes connectées : 2 Vie privée
Chargement...