Jour 3 (AM) - Ateliers > 9h30 - Librairies Python et Services Web

Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes

Ludovic Moncla (contact)
Maitre de conférence en informatique à l'INSA Lyon
Univ Lyon, INSA Lyon, CNRS, UCBL, LIRIS, UMR5205, F-69621

Ludovic Moncla est membre de l’équipe de recherche Data Mining et Machine Learning (DM2L) au laboratoire LIRIS (UMR CNRS) et co-dirige l’action de recherche « Humanités Numériques Spatialisées » au sein du GDR CNRS MAGIS. Ses recherches portent sur le développement de méthodes de traitement automatique de la langue (TAL) pour l’extraction automatique d’informations à partir de textes (eg. entité nommées, informations géographiques) pour produire diverses ressources permettant leur analyse comme des cartes géographiques.

Alice Brenon (contact)
Doctorante sur le projet GEODE financé par le LabEx CNRS ASLAN
Univ Lyon, INSA Lyon, CNRS, UCBL, LIRIS, UMR5205, F-69621 et ICAR, UMR5191


Présentation

Cet atelier a pour objectif de présenter l’utilisation de librairies Python (ie. NLTK, Stacy, Stanza) et de services Web (ie. PERDIDO) pour l'extraction d’entités nommées à partir de textes. Nous nous intéresserons en particulier au repérage des noms de lieux et à leur localisation sur une carte géographique. Nous mettrons en avant la simplicité d’utilisation de ces outils mais également leur limites.

Programme

  • Introduction et comparaison de différents outils de NER : librairies Python (NTLK, Spacy et Stanza), et Services Web (Perdido)
  • Sélection des outils en fonction des corpus (nature des textes, choix de la langue, etc)
  • Les expérimentations seront réalisées sur 2 cas d’application : descriptions de randonnées et articles encyclopédiques
  • Notebook en ligne (Google Collab’) pour développer des prototypes d’applications faciles à utiliser et intuitifs en Python
Personnes connectées : 2 Vie privée
Chargement...