Projet E-Conte |

Proposition de TER 2015-2016 (non pourvu)

Le grand méchant loup est-il méchant : reconnaissance et classification d'entités nommées dans des contes


Projet dans lequel s'inscrit le TER

Le projet E-Contes est un projet de numérisation de livres de contes. Ces livres ne sont plus édités et constituent à la fois un recueil patrimonial et un outil à destination d'un large public de chercheurs, de professionnels et du tout public. Il ne s'agit pas de simples recueils de contes, puisque notamment ils contiennent des données semi-structurées (analyses des contes, lieu du recueil, conteur...). L'un des objectifs du projet est la mise en place d'un site Internet qui présentera l'ensemble des contenus des livres. Le site doit permettre de rendre compte de la richesse des informations contenues dans les livres tout en proposant une interface simple pour naviguer entre les contenus. Il doit aussi permettre à des contributeurs de collaborer aux contenus notamment en effectuant des transcriptions de contes.

Objectif du TER

L'objectif du TER est de développer un système de reconnaissance d'entités nommées adapté à des personnages de contes. Il s'agira d'adapter un outil de reconnaissance existant pour tenir compte des spécificités des entités particulières que sont les personnages (noms propres composés de noms communs, transformations possibles de personnages...). Une partie du corpus a été annotée, ce qui permettra un apprentissage semi-supervisé ou une évaluation dans le cas d'un système non supervisé.

Exemples

Prenons l'extrait suivant : «

"Je ferai tout comme il faut," dit le Petit Chaperon Rouge à sa mère. La fillette lui dit au revoir. La grand-mère habitait loin, au milieu de la forêt, à une demi-heure du village. Lorsque le Petit Chaperon Rouge arriva dans le bois, il rencontra le Loup. Mais il ne savait pas que c'était une vilaine bête et ne le craignait point.
»
 

Différents personnages sont cités : le Petit Chaperon Rouge, la mère, la grand-mère, le loup. D'une part, il s'agit de détecter ces personnages ainsi que l'ensemble des termes qui y font référence. Par exemple, « la fillette » fait référence au petit chaperon rouge.
D'autre part, il s'agit de répérer tous les éléments qui caractérisent les personnage. Par exemple, on peut dire que le Loup est un animal, méchant et est l'adversaire du héro tandis que le petit chaperon rouge est un humain, enfant, féminin, gentil et est l'héroïne du conte.

Références

Anne Garcia-Fernandez and Anne-Laure Ligozat and Anne Vilnat (2014). Construction and Annotation of a French Folkstale Corpus, In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14) (Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis, eds.), European Language Resources Association (ELRA), 2014.

David Doukhan, Sophie Rosset, Albert Rilliard, Christophe d'Alessandro, Martine Adda-Decker (2012). Designing French Tale Corpora for Entertaining Text To Speech Synthesis, In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12) (Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Mehmet Ugur Dogan, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, eds.), European Language Resources Association (ELRA), 2012.

Benoît  Sagot,  Marion  Richard,  Rosa  Stern (2012).  Annotation  référentielle  du  Corpus  Arboré de Paris 7 en entités nommées.  Georges Antoniadis, Herve Blanchon, Gilles Serasset.  Traitement Automatique des Langues Naturelles (TALN), Jun 2012, Grenoble, France.  2 - TALN, 2012, Actes de la conference conjointe JEP-TALN-RECITAL 2012.

Lendvai, P., Váradi, T., Darányi, S., & Declerck, T. (2010). Assignment of character and action types in folk tales. Selected Papers from the NooJ, 102-111.

 

Compétences attendues

  • Connaissance du domaine du traitement automatique des langues
  • Programmation en java, python ou perl
  • Connaissance des outils d'apprentissage supervisé (CRF, SVM...)

 

Informations pratiques

Le TER sera co-encadré par Anne-Laure Ligozat (LIMSI, CNRS, Orsay) et Anne Garcia-Fernandez (LAS, Collège de France, Paris). Le lieu du TER sera le LIMSI à Orsay.

Pour candidater, veuillez envoyer par mail à annlor@limsi.fr et annegf@college-de-france.fr vos CV, lettre de motivation ainsi que vos deux derniers relevés de note.

Collège de France
CNRS
EHESS
Labex TransferS
PSL Research University

Calendrier du LAS

Intranet (WikiLAS)

 

Laboratoire d'Anthropologie Sociale
3 rue d'Ulm
75005 Paris
Tél. : +33 (0)1 44 27 17 32
Courriel