HackaTAL 2017

(hackathon dans le domaine du TAL)

TL;DR

Tâches : résumé d’avis et commentaires / prédiction de brevets
Site web : http://hackatal.github.io/2017
Dates : 24 au 26 juin 2017
Lieu : Lab’O, 1 Avenue du Champ de Mars, Orléans, le-lab-o.fr (AR Paris-Orléans : ~1h / ~15€)
Inscrivez-vous (gratuit mais obligatoire) : https://goo.gl/forms/tbFdKosMNNKdPhaH3
Fil twitter : https://twitter.com/hashtag/HackaTAL2017

Description

Dans le cadre de la conférence TALN-RECITAL 2017, sera organisée la seconde édition du HackaTAL, le hackathon dédié à des problématiques liées au TAL. L’objectif est de réunir la communauté autour de défis à relever à l’aide de données et briques logicielles, en consacrant le weekend à modéliser, prototyper, coder, expérimenter, développer, tester, évaluer, comparer, échanger, etc. - par équipes et dans une ambiance décontractée :)

Les tâches proposées concernent cette année le résumé automatique de description de produits à partir de leurs commentaires et la prédiction automatique de la brevetabilité de termes liés à des technologies selon leur historique. L’événement est ouvert à tous, ne nécessite pas de préparation particulière (sauf d’amener sa machine) et ne requiert pas de compétences spécifiques aux tâches que nous proposons : tout le monde est bienvenu !

Tâches

1. Résumé automatique de commentaires sur des produits en ligne

Objectifs

Dans le cadre de la promotion de produits sur les plateformes en ligne, l’appréciation peut être analysée à partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se présenter : notes, étoiles, mais aussi avis et commentaires textuels. Les notes n’étant pas toujours en adéquation avec les contenus textuels, de plus en plus d’acteurs cherchent à qualifier l’opinion des utilisateurs et à déterminer quels sont leurs arguments.

La thématique est orientée sur les avis et commentaires concernant l’offre de logements en région centre (particuliers, auberges, hôtels, luxe, etc.). Il s’agira de construire un résumé automatique des commentaires, à partir des arguments détectés dans ces derniers, à comparer aux notes et/ou à la description. Ce résumé orienté devra être séparé en deux champs principaux : points positifs et points négatifs sur des critères communs : accueil, confort, services, propreté, accessibilité, etc. D’autres champs peuvent être proposés par les participants selon les arguments extraits à partir des commentaires.

Sous tâches

Traitement / débruitage de données UGC
Détection et extraction d’arguments
Agrégation des valeurs par produits
Détection et résolution de contradictions
Résumé automatique d’opinions sur les aspects

Données et évaluation

Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).

L’évaluation portera sur la capacité à calculer automatiquement les scores pour chaque catégorie d’évaluation du produit (accueil, propreté, emplacement, etc.). Pour chacun de ces scores, un argumentaire résumé automatiquement devra être fourni qui pourra faire l’objet d’évaluation qualitatives.

2. Identification des tendances stratégiques liées aux brevets

Objectifs

La stratégie de dépôt de brevets par des entreprises ou des individus représente un enjeu considérable, qui a donné lieu à des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il n’est pas évident de déterminer quelles technologies vont avoir tendance à être l’objet de brevets, dans une optique de veille ou de préservation de la propriété intellectuelle.

La tâche proposée vise à mieux modéliser les mécanismes qui permettent de prédire l’apparition de brevets pour des technologies en essor, par utilisation de méthodes d’IA et de TAL (terminologie et expressions multi-mots, catégorisation des brevets, évolution des termes et des n-grams, prédiction de tendances). L’objectif est de déterminer, au regard des données collectées sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront déposés (par ex. en 2010). Pour illustration : si "tactile" est recensé avec une grande montée en 2010, pouvait-on prédire cette montée en exploitant les données de la décennie précédente ?

Sous tâches

Prétraitement du langage et de la structure des brevets
Extraction de terminologies liées aux technologies
Comparaison des termes des brevets avec les sites technologiques
Détection de signaux faibles
Analyse et prédiction de tendances

Données et évaluation

Seront mis à disposition :

Brevets de classes A/G/H en français 2001 - 2016 (descriptions, revendications)
Google n-gram du français
Corpus de sites technologiques (aspirés et nettoyés)

Deux évaluations seront proposées :

Quantitative : quel système prédit le mieux la liste conjointe de tous les termes établie par les différents groupes qui participe à la tâche ?
Qualitative : quel système d'interrogation et de visualisation des données est le plus pertinent et le plus ergonomique ?

Planning prévisionnel

Samedi 24 juin (au Lab’O)

14h30-15h : accueil
15h-15h30 : présentation du hackathon
15h30-16h : café, échanges, précisions sur les objectifs
16h-18h30 : développements en équipes
18h30-20h : Présentations
- La propriété intellectuelle des données (Thomas Saint-Aubin)
- About Innovation (Thomas Saint-Aubin)
- Lab'O (Gilles Mary)
- Recital (Gilles Moyse)
- Cloem (Kim Gerdes)
- Caléa (Gaël Guibon)
20h-21h30 : pause repas
21h30-00h : développements en équipes

Dimanche 25 juin (au Lab’O)

09h-10h : accueil, café
10h-13h : développements en équipes
13h-14h : pause repas
14h-15h : présentation des premiers résultats
15h-19h : développements en équipes

Lundi 26 juin (à TALN, campus d'Orléans, http://taln2017.cnrs.fr/infos-pratiques/#acces )

14h-15h30 : présentation des résultats, vote
16h-16h30 : l'utilisation du TAL chez Questel (Laurent Hill, Questel)
16h30-18h : remise du prix, discussion, conclusion

Organisation pratique

BYOD (amenez votre ordinateur)
Pas de critères pour participer, HackaTAL est ouvert à tous !
Aucune préparation n’est requise de la part des participants en amont de l’évènement
Données et briques logicielles seront en ligne : https://github.com/HackaTAL/2017

Organisateurs

Julien Borderieux (LLL)
Victor Brandao (Lab’O)
Patrice Frutos (INPI)
Renaud Garat (Questel)
Kim Gerdes (Paris 3, Cloem.com)
Loïc Grobol (LaTTiCe)
Gaël Guibon (LSIS, Caléa Solutions)
Pierre Halftermeyer (CESI Exia)
Anaïs Lefeuvre-Halftermeyer (LIFO)
Pierre-Edouard Lieb (Recast.AI)
Gilles Mary (Lab’O)
Djamel Mostefa (SYSTRAN)
Gilles Moyse (Récital)
Damien Nouvel (ERTIM)
Namrata Patel (Viseo)
Paul Renvoise (Recast.AI)

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
Brevets		Brevets
Equipes		Equipes
Presentations		Presentations
Produits		Produits
README.md		README.md
buildmodelgensim.py		buildmodelgensim.py
requestmodel.py		requestmodel.py
wifi_LABO_howto.md		wifi_LABO_howto.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

HackaTAL 2017

TL;DR

Description

Tâches

Planning prévisionnel

Organisation pratique

Organisateurs

About

Releases

Packages

Contributors 2

Languages

HackaTAL/2017

Folders and files

Latest commit

History

Repository files navigation

HackaTAL 2017

TL;DR

Description

Tâches

Planning prévisionnel

Organisation pratique

Organisateurs

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages