Extraction et Gestion des Connaissances - Lydia Boudjeloud-Assala - E-Book

Extraction et Gestion des Connaissances E-Book

Lydia Boudjeloud-Assala

0,0

Beschreibung

La sélection d'articles publiés dans le présent recueil constitue les actes de la 19e édition de la conférence francophone Extraction et Gestion des Connaissances (EGC 2019) qui s'est déroulée à Metz du 21 au 25 janvier 2019 sur le Campus de CentraleSupélec. L'objectif de ces journées scientifique est de rassembler des chercheurs de disciplines connexes (Bases de Données, Statistiques, Apprentissage, Représentation des Connaissances, Gestion des Connaissances et Fouille de Données) et les ingénieurs qui mettent en oeuvre sur des données réelles des méthodes d'extraction et de gestion des connaissances. Cette conférence est un évènement majeur fédérateur de la communauté francophone en Extraction et Gestion des Connaissances et regroupe des chercheurs de plusieurs pays (notamment France, Belgique, Luxembourg, Canada, Afrique du Nord). Le programme de la conférence comprend aussi des présentations de chercheurs invités reconnus mondialement pour leurs travaux. Les communications rassemblées dans ce volume traduisent à la fois le caractère multidisciplinaire des travaux de recherche présentés, la richesse des applications sous-jacentes et la vitalité des innovations issues de l'extraction et de la gestion des connaissances.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 992

Veröffentlichungsjahr: 2019

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



LE MOT DES DIRECTEURS DE LA COLLECTION RNTI

Très chers lecteurs et lectrices,

La collection RNTI s’étoffe d’année en année. Vos publications RNTI sont disponibles en ligne mais également en diffusion de livres classiques ou numériques auprès des grands libraires et distributeurs.

La collection RNTI a maintenant pris sa place dans l’édition scientifique francophone. Elle s’impose dans le paysage éditorial scientifique puisque tout son contenu est référencé dans les banques de données bibliographiques et notamment DBLP. La communauté scientifique, notamment francophone, la considère comme l’une des publications de référence du domaine. Le nombre de pages publiées chaque année est d’environ 1000, représentant des articles sélectionnés sur la base d’une évaluation rigoureuse selon les normes internationales. Le taux de sélection, autour de 30%, la place parmi les publications les plus exigeantes. Les publications de RNTI se font toutes selon la même charte éditoriale respectant les standards internationaux en matière de transparence et de qualité.

Nous tenons encore une fois à exprimer toute notre gratitude aux auteurs, aux rédacteurs invités et à tous nos collègues qui nous ont fait l’honneur de proposer des articles ou des numéros spéciaux.

Nous continuons à faire paraître des numéros dans les thèmes liés à l’Extraction de connaissances à partir des données, à la Fouille de données et à la Gestion des connaissances, mais nous ouvrons l’espace RNTI plus largement à d’autres domaines de l’Informatique, toujours avec les mêmes niveaux d’exigence sur les numéros publiés. Nous vous invitons à nous proposer des projets êditoriaux rentrant dans la politique éditoriale de RNTI et dont les principes assez simples font la distinction entre deux deux sortes de publications :

des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d’une quinzaine de personnes est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s’il est dans le créneau de RNTI vous serez désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante de la mise en place de la collecte, de l’évaluation, de la sélection et de la publication du numéro,

des actes de conférences sélection garantissant une haute qualité des articles. Si vous présidez une conférence dans des thématiques liées aux technologies de l’information, vous pouvez nous contacter.

Nous remercions chaleureusement la communauté EGC de faire de nouveau confiance à RNTI pour la parution de ce numéro et nous espérons vivement qu’il vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter.

Nous terminons ce petit mot en vous adressant nos meilleurs voeux pour 2019.

Djamel A. Zighed et Gilles Venturini.

PRÉFACE

A l’heure de la confrontation de l’Intelligence Artificielle au déluge de données massives, les sujets de l’extraction et de la gestion des connaissances apparaissent comme particulièrement centraux à de nombreux travaux de recherche et développement. Le traitement et l’intégration de sources de données et de connaissances posent sans cesse de nouveaux besoins et de nouveaux défis en termes de méthodes, de techniques et d’outils pour acquérir les données, les classifier, les intégrer, les représenter, les stocker, les indexer, les visualiser, interagir avec elles, les protéger et surtout les transformer en connaissances utiles, pertinentes et respectueuses de nos droits. Aux besoins de passage à l’échelle posés par de grandes collections de données, s’ajoutent les besoins de traitement de données hétérogènes, de qualité variable et parfois très dynamiques. Un défi majeur est la conception d’algorithmes d’analyse et de raisonnement sur des données, plus transparents, tout en garantissant le respect de la vie privée et l’équité.

La conférence Extraction et Gestion de Connaissances (EGC) est le rendez-vous annuel de chercheurs et praticiens travaillant dans les domaines de la science des données et des connaissances. Ces disciplines incluent notamment l’apprentissage automatique, l’ingénierie et la représentation des connaissances, les statistiques et l’analyse de données, la fouille de données, les systèmes d’information, les bases de données, le Web sémantique. EGC est une occasion unique de faire se rencontrer académiques et industriels afin de confronter des travaux théoriques et des applications pratiques sur des données réelles et de communiquer des travaux de qualité, d’échanger et de favoriser la fertilisation croisée des idées, à travers la présentation de travaux de recherche récents, de développements industriels et d’applications originales.

La sélection d’articles publiés dans le présent recueil constitue les actes de la 19e édition de la conférence (EGC 2019) qui s’est déroulée à Metz du 21 au 25 janvier 2019 sur le Campus de CentraleSupêlec. Les articles sélectionnés couvrent des thématiques très diverses mais au coeur de la communauté telles que l’apprentissage automatique, l’ingénierie et la représentation des connaissances, la fouille de données, les systèmes d’information, les bases de données, le Web sémantique et les données ouvertes, le traitement de données de nature diverse : numériques et symboliques, textuelles ou images ou encore données de graphes issues des réseaux sociaux. Les applications présentées sont également variées allant de la recommandation, des assistants vocaux, de l’urbanisme à la médecine et à la chimie. Sur 72 soumissions complètes, nous avons retenu 19 articles longs (soit un taux de sélection de 26,3%), 20 articles courts, 8 résumés d’articles déjà publiés à l’international et 15 posters. Pour assurer un retour de qualité, 5 articles ont eu 3 relectures, 64 articles ont eu 4 relectures et 3 articles ont eu 5 relectures. Ce travail a été effectué par un comité de 167 relecteurs et supervisé par 8 mêta-relecteurs. De manière à rendre l’évaluation la plus juste et la plus équitable possible, le processus a été réalisé via des soumissions anonymes, avec un droit de réponse des auteurs avant la réunion du comité de programme. Chaque article a aussi fait l’objet d’une mêta-relecture pour synthétiser les retours et les discussions, arbitrer les échanges et recommander une décision.

EGC héberge aussi une école qui nous permet de nous former aux dernières méthodes et nouveaux outils. Cette année, elle était ciblée sur “Privacy preserving, reasoning, explaining”.

Pour cette édition 2019, nous avons eu le plaisir d’accueillir quatre chercheurs invités de renom international :

Frank van Harmelen, Université VU d’Amsterdam, président d’honneur de EGC 2019

Krishna P. Gummadi, Max Planck Institute for Software Systems (MPI-SWS)

Ioana Manolescu, Inria-LIX, Ecole Polytechnique

Roberto Di Cosmo, Inria et Université Paris Diderot

Le recueil inclut les résumés de leurs conférences invitées.

La conférence est complétée par 6 ateliers sélectionnés sur un spectre large de thématiques: Fouille de textes, Web des données, Humanités numériques et héritage culturel, Gestion et analyse des données spatiales et temporelles, Interprêtabilitê de l’apprentissage automatique et de IA, Véracité des données.

Remerciements : Nous tenons à remercier les membres du comité de programme pour la qualité de leurs rapports d’évaluations et le temps consacré malgré des périodes chargées et difficiles. Nos remerciements chaleureux vont également à toute l’équipe du comité d’organisation pour leur travail, leur implication, leur mobilisation, et leur réactivité. Ils vont également aux membres du bureau de l’association EGC pour leur appui tout au long de la préparation de cette édition. Nous remercions spécialement pour leur soutien et participation, CentraleSupêlec, le laboratoire lorrain de recherche en informatique et ses applications (LORIA, UMR 7503), CNRS, INRIA l’Université de Lorraine, l’IUT de Metz, la région Grand Est, le département de Moselle, Metz Métropole, le groupe de recherche GDR MADICS (Masses de Données, Informations et Connaissances en Sciences), la société Luxembourgeoise de Statistique (SLS), Sogeti, Business & Décision, Arcelor Mittal, google, Crédit Mutuel Enseignant.

Marie-Christine Rousset et Lydia Boudjeloud-Assala.

Membres du comité de lecture

Le Comité de Lecture est constitué du comité de programme et des membres du comité de pilotage de l’association EGC ayant participé à la sélection des articles.

Présidente : Marie-Christine Rousset, LIG, Université Grenoble Alpes & Institut Universitaire de France

Nathalie Abadie - COGIT, IGN

Jacky Akoka - TEM, CNAM

Laurent Amsaleg - IRISA, CNRS

Boyer Anne - Kiwi Team - LORIA, Université de Lorraine

Said Assar - Institut Mines-Télécom

Manuel Atencia - INRIA, Université de Grenoble Alpes

Baghdad Atmani - Computer Science Laboratory of Oran (LIO). Oran 1 University

Marie-Aude Aufaure - DATARVEST

Jérôme Azê - LIRMM, CNRS UMR 5506

Amine Aït Younes - CreSTIC, Université de Reims Champagne-Ardenne

Jean-Paul Barthès - Université de Technologie de Compiègne

Sadok Ben Yahia - Faculty of Sciences, Tunis

Khalid Benabdeslem - LIRIS, Université

Claude Bernard Lyon I, France

Younès Bennani - LIPN, Université Paris 13

Fadila Bentayeb - ERIC, Université Lyon 2

Giuseppe Berio - Université de Bretagne Sud & IRISA UMR 6074

Marc Bertin - Université Claude Bernard Lyon 1

Romain Billot - Institut Mines-Télécom Atlantique

Gilles Bisson - LIG, Université de Grenoble Alpes & CNRS

Alexandre Blanschê - LORIA, Université de Lorraine

Alexis Bondu - Orange Labs

Amel Borgi - ISI / LIPAH, Université de Tunis El Manar

Cécile Bothorel - Institut Mines-Télécom Atlantique

Fatma Bouali - Université Lille 2

Lydia Boudjeloud-Assala - LORIA, Université de Lorraine

Alain Bouju - Université de La Rochelle Omar Boussaid - ERIC, Université Lyon 2

Agnès Braud - Université de Strasbourg Paula Brito - Université de Porto

Pierrick Bruneau - Luxembourg Institute of Science and Technology

Patrice Bûche - INRA, CIRAD Wemmert Cedric - ICube, UMR 7357 CNRS/Unistra

Peggy Cellier - IRISA, INSA Rennes Thierry Chamois - LIPN, Université Paris 13, CNRS

Max Chevalier - IRIT, Université Paul Sabatier

Guillaume Cleuziou - Laboratoire d’Informatique Fondamentale d’Orléans

Florence Cloppet - LIPADE, Université Paris Descartes

Martine Collard - Université des Antilles Camélia Constantin - LIP6, Université de Paris 6

Bruno Cremilleux - Université de Caen Mathieu D’Aquin - Insight Centre for Data Analytics, National University of Ireland Galway

Jérôme Darmont - Université de Lyon

Jérôme David - INRIA

Francisco De A. T. De Carvalho - Centro de Informatica, CIn/UFPE

Cyril de Runz - CreSTIC, Université de Reims Champagne-Ardenne

Géraldine Del Mondo - LITIS, INSA Rouen

Sylvie Despres - Laboratoire d’Informatique Médicale et de BlOinfor-matique (LIM&BIO)

Juliette Dibie-Barthêlemy - AgroParis-Tech

Nicolas Duguê - Laboratoire d’Informatique de l’Université du Maine Rémi Emonet - Laboratoire Hubert Curien, Université Jean Monnet de Saint-Etienne

Catherine Faron Zucker - Université Nice Sophia Antipolis

Cécile Favre - ERIC, Université Lyon 2 Françoise Fessant - France Télécom R&D Frédéric Flouvat - Université de la Nouvelle-Calédonie

Françoise Fogelman-Souliê - Tianjin University, School of Computer Software

Germain Forestier - Université de Haute Alsace

Agnès Front - LIG, SIGMA, Université de Grenoble

Esther Galbrun - Aalto University

Jean-Gabriel Ganascia - LIP6, Université Pierre et Marie Curie

Pierre Gancarski - LSIIT, Université Louis Pasteur, Strasbourg.

Fabien Gandon - INRIA

Dominique Gay - Université de La Réunion

François Goasdoue - Université Rennes 1

Christophe Gravier - Université Jean

Monnet de Saint-Etienne

Daniela Grigori - LAMSADE, Université Paris-Dauphine

Adrien Guille - ERIC, Université Lyon 2 Christiane Guinot - Université François Rabelais, Tours

Thomas Guyet - AGROCAMPUS OUEST/UMR 6074 IRISA

Alain Gêly - LORIA, Université de Lorraine

Hakim Hacid - Bell Labs

Fayçal Hamdi - CEDRIC, Conservatoire

National des Arts et Métiers

Georges Hebrail - EDF Lab Saclay, IRT SystemX

Gilles Hubert - IRIT, Université Paul Sabatier

Dino Ienco - IRSTEA, Montpellier

Antonio Irpino - Second University of Naples, Italy

Fabrice Jouanot - LIG, Université de Grenoble Alpes

Mehdi Kaytoue - Infologic

Zoubida Kedad - Université of Versailles

Ali Khenchaf - Lab-Sticc, ENSTA Bretagne

Pascale Kuntz - Laboratoire d’Informatique de Nantes Atlantique

Vincent Labatut - Université d’Avignon

Nicolas Labroche - Université François

Rabelais, Tours

Nicolas Lachiche - Université of Strasbourg

Frederique Laforest - Laboratoire Hubert Curien, Université Jean Monnet de Saint-Etienne

Sylvain Lamprier - LIP6, Université de Paris 6

Luigi Lancieri - Université de Lille

Christine Largeron - Université Jean

Monnet de Saint-Etienne

Anne Laurent - LIRMM, Université de

Montpellier 2

Florence Le Ber - ICube

Yves Lechevallier - INRIA

Maxime Lefrançois - Ecole des Mines de

Saint-Etienne

Sébastien Lefèvre - Université de Bretagne Sud

Vincent Lemaire - Orange Labs, Equipe

Profiling et Data Mining

Philippe Lenca - Institut Mines-Télécom Atlantique

Philippe Leray - LINA/DUKe, Université de Nantes

Marie-Jeanne Lesot - LIP6, Université de Paris 6

Stéphane Loiseau - LERIA, Université d’Angers

Stéphane Lopes - PRiSM, Université de Versailles

Sabine Loudcher - ERIC, Université Lyon 2

Sofian Maabout - LaBRI, Université de Bordeaux

Mondher Maddouri - URPAH, Faculté des Sciences de Gafsa, Tunisie

Claudia Marinica - ETIS - ENSEA UCP CNRS - UMR 8051

Béatrice Markhoff - LI, Université

François Rabelais, Tours

Arnaud Martin - Université de Rennes 1 / IRISA

Florent Masseglia - INRIA

Guy Melançon - LaBRI, Université de

Bordeaux, CNRS

Engelbert Mephu Nguifo - LIMOS, Université de Clermont Auvergne, CNRS

Zoltan Miklos - Université de Rennes 1

Rokia Missaoui - LARIM

Boughanem Mohand - IRIT, Université Paul Sabatier

Fabrice Muhlenbach - Laboratoire Hubert

Curien, Université Jean Monnet de Saint-Etienne

Amedeo Napoli - LORIA Nancy (CNRS - INRIA - Université de Lorraine)

Eisa Nègre - LAMSADE, Université Paris-Dauphine

Benjamin Nguyen - INSA Centre Val de Loire

Ndèye Niang - CNAM

Monique Noirhomme - Université de Namur

Damien Nouvel - INaLCO

Jean-Marc Ogier - L3i, Université de La

Rochelle

Teste Olivier - IRIT

Benoit Otjacques - Luxembourg Institute of Science and Technology

Nathalie Pernelle - LRI, Université Paris SUD

Fabien Picarougne - LINA, Université de Nantes

Bruno Pinaud - LaBRI, Université de Bordeaux, CNRS

Suzanne Pinson - LAMSADE, Université Paris-Dauphine

Marc Plantevit - LIRIS, Université Claude Bernard Lyon 1

Pascal Poncelet - LIRMM Montpellier

Philippe Preux - INRIA, LIFL, Université de Lille

Cêdric Pruski - Luxembourg Institute of Science and Technology

Andrê Pêninou - IRIT

Gianluca Quercini - LRI, CentraleSupêlec

Mohamed Cherif Rahal - Institut VeDeCoM

Franck Ravat - IRIT, Université de Toulouse

Chantai Reynaud - LRI, Université Paris-Sud, CNRS, Université Paris-Saclay

François Rioult - GREYC CNRS UMR6072, Université de Caen

Christophe Roche - Condillac, Université Savoie Mont-Blanc

Mathieu Roche - Cirad, TETIS

Marie-Christine Rousset - LIG, Université

Grenoble Alpes & Institut Universitaire de France

Catherine Roussey - Irstea Clermont-Ferrand

Christian Sallaberry - Université de Pau et Pays de l’Adour

Yacine Sam - Computer Science Lab Virginie Sans - IRISA, University de Rennes 1

Lucile Sautot - AgroParisTech (Dêp. SIAFEE, UMR TETIS)

Fatiha Sais - LRI, Université Paris-Sud 11, CNRS & INRIA Saclay

Florence Sedes - Université Paul Sabatier, Toulouse 3

Nazha Selmaoui-Folcher - Université de la

Nouvelle-Calédonie

Samira Si-Said Cherfi - CEDRIC, Conservatoire National des Arts et Métiers

Dan Simovici - University of Massachusetts Boston

Malika Smail-Tabbone - LORIA, Université de Lorraine

Arnaud Soulet - Université François Rabelais, Tours

Erick Stattner - LAMIA, Université des Antilles

Luiz Angelo Steffenel - Université de

Reims Champagne-Ardenne

Thomas Tamisier - Luxembourg Institute of Science and Technology

Bouadi Tassadit - IRISA, Université Rennes 1

Maguelonne Teisseire - Irstea, UMR Tetis

Alexandre Termier - Université de Rennes 1

Andrea Tettamanzi - Université Nice Sophia Antipolis

Virginie Thion - IRISA, Université Rennes 1 / ENSSAT

Christophe Thovex - French-Mexican Laboratory of Informatics and Automatic Control (LAFMIA - UMI CNRS 3175)

Fabien Torre - Université de Lille

Ronan Tournier - IRIT Federico Ulliana - Université de Montpellier 2

Julien Velcin - Université de Lyon 2

Gilles Venturini - LI, Université François Rabelais, Tours

Nicole Vincent - Université Paris Descartes Paris 5

Christel Vrain - LIFO, université d’Orléans

Haifa Zargayouna - Université Paris 13

Comité d’organisation

Présidente : Lydia Boudjeloud-Assala - LORIA, Université de Lorraine

Marie Baron - LORIA

Olivia Brenner - LORIA

Brieuc Conan-Guez - LORIA, Université de Lorraine

Jêrêmy Fix - LORIA, CentraleSupêlec

Alain Gêly - LORIA, Université de Lorraine

Yann Liber - CentraleSupêlec

Patrick Mercier - CentraleSupêlec

Frédéric Pennerath - LORIA, CentraleSupêlec

Sébastien Van Luchene - CentraleSupêlec

Thérèse Pirrone - CentraleSupêlec

Fabienne Munier - CentraleSupêlec

Bruno Pinaud - LaBRI, Université de Bordeaux

Comité d’organisation de l’école ê-EGC

Claudia Marinica - ETIS, ENSEA / UCP / CNRS 8051

Malika Smail-Tabbone - LORIA, Université de Lorraine

Dimitris Kotzinos - ETIS, ENSEA / UCP / CNRS 8051

Responsable des ateliers

Alexandre Blanschê - LORIA, Université de Lorraine

Responsables de la session démonstrations

Adrien Guille - ERIC, Université de Lyon 2

Sabeur Aridhi - LORIA, Université de Lorraine

TABLE DES MATIÈRES

Conférences invitées

Combining learning and reasoning: new challenges for knowledge graphs

Frank van Harmelen

Foundations for Fair Algorithmic Decision Making

Krishna P. Gummadi

Software Heritage: que faire avec tout le code source du monde ?

Roberto Di Cosmo

Computational fact-checking: state of the art, challenges, and perspectives

Ioana Manolescu

Articles longs

Des réseaux de neurones pour prédire des distances interatomiques extraites d’une base de données ouverte de calculs en chimie quantique

Jules Leguy, Thomas Cauchy, Béatrice Duval, Benoit Da Mota

Découverte de motifs à la demande dans une base de données distribuée

Lamine Diop, Cheikh Talibouya Diop, Arnaud Giaeometti, Dominique Li, Arnaud Soulet

Sur l’intérêt de l’analyse de la dynamique des processus de classement. Un retour d’expériences pour la Q méthode.

Claire Gauzente, Pascale Kuntz, Aurélien Milliat, Yves Roy

Calcul d’une politique déterministe dans un MDP avec récompenses imprécises

Pegah Alizadeh, Aomar Osmani, Emiliano Traversi

Régler le processus d’exploration dans l’analyse relationnelle de concepts - Le cas de données hydroécologiques

Amirouche Ouzerdine, Agnès Braud, Xavier Dolques, Marianne Huchard, Florence Le Ber

Prédiction de liens dans les graphes de connaissances avec les concepts de plus proches voisins

Sébastien Ferré

Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD

Cédric Lopez, Métissa Mekaoui, Kevin Aubry, Jean Bort, Philippe Garnier

Une nouvelle approche pour la détection d’anomalies dans les flux de graphes hétérogènes

Abd Errahmane Kiouche, Karima Amrouehe, Hamida Seba, Sofiane Lagraa

Similarité par recouvrement de séquence pour la fouille de données séquentielles et textuelles

Pierre-François Marteau, Nicolas Béchet, Oussama Ahmia

Extraction de communautés ego-centrées par apprentissage supervisé d’espaces pré-topologiques

Gaétan Caillant, Guillaume Cleuziou, Nicolas Dugué

Utilité d’un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles.

Oussama Ahmia, Nicolas Béchet, Pierre-François Marteau, Alexandre Garel

Apprentissage fédératif pour la prédiction du churn : une évaluation

Sébastien Godard, Nicolas Voisine, Tanguy Urvoy, Vincent Lemaire

Découverte de sous-groupes à partir de données séquentielles par échantillonnage et optimisation locale

Romain Mathonat, Boulicaut Jean-François, Mehdi Kaytoue

Approximation du score CFOF de détection d’anomalie dans un arbre d’indexation iSAX : Application au contexte SI de la SNCF

Lucas Foulon, Christophe Rigotti, Serge Fenet, Denis Jouvin

Conception physique d’un entrepôt de données distribuées basée sur K-means équilibré

Yassine Ramdane, Omar Boussaid, Nadia Kabachi, Fadila Bentayeb

Detecting Overlapping Communities in Two-mode Data Networks using Formai Concept Analysis

Abir Messaoudi, Rokia Missaoui, Mohamed-Hamza Ibrahim

Quand les sous-groupes rencontrent les graduels : découverte de sous-groupes identifiant des corrélations exceptionnelles

Mohamed-Ali Hammal, Céline Robardet, Marc Plantevit

Une approche basée graphe pour la détection de zones fonctionnelles urbaines

Noudéhounéou Lionel Jaderne Houssou, Jean-Loup Guillaume, Armelle Prigent

Représentation condensée de règles d’association multidimensionnelles

Alexandre Bazin, Aurélie Bertaux, Christophe Nicolle

Articles courts

Extraction de composés phénoliques végétaux susceptibles de limiter les émissions de méthane chez les ruminants

Sylvie Guillaume, Didier Macheboeuf

Une méthodologie pour l’implémentation d’applications tierces intelligentes à destination des assistants vocaux via des bandits linéaires

Robin Allesiardo, Christophe Sauldubois, Fabrice Depaulis, Nicolas Bulteau, Frédéric Chantrel, Erwan Pigneul

Évaluation des améliorations de prédiction d’hospitalisation par l’ajout de connaissances métier aux dossiers médicaux

Raphaël Gazzotti, Catherine Faron Zucker, Fabien Gandan, Virginie Lacroix-Hugues, David Darmon

Accélération de k-means par pré-calcul dynamique d’agrégats

Nabil El Malki, Franck Ravat, Olivier Teste

Combiner analyse syntaxique de surface et apprentissage supervisé pour la fouille d’opinion ciblée : expérimentations sur des données d’opinion concernant les livres

Jeanne Villaneau, Stefania Pecare, Farida Saïd, Pierre-François Marteau

Recommandation séquentielle à base de séquences fréquentes

Corentin Lonjarret, Marc Plantevit, Celine Robardet, Roch Auburtin

Résistance au bruit et à la rareté de la détection d’anomalies par arbre de décision de systèmes physiques simulés

Nesrine Bannour, Anne J eannin-Girar don, Nicolas Lachiche, Etienne Schneider

Apprentissage et évaluation de plongements lexicaux sur un corpus SNCF en langue spécialisée

Nicolas Dugué, Nathalie Camelin, Luce Lefeuvre, Xining Li, Coralie Reutenauer, Cyndel Vaudapiviz

Application des Pattern Structures à la découverte de biclusters à changements de signes cohérents

Nyoman Juniarta, Miguel Couceiro, Amedeo Napoli

Entre factorisation de matrices et apprentissage profond pour la recommandation dans le domaine du pneumatique

Kilian Bourhis, Khalid Benabdeslem, Bruno Canitia

Identification de symboles dans des documents déstructurés

Jacques Péré-Laperne

Étude lexicographique de sous-graphes pour l’élaboration de modèles structures à activité - cas de la chimie organique

Nicolas Bloyet, Pierre-François Marteau, Emmanuel Frénod

Prédiction d’événements distants basée sur des règles séquentielles

Lina Fahed, Philippe Lenca, Yannis Haralambous, Riwal Lefort, Marie-Laure Tallec

Propagation d’événements dans un graphe économique

Jocelyn Bernard, Julien Goncalves, Hamamaehe Kheddouei

Construction et exploitation d’un corpus multilingue algérien pour l’analyse des opinions et des émotions

Leila Moudjari, Karima Akli-Astouati

L’exploitation des techniques de regression pour l’évaluation de la crédibilité des tweets

Hamda Slimi, Ibrahim Bounhas, Yahya Slimani

MCVGraphViz, un outil de visualisation de connaissance. Application à la visualisation dynamique d’interactions entre facteurs de risque cardiovasculaires

Rabia Azzi, Sylvie Despres, Jérôme Nobecourt

L’analyse sémantique des recommandations médicales en des règles SWRL

Samia Sbissi, Mahfoudh Mariem, Said Gatooufi

Du nombre maximum d’ensembles fermés en 3 dimensions

Alexandre Bazin, Laurent Beaudou, Giacomo Kuhn, Kaveh Khoshkhah

WorldSpread : un modèle de propagation de l’information entre populations

Didier Henry, Erick Stattner, Martine Collard

Posters

Améliorer la classification semi-supervisée à base de graphes

Dino Ienco, Ruggero G. Pensa

Étude comparative de Top

k

basée sur l’algorithme de Fagin en utilisant des métriques de corrélation dans la qualité de service de Cloud Computing

Kaoutar El Handri, Abdellah Idrissi

Maintenance prédictive d’hélicoptère à partir de données d’usage : Application à la boite de transmission principale

Nassia Daouayry, Pierre-Loic Maisonneuve, Ammar Mechouche, Vasile-Marian Scuturici, Jean-Marc Petit

Etude de l’opinion et de la confiance sur TripAdvisor.

Faiza Belbachir

Etude expérimentale de la classification interlingue pour la gestion de la relation client

Gil Francopoulo, Léon-Paul Schaub, Lynda Ould Younes

Deep Learning for Solar Irradiance Forecasting

Cristian Onose, Dumitru-Clementin Cercel, Florin Pop

Les cartes cognitives temporelles : modélisation et interrogation

Adrian Robert, David Genesi, Stéphane Loiseau, Thomas Raimbault, Brice Trouillet

Vers une décision Skyline intelligente

Sana Nadouri, Allel Hadjali, Zaidi Sahnoun

F

C

-S

WEEPER

: Extracting and Navigating within the top-k formai concepts

Amira Mouakher

Augmentation de données pour la classification de séries temporelles par réseaux de neurones profonds résiduels

Hassan Ismail Fawaz, Germain Forestier, Jonathan Weber, Lhassane Idoumghar, Pierre-Alain Muller

Vers une approche heuristique distribuée à base d’ontologie pour la fouille des règles d’association dans les données massives

Rania Mkhinini Gahar, Olfa Arfaoui, Minyar Sassi Hidri, Nejib Ben Hadj-Alouane

W

INECLOUD

: Une ontologie d’événements pour la modélisation sémantique des données de capteurs hétérogènes

Rami Belkaroui, Amira Mouakher, Aurélie Bertaux, Ouassila Labbani, Clémentine Hugol-Gential, Christophe Nicolle

La gestion des connaissances au cœur de la continuité numérique pour l’industrie 4.0 : Le cas du projet « SmartEmma »

Oussama Meski, Florent Laroche, Farouk Belkadi, Benoit Furet

Déjà publié à l’international

CRAFTML, une forêt aléatoire efficace pour l’apprentissage multi-label extrême

Wissam Siblini, Frank Meyer, Pascale Kuntz

Recherche de motifs pour l’étude critique de partitions musicales

Riyadh Benammar, Christine Largeron, Véronique Eglin, Mylène Pardoen

Les forêts d’arbres extrêmement aléatoires : utilisation dans un cadre non supervisé

Kevin Dalleau, Miguel Couceiro, Malika Smail-Tabbone

La simulation relaxée de graphes pour la recherche de motifs

Abdelmalek Habi, Brice Effantin, Hamamache Kheddouci

Représentations compactes des graphes et contraintes pseudo booléenne

Said Jabbour, Nizar Mhadhbi, Badran Raddaoui

Apprentissage non-supervisé relationnel dans l’espace des coordonnées barycentriques

Parisa Rastin, Basarab Matei, Guénaël Cabanes

Détection de changement dans les profils en ligne d’utilisateurs

Parisa Rastin, Basarab Matei, Guénaël Cabanes

Démonstrations

CK-Cartography : un système de cartographie pour l’identification et la caractérisa-tion des savoirs

Sahar Ghrab, Inès Saad, Gilles Kassel, Faiez Gargouri

A la recherche du quartier idéal

Nelly Barret, Fabien Duchateau, Franck Favetta, Maryvonne Miquel, Aurélien Gentil, Loïc Bonneval

WIB : un navigateur intégré pour Wikipédia destiné à l’évaluation participative de modèles de pertinence

Christophe Brouard, Jean-Pierre Chevallet, Téo Orthlieb, Habib Slim

Analyse de comportements relatifs exceptionnels expliquée par des textes : les votes du parlement européen

Charles de Lacombe, Antoine Morel, Adnene Belfodil, François Portet, Cyril Labbé, Sylvie Cazalens, Marc Plantevit, Philippe Lamarre

Dataforum : Faciliter l’échange, la découverte et la valorisation des données à l’aide de technologies sémantiques

Yoan Chabot, Patrick Grohan, Gilles Le Calvez, Christèle Tarnec

MMS Explore : un outil de visualisation interactive pour l’analyse qualité de flux données temporelles

Zied Ben Othmane, Cyril De Kunz, Amine Ait Younes, Vincent Mercelot

Index des auteurs

Programme de la conférence

Combining learning and reasoning: new challenges for knowledge graphs

Frank van Harmelen*

*Dpt of Computer Science, Vrije Universiteit Amsterdam, The Netherlands

[email protected],

https://www.cs.vu.nl/frank.van.harmelen/

Summary

The question on how to combine learning with reasoning is widely seen as one of the major challenges for AI. Knowledge Graphs are now well established as a formalism for knowledge representation and reasoning, with large scale adoptions in industry (Google search, Apple’s Siri, Amazon, Uber, Airbnb, BBC, Reuters, and many others). Besides their use for reasoning tasks, knowledge graphs have also shown promise as a formalism to combine reasoning with learning. They have been used as a source of labels for semi-supervised learning, machine learning has been used to generate knowledge graphs, using knowledge graphs can be used to construct post-hoc explanations for machine learning, to name just a few. Central questions in this talk will be : what is the progress that has been made on combining knowledge graphs with machine learning to date, and what are the promises and challenges in both the near and the long term ?

Foundations for Fair Algorithmic Decision Making

Krishna P. Gummadi*

*Max Planck Institute for Software Systems (MPI-SWS), Allemagne

[email protected],

https://people.mpi-sws.org/gummadi/

Summary

Algorithmic (data-driven learning-based) decision making is increasingly being used to assist or replace human decision making in a variety of domains ranging from banking (rating user credit) and recruiting (ranking applicants) to judiciary (profiling criminals) and journalism (recommending news-stories). Recently concerns have been raised about the potential for discrimination and unfairness in such algorithmic decisions. Against this background, in this talk, I will discuss the following foundational questions about algorithmic unfairness :

How do algorithms learn to make unfair decisions?

How can we quantify (measure) unfairness in algorithmic decision making ?

How can we control (mitigate) algorithmic unfairness ? i.e., how can we re-design learning mechanisms to avoid unfair decision making ?

Software Heritage: que faire avec tout le code source du monde?

Roberto Di Cosmo*

*Laboratoire IRIF, université Paris-Diderot, 75205 Paris CEDEX 13

[email protected],

www.dicosmo.org

Summary

Software Heritage est une initiative à but non lucratif dont l’objectif ambitieux est de collecter, préserver et partager le code source de tous les logiciels jamais écrits, avec leur historique de développement complet, en construisant une base de connaissances logicielle universelle. Software Heritage répond à une variété de besoins : préserver nos connaissances scientifiques et technologiques, améliorer le développement et la réutilisation des logiciels pour la société et l’industrie, favoriser la science ouverte et construire une infrastructure essentielle pour des études logicielles reproductibles à grande échelle. Nous avons déjà collecté plus de 4 milliards de fichiers sources uniques provenant de plus de 80 millions d’origines. Manipuler ce gigantesque ensemble de données est une mission complexe et nécessite de nouvelles approches pour stocker et requêter l’information d’une manière compatible avec la croissance explosive du développement logiciel collaboratif. Dans cette conférence, nous explorons quelques uns des nouveaux défis et opportunités que présente Software Heritage.

Computational fact-checking: state of the art, challenges, and perspectives

Ioana Manolescu*

*Laboratoire d’Informatique (LIX), École Polytechnique, Palaiseau, France

[email protected],

http://pages.saclay.inria.fr/ioana.manolescu/

Summary

The tremendous value of Big Data has been noticed of late also by the media, and the term “data journalism” has been coined to refer to journalistic work inspired by digital data sources. A particularly popular and active area of data journalism is concerned with fact-checking. The term was born in the journalist community and referred to the process of verifying and ensuring the accuracy of published media content ; more recently, its meaning has shifted to the analysis of politics, economy, science, and news content shared in any form, but first and foremost on the Web. A very lively area of digital content management research has taken up these problems and works to propose foundations (models), algorithms, and implement them through concrete tools. In my talk, I will show why I believe the data and knowledge management communities should get involved, cast computational fact-checking as a content management problem, present some of the research results attained in this area, and point out areas where more work is needed. This talk is mostly based on research carried within the ANR ContentCheck project (http://contentcheck.inria.fr)

Des réseaux de neurones pour prédire des distances interatomiques extraites d’une base de données ouverte de calculs en chimie quantique

Jules Leguy*, Thomas Cauchy**, Béatrice Duval*, Benoit Da Mota*

*Laboratoire LERIA, Université d’Angers, 2 bd Lavoisier, 49045 Angers, France

{beatrice.duval, benoit.damota}@univ-angers.fr

**Laboratoire MOLTECH-Anjou, Université d’Angers, CNRS UMR 6200,

2 bd Lavoisier, 49045 Angers, France

[email protected]

Résumé. Le calcul de la géométrie de l’état fondamental d’une molécule est le point de départ de l’immense majorité des travaux en chimie quantique moléculaire. La base de données ouverte PubChemQC met à disposition les résultats de calculs des états fondamentaux pour plus de trois millions de molécules. Nous avons extrait les géométries convergées afin d’entraîner des modèles d’apprentissage automatique. Prédire la géométrie complète serait une avancée remarquable. Nos premiers résultats suggèrent qu’il est difficile d’entraîner un réseau de neurones sur cette tâche complexe. Par contre, nous démontrons qu’un réseau de neurones est capable de prédire précisément une distance entre deux atomes. L’objet d’étude de ce travail est la distance la plus complexe en chimie organique, la distance carbone-carbone. Les meilleurs résultats sont obtenus en limitant la quantité d’information grâce à une distance seuil autour de chaque carbone.

1 Introduction

La chimie moléculaire se définit comme l’étude d’entités discrètes (appelées molécules) et correspond à la communauté la plus large de chimistes. Des centaines de millions de molécules sont connues, contenant généralement moins d’une centaine d’atomes et moins d’un millier d’électrons. Les propriétés chimiques de ces molécules dépendent des positions des noyaux et des électrons qui peuvent être calculées de manière approchée par des méthodes issues de la mécanique quantique. Avec la démocratisation de la puissance de calcul, la chimie informatique est devenue une partie essentielle de la recherche en chimie moléculaire. Mais, selon les différents paramètres utilisés, ces calculs peuvent durer de quelques heures à quelques milliers d’heures par molécule. L’apprentissage automatique et plus généralement l’intelligence artificielle appliquée à des données de chimie moléculaire promet de révolutionner la chimie dans un futur proche (Schneider, 2018; Tabor et al., 2018). Avec la récente abondance de données en chimie quantique moléculaire, de nombreux travaux ont vu le jour à un rythme accru depuis 2017. Les modèles employés sont majoritairement de deux types : les réseaux de neurones (Schütt et al., 2017, 2018; Gubaev et al., 2018; Hy et al., 2018; Sinitskiy et Pande, 2018) et les méthodes à noyaux de type Support Vector Machine (SVM) ou Gaussian Process Regressions (GPR) (Nakata et Shimazaki, 2017; Bartók et al., 2017; Musil et al., 2018). Aujourd’hui, les travaux se concentrent sur la prédiction de valeurs finales, au sens où si l’énergie totale de la molécule est l’objet d’étude, alors un modèle prédisant cette énergie est entraîné. La plupart des travaux présentent des résultats prometteurs, mais travaillent sur des jeux de données très restrictifs en termes de taille et de variété de molécules ; principalement le jeu de données QM9 avec 1 million de couples géométrie/énergie sur seulement 7165 molécules contenant au maximum 23 atomes.

Les propriétés moléculaires les plus étudiées en chimie quantique concernent la réactivité d’une molécule (localisation des électrons les plus énergétiques, etc.) ou ses propriétés d’absorption et d’émission de lumière visible qui dépendent des états excités de la molécule. Dans tous ces cas, une description précise de l’état fondamental est nécessaire. Cela signifie connaître la position d’équilibre des noyaux, ce que l’on appelle la géométrie convergée de l’état fondamental, et connaître les fonctions d’onde des électrons. Ainsi prédire la géométrie complète à partir d’une méthode d’apprentissage automatique serait une importante avancée, permettant notamment d’économiser beaucoup de temps de calculs et permettant à terme d’accélérer et guider le criblage de nouvelles molécules. Un point crucial pour l’apprentissage automatique est la disponibilité de données homogènes ou tout du moins comparables. Or, les calculs en chimie quantique sont toujours des méthodes approchées car la résolution analytique de l’équation de Schrödinger n’est pas possible pour des systèmes contenant plusieurs électrons. Ne sont donc comparables que des calculs effectués avec les mêmes approximations de calculs (sur l’opérateur mathématique ou sur les fonctions d’onde électronique). Des bases de données de calculs homogènes sont très rares en chimie moléculaire. Il existe des bases de données expérimentales de tailles importantes dont la plus conséquente est le projet PubChem contenant plus de 96 millions de molécules (Wang et al., 2009). Il existe aussi au moins cinq bases de données théoriques pour des systèmes de la chimie des solides (comme NoMaD par exemple), mais leurs méthodes de calcul sont malheureusement radicalement différentes et assez incompatibles avec la chimie moléculaire (fonctions mathématiques localisées contre fonctions mathématiques périodiques). À l’échelle moléculaire, depuis 2013 le projet “Clean Energy” d’Harvard contient plus de 2 millions de molécules calculées afin d’en estimer leurs potentiels comme matériau photovoltaïque (https://cepdb.molecularspace.org/). Malheureusement, les données des calculs ne sont pas disponibles et ces calculs auraient aussi pu servir à bien d’autres applications. Finalement, une base de données de calculs en chimie moléculaire, PubChemQC (Nakata et Shimazaki, 2017), a été construite par un laboratoire japonais. Elle avait pour objectif ambitieux de calculer avec des paramètres constants tous les composés de la base PubChem. Le projet est au point mort après 3,5 millions de composés calculés, mais il s’agit de la source de données primaires, libre d’accès, la plus homogène et la plus large en chimie moléculaire. Elle est beaucoup plus représentative de l’espace moléculaire que le jeu de données QM9. Nous avons donc utilisé cette source pour l’apprentissage de nos modèles.

2 Préliminaires

Notre objectif à terme est de pouvoir se passer du calcul de mécanique quantique ou tout du moins de prédire un bon point de départ pour l’accélérer de façon substantielle. Le premier problème qu’il faut résoudre est donc de prédire précisément la position des atomes (section 3), problème qui peut être décomposé en la prédiction de la longueur d’une liaison covalente (section 4) et d’angles. Cette longueur de liaison covalente entre deux atomes est un équilibre entre la répulsion des noyaux de charge positive, la répulsion entre les électrons de charge négative et l’attraction entre les électrons et les noyaux. Ainsi la distance d’équilibre dépend de la nature des atomes (carbone, hydrogène, oxygène...) participant à la liaison, mais est également influencée par les atomes au voisinage de la liaison car ils peuvent par exemple attirer à eux une partie des électrons et donc modifier l’équilibre de la liaison. L’influence des atomes du voisinage peut être plus ou moins forte selon leurs positions relativesà la liaison.

Les calculs dont les résultats sont disponibles sur la base PubChemQC (Nakata et Shimazaki, 2017) ont été réalisés à l’aide du logiciel de chimie quantique GAMESS avec comme paramètres la fonctionnelle B3LYP (approximation sur l’opérateur hamiltonien), l’ensemble de fonctions de base 6-31G* (approximation sur les fonctions monoélectroniques), le tout en closed shell et phase gazeuse. Nous avons récupéré pour cette étude la géométrie issue de l’optimisation de l’état fondamental. Ce sont ces données qui serviront de cibles à nos modèles prédictifs. Nous avons effectué un premier filtre grossier afin d’enlever les molécules vides ou contenant un unique atome. Afin de limiter la taille des entrées de nos modèles, nous avons fixé une taille maximale de 60 atomes (bien supérieure aux 23 atomes du jeu de données QM9), ce qui permet de garder la quasi-totalité des molécules de cette base. Nos travaux préliminaires de curation manuelle des données nous permettent d’affirmer qu’une partie de ces calculs sont faux, au sens où il n’arrivent pas à optimiser l’état fondamental de la molécule initialement demandée. Il s’agit de calculs qui ont convergé vers une autre molécule par une modification de certaines fonctions chimiques ou en plusieurs autres molécules par une dissociation. Nous considérons dans un premier temps que ces données sont valorisables en terme d’apprentissage. Cette hypothèse ne peut pas être vérifiée actuellement faute de procédure automatique de nettoyage de la base de données, qui aurait permis de comparer les performances de nos modèles avec ou sans ces calculs.

Afin d’évaluer la qualité des prédictions lors de l’entraînement et pour guider les modèles lors de la procédure d’optimisation des poids, nous utilisons l’erreur quadratique moyenne (Root-Mean-Square Error ou RMSE). Pour yˆ i la valeur prédite pour la variable yi pour un exemple i, le RMSE de N prédictions se définit comme suit :

Lors de la prédiction d’une géométrie complète, nous adaptons cette fonction afin de prendre en compte la prédiction d’un vecteur de distances restreint aux sorties correspondant à des atomes en entrée. En effet, le nombre d’atomes variant d’une molécule à une autre, il faut masquer le vecteur de sortie. Pour yˆ i,j la valeur prédite pour la variable yi,j pour l’atome j d’une molécule i possédant Ai atomes, le PRMSE de N prédictions se définit comme suit :

Sans le masquage du PRMSE, le modèle apprendrait surtout à prédire des valeurs nulles pour les sorties ne correspondant pas à des atomes en entrée, ce qui constitue une tâche très simple et éloignée de nos objectifs.

L’ensemble de nos traitements ont été réalisés en Python à l’aide des bibliothèques TensorFlow et Scikit-Learn.

3 Prédiction de la géométrie complète

3.1 Données et modèles

Représentation géométrique. Un modèle naïf consisterait à utiliser en entrée une matrice des distances interatomiques, ce qui a été utilisé avec succès par (Schütt et al., 2017) pour prédire l’énergie totale d’une molécule. Les distances relatives ont comme bonne propriété d’être indépendantes d’un repère absolu. Au-delà de quelques atomes cette représentation ne peut pas passer à l’échelle. Il est alors possible de penser à utiliser la trilatération afin de reconstruire des coordonnées avec les distances prédites à partir de 4 distances relatives. En pratique, l’accumulation d’imprécisions rend la reconstruction impossible. Nous avons finalement choisi de représenter nos positions atomiques par des distances à4 points fixes d’un repère orthonormé. La promesse de l’apprentissage profond étant de pouvoir se passer d’ingénierie des descripteurs, nous fournissons des descripteurs géométriques simples et laissons à la charge du réseau de neurones la projection dans un espace adapté de variables latentes.

Paramètres

Valeurs

Taux d’apprentissage (learning rate)

0,1 ; 0,0001 ; 0,00001

Dégradation des coefficients (weight decay)

0,001 ; 0,01 ; 0,1

Epsilon (Adam optimizer)

0,0001 ; 1000

Initialisation des poids

0,002 ; 0,2

Fonction d’activation de la couche de sortie

linéaire

Taille de lot (batch size)

500 ; 2000

Époques d’entraînement

3

Fonction d’activation des couches cachées

elu, crelu

Largeur des couches cachées

360

Nombre de couches cachées

3; 7

Taux de désactivation (dropout)

0,03 ; 0,07

TAB. 1 – Grille des paramètres pour la recherche par quadrillage pour le modèle tentant de prédire la géométrie complète d’une molécule.

Modèles. En plus des données géométriques, nous fournissons aux modèles des informations concernant la nature de chaque atome, ie. la masse et le numéro atomique, soit six descripteurs par atome. Les modèles prédictifs possédant une entrée de taille fixe et les molécules une taille variable (nombre d’atomes), nous adaptons la représentation des molécules en prévoyant une couche d’entrée capable de supporter des molécules jusqu’à 60 atomes. Lorsqu’une molécule est de taille inférieure à la taille maximale, les caractéristiques des atomes non définis sont fixées à zéro (padding). De même, l’évaluation du modèle est réalisée à l’aide du PRMSE. Les modèles testés sont tous des réseaux de neurones possédant des architectures simples. Ils sont composés d’une couche d’entrée (360 neurones), d’une couche de sortie (240 neurones) et d’un certain nombre de couches internes de taille fixe (360 neurones) et entièrement connectées, c’est à dire que chaque neurone d’une couche est connecté à tous les neurones de la couche suivante. Le nombre de couches varie en fonction des modèles (cf.table 1). Nous avons pris quelques précautions afin d’éviter le sur-apprentissage de nos modèles, notamment avec le taux de désactivation aléatoire des neurones (dropout) et la dégradation des coefficients (weight decay). Le temps d’exécution de l’entraînement d’un modèle limite grandement la possibilité d’entraîner des modèles avec des jeux de paramètres variés et un nombre élevé de validations croisées. Il faut donc effectuer un compromis entre la quantité de modèles différents à entraîner, le nombre d’entraînements de chacun de ces modèles et le nombre d’époques. Nous avons effectué une recherche par quadrillage (cf.table 1) décrivant les paramètres de 576 modèles différents avec une validation croisée à deux échantillons (2-fold CV), soit un total de 1152 entraînements. Puis le même jeu de paramètres a été utilisé afin d’entraîner le modèle sur l’ensemble des données d’entraînement (90 % du jeu de données original) en augmentant le nombre d’époques à 5. Les résultats que nous présentons sont les performances réalisées sur des données mises de côté avant l’entraînement, soit 10 % du jeu de données.

3.2 Résultats

À l’issue de la recherche, en dehors de quelques modèles encore moins performants, les performances sont très similaires. Les meilleurs modèles travaillant sur des données ayant un bruit de PRMSE de 17,31 pm effectuent des prédictions de PRMSE à 10,45 pm (cf.table 2). Cela revient à réduire l’erreur à environ 60 % de sa valeur initiale, et donc à prédire 40 % du bruit. Il s’agit d’un gain qui pourrait être non négligeable, même si ce n’est pas réellement utilisable pour optimiser la géométrie des molécules. Toutefois, l’analyse détaillée révèle un comportement inattendu du modèle et remet en cause la nature du bruit introduit.

 

cibles

prédictions

|erreurs|

Moyenne

-0,82

-0,23

13,83

Médiane

-0,82

-0,13

11,69

Écart-type

17,31

10,45

10,45

Minimum

-94,80

-9,57

0,00

Maximum

97,24

1,23

97,80

TAB. 2 – Analyse statistique des valeurs cibles (Δ de distance engendré par le bruit), des prédictions (Δ de distance prédit) et des erreurs absolues en prédiction (en pm).

FIG. 1 – Prédictions en fonction des cibles pour le modèle prédisant une géométrie complète. À droite, le zoom permet d’observer des prédictions discrètes avec un nombre fini de valeurs.

En effet, l’analyse statistique des données bruitées révèle qu’ajouter le bruit sur les co-ordonnées plutôt que sur les distances a plus éloigné les atomes de l’origine du repère en moyenne (0.82 pm, cf.table 2). Les prédictions de notre modèle s’étendent entre -9,6 pm et 1,2 pm, alors qu’elles devraient s’étendre entre -94,8 pm et 97,2 pm. Le modèle n’arrive donc pas à suffisamment déplacer les atomes pour obtenir les géométries convergées. Pire, il semble tout juste capable de prédire une partie du biais de déplacement en prédisant en moyenne -0.23 pm avec très peu de dispersion. Cet effet est d’autant plus flagrant sur la figure 1. Il est possible de remarquer aussi que le modèle, malgré un très grand nombre de paramètres, prédit un faible nombre de valeurs discrètes. Le modèle apprend très peu, voire n’apprend rien en terme de chimie. Nous avons essayé d’introduire un bruit plus faible ou de l’introduire directement sur les distances, mais nous avons obtenu des résultats similaires. Cette expérience, montre la complexité du problème à résoudre, cependant la tâche ne nous semble pas impossible et nous donnerons quelques pistes à la fin de cet article.

Classe pos.

Distances

Masse atomique

Numéro attomique

g

c

d

 

 

H

He

Li

Be

B

C

N

O

F

1

0

0

dC1,1 dC1,2

14,007

0

0

0

0

0

0

1

0

0

0

0

1

dC1,2 dC2,2

15,999

0

0

0

0

0

0

0

1

0

...

...

...

...

...

...

...

...

...

...

...

...

...

...

0

0

0

0

0

0

0

0

0

0

0

0

0

0

TAB. 3 – Représentation des données d’une liaison en entrée des modèles tentant de prédire des distances carbone-carbone. Pour un atome k du voisinage de la liaison, la distance au premier (resp. second) atome de carbone est notée dC1,k(resp. dC2,k).

4 Prédiction d’une distance particulière

Les modèles décrits dans cette section ont pour objectif de prédire la distance entre des atomes partageant une liaison covalente au sein d’une molécule. L’objectif n’est donc plus de résoudre le problème de prédiction d’une géométrie moléculaire convergée complète, mais plutôt d’en résoudre une version locale simplifiée.

4.1 Données et modèles

Problème et données. La liaison carbone-carbone est la liaison chimique la plus complexe de la chimie organique. Nous en avons extrait 6,5 millions de la base PubChemQC, dont 80 % servent à l’entraînement de nos modèles et 20 % à la validation. La représentation de la distribution de cette distance dans notre jeu de données montre une dispersion importante, entre 115 et 160 pm, avec une forte prédominance de liaisons entre 150 et 155 pm (dite simple liaison) et autour de 140 pm (dite double liaison). On retrouve toutefois un certain nombre de triple liaisons vers 120 pm et des liaisons intermédiaires entre ces trois représentations limites (voir graphique en bas à droite de la figure 2). Une précision en dessous du picomètre permettrait de considérer une géométrie prédite comme fiable.

Représentation géométrique. La longueur d’une liaison covalente entre deux atomes dépend du type des atomes formant la liaison, mais également de l’influence des atomes au voisinage de la liaison. L’influence des atomes du voisinage dépend de leur position relative à la liaison. C’est pour cette raison qu’en plus des distances, nous introduisons la notion de classe positionnelle qui va représenter de quel côté de la liaison chaque atome se trouve. Les atomes peuvent donc être « à gauche », « au centre » ou « à droite » de la liaison. Formellement, on compare la position des atomes aux deux plans normaux à la liaison et passant par les atomes de la liaison. Si un atome est entre les deux plans, il est de classe « centre », sinon il est de classe « gauche » ou « droite » en fonction du plan dont il est le plus proche. Puisque l’on se place dans le repère relatif de la liaison et qu’il n’y existe pas de notion absolue de gauche ou de droite, ces deux classes sont interchangeablesà condition que les atomes appartenant à une classe soient tous à distance minimale du même plan.

Horizon. L’influence des atomes au voisinage étant inversement proportionnelle à leur distance aux atomes de la liaison, elle décroît rapidement lorsque ils s’en s’éloignent. Donc, l’influence des atomes qui ne sont pas au voisinage direct peut être considérée comme négligeable. Dans le but de tester cette hypothèse et de simplifier la tâche à notre modèle, dit « avec horizon », nous avons choisi d’implémenter un seuil au-delà duquel les voisins ne sont plus considérés. En pratique, ce seuil a été choisi pour correspondre à une réalité chimique : garder uniquement les distances pouvant correspondre à des liaisons covalentes proches de la liaison carbone-carbone étudiée, soit 200 pm.

Paramètres

Valeurs

Taux d’apprentissage (learning rate)

0,01

Dégradation des coefficients (weight decay)

0,001

Epsilon (Adam optimizer)

0,001

Initialisation des poids

0,001

Fonction d’activation de la couche de sortie

linéaire

Taille de lot (batch size)

10000

Époques d’entraînement

300

Fonction d’activation des couches cachées

elu

Largeur des couches cachées

870

Nombre de couches cachées

3

Taux de désactivation (dropout)

0,02

TAB. 4 – Paramètres des modèles tentant de prédire des distances carbone-carbone.

Modèles. En plus des informations géométriques, nous ajoutons la masse et le numéro atomique de chaque atome au voisinage de la liaison. Le numéro atomique est encodé de façon booléenne (one-hot encoding). Cela a pour but de ne pas instaurer de relation d’ordre entre les différents atomes et donc a priori de mieux guider les modèles lors de l’apprentissage. Cela implique toutefois de déterminer une limite aux numéros atomiques des atomes acceptés par un modèle. En effet, cet encodage coûte un attribut pour chaque numéro atomique accepté et cela pour chaque atome au voisinage de la liaison. Afin de travailler sur des modèles de taille raisonnable, nous acceptons les atomes de numéro atomique inférieur ou égal à celui du fluor, ce qui correspond à9 attributs encodant le numéro atomique pour chaque atome du voisinage. La classe positionnelle de chaque atome par rapport à la liaison est également représentée en one-hot encoding. Ainsi, il faut 15 attributs par atome dans le voisinage. La grande majorité des molécules de notre jeu de données étant de taille inférieure à 60 et les deux atomes composant la liaison n’apparaissant pas dans les entrées, nous choisissons de limiter le voisinage de la liaison à 58 atomes, soit une couche d’entrée de taille 870. Les molécules possédant un nombre variable d’atomes et l’entrée des modèles étant de taille fixe, nous effectuons une procédure de padding des données : lorsqu’une liaison possède moins de 58 voisins, les blocs correspondant aux atomes non définis valent zéro. La table 3 illustre les entrées de nos modèles. Ceux-ci possèdent 3 couches cachées entièrement connectées de largeur 870 et un unique neurone de sortie dont l’objectif est de prédire la distance entre les deux atomes de carbone. Nous avons pris quelques précautions afin d’éviter le sur-apprentissage de nos modèles, notamment avec le taux de désactivation aléatoire des neurones (dropout) et la dégradation des coefficients (weight decay) (cf.table 4). Les résultats que nous présentons sont les performances réalisées sur des données mises de côté avant l’entraînement, soit 20 % du jeu de données.

FIG. 2 – Analyse graphique du modèle tentant de prédire des distances carbone-carbone sans horizon. À gauche, l’histogramme de distribution des erreurs. Au centre, l’histogramme de distribution des erreurs en échelle logarithmique. En haut à droite, le tracé des distances prédites (en ordonnée) en fonction des distances cibles (en abscisse) à mettre en relation avec l’histogramme de distribution des distances cibles en bas à droite.

4.2 Résultats

Le tableau 5 fournit les résultats de l’analyse statistique des erreurs de prédiction des modèles. Les deux modèles obtiennent des performances très satisfaisantes qui permettent d’envisager leur utilisation en pratique. La restriction au plus proche voisinage améliore significativement les performances sur notre jeu de données. Les analyses graphiques des erreurs et des prédictions (figure 2 et 3) des modèles prédisant les longueurs de liaisons entre des atomes de carbone font nettement apparaître la diminution des erreurs importantes. Malgré la quantité de données disponibles, l’espace réel présente une concentration importante sur deux types de distances. Le modèle sans horizon a tendance à ramener, entre autres, les liaisons très courtes (< 130 pm) vers 140 pm. Avec le seuil de 200 pm, une meilleure continuité des prédictions entre les différents types de liaisons apparaît. Soit le modèle sans horizon, plus complexe, ne dispose pas d’assez d’exemples pour bien prédire les distances ayant un faible effectif, soit il n’a pas encore convergé. En ajoutant l’horizon, le modèle est plus simple et possède suffisamment d’exemples pour converger rapidement vers une meilleure solution.

Métrique

Sans horizon

Avec horizon

Moyenne

0,833

0,342

Médiane

0,460

0.267

Écart-type

1,207

0,337

Minimum

0,000

0,000

Maximum

30,114

26,217

Erreur relative moyenne

0,006

0,002

TAB. 5 – Analyse statistique des erreurs des modèles tentant de prédire des distances carbonecarbone (en pm).

FIG. 3 – Analyse graphique du modèle tentant de prédire des distances carbone-carbone avec horizon. À gauche, l’histogramme de distribution des erreurs. Au centre, l’histogramme de distribution des erreurs en échelle logarithmique. En haut à droite, le tracé des distances prédites (en ordonnée) en fonction des distances cibles (en abscisse) à mettre en relation avec l’histogramme de distribution des distances cibles en bas à droite.

5 Conclusion et perspectives

Nous avons réalisée une tentative ambitieuse en essayant de prédire la géométrie complète de molécules à partir d’une base de données (PubChemQC) large, diversifiée et imparfaite. La tâche que nous avons tentée d’accomplir avec ces modèles est théoriquement possible, cependant l’approche directe, la plus simple, est particulièrement inefficace. Le fait que le modèle effectue des prédictions constantes et l’impossibilité de produire de meilleurs résultats à l’issue de la recherche par quadrillage ont mené à l’abandon de la méthode pour prédire des géométries moléculaires convergées, au profit d’une méthode plus locale. Toutefois, nous pouvons essayer d’en tirer quelques explications et de nouvelles pistes. Premièrement, les modèles que nous avons entraînés sont des modèles aux architectures relativement simples, avec un nombre de neurones et de connexions limité par les capacités matérielles actuelles. Des architectures plus complexes auraient pu mener à de meilleures performances pour les mêmes données. Un autre écueil pourrait être le manque de données. Même si nous travaillons sur un jeu de données conséquent, il s’agit peut-être d’une quantité insuffisante pour une tâche aussi complexe. Il est également possible que le problème soit lié à notre méthodologie et notamment à l’ajout du bruit sur les données à prédire. Enfin, il est probable, et c’est cette piste de travail que nous souhaitons privilégier pour la suite, qu’il nous manque les bons descripteurs des molécules en entrée des modèles. En effet, les travaux récents mêlant chimie moléculaire et apprentissage obtiennent des résultats très convaincants en utilisant des filtres de convolution reflétant les lois fondamentales de la physique et ayant les propriétés recherchées pour ce type d’application : invariance à l’indexation et à la translation/rotation des atomes (Schütt et al., 2018). La même logique a été déclinée pour l’utilisation de méthodes à noyaux (Bartók et al., 2017; Musil et al., 2018). Les travaux de Sinitskiy et Pande (2018) utilisent une représentation discrétisée dans l’espace (volume 3D) et entraînent des réseaux de neurones convolutifs. Il faut tout de même noter que des distances interatomiques ont été utilisées avec succès par Schütt et al. (2017) afin de prédire l’énergie totale d’une molécule en fonction de sa géométrie. Nous avons donc choisi dans un premier temps d’étudier un sous-problème plus simple.

Les modèles tentant de prédire la distance carbone-carbone travaillent sur des données parfaites, c’est à dire qu’il prédisent des longueurs de liaisons dans des molécules dont la géométrie a déjà été optimisée. Cela nous permet de confirmer notre capacité à effectuer des prédictions d’ordre géométrique en utilisant des distances interatomiques. Afin de prédire avec une haute précision l’immense majorité des distances de la base de données, de la connaissance métier a été introduite dans le modèle d’apprentissage par le biais d’un seuil. Ce seuil permet de mieux discriminer l’environnement proche ayant un fort impact sur la distance calculée. Cette information, relativement simple, limite aussi la taille des données à fournir au modèle. Nous avons également entraîné des modèles sur des liaisons plus simples comme la liaison carbone-hydrogène et la liaison oxygène-hydrogène et les performances sont du même ordre de grandeur. En complément, nous avons testé des modèles de type support vector machine (SVM) et Kernel Ridge Regression (KRR) sans obtenir de résultats aussi convaincants. Au final, seule une dizaine de cas sur plusieurs millions d’exemples semble poser des problèmes. Une application inattendue de notre modèle est la mise en évidence d’un défaut de curage de la PubChemQC avec des résultats ayant mal été calculés Ainsi notre modèle a été capable de s’entraîner sur des données imparfaites sans sur-apprendre et sa capacité en généralisation permet de mettre en exergue une partie des données de mauvaise qualité dans les données d’origine. Notre modèle peut donc être utilisé afin de vérifier qu’une molécule ne possède pas une longueur de liaison carbone-carbone aberrante ou au contraire, mettre en avant les situations exceptionnelles, importantes en réactivité chimique. Cette piste nous intéresse particulièrement dans le cadre du projet QuChemPedIA, dont un des volets vise à fournir une base de données libre, collaborative et nettoyée pour la chimie quantique moléculaire. La suite de ce travail sur les modèles localisés serait de constituer une procédure itérative combinant différents modèles (réseaux de neurones et modèles à noyaux) et d’ajouter la notion d’angles.

Remerciements

Ce travail a été financé par un projet d’amorçage de la commission de la recherche de l’Université d’Angers (QuChemPedIA). Les moyens de calcul ont été mis à disposition par le laboratoire LERIA, mercià Jean-Mathieu Chantrein pour son aide.

Références

Bartók, A. P., S. De, C. Poelking, N. Bernstein, J. R. Kermode, G. Csányi, et M. Ceriotti (2017). Machine learning unifies the modeling of materials and molecules. Science Advances 3(12), e1701816.

Gubaev, K., E. V. Podryabinkin, et A. V. Shapeev (2018). Machine learning of molecular properties : Locality and active learning. The Journal of Chemical Physics 148(24), 241727.

Hy, T. S., S. Trivedi, H. Pan, B. M. Anderson, et R. Kondor (2018). Predicting molecular properties with covariant compositional networks. The Journal of Chemical Physics 148(24), 241745.

Musil, F., S. De, J. Yang, J. E. Campbell, G. M. Day, et M. Ceriotti (2018). Machine learning for the structure–energy–property landscapes of molecular crystals. Chemical Science 9(5), 1289–1300.

Nakata, M. et T. Shimazaki (2017). PubChemQC Project : A Large-Scale First-Principles Electronic Structure Database for Data-Driven Chemistry. Journal of Chemical Information and Modeling 57(6), 1300–1308.

Schneider, G. (2018). Generative Models for Artificially-intelligent Molecular Design. Molecular Informatics 37(1-2), 1880131.

Schütt, K. T., F. Arbabzadah, S. Chmiela, K. R. Müller, et A. Tkatchenko (2017). Quantumchemical insights from deep tensor neural networks. Nature Communications 8, 13890.

Schütt, K. T., H. E. Sauceda, P.-J. Kindermans, A. Tkatchenko, et K.-R. Müller (2018). SchNet – A deep learning architecture for molecules and materials. The Journal of Chemical Physics 148(24), 241722.

Sinitskiy, A. V. et V. S. Pande (2018). Deep Neural Network Computes Electron Densities and Energies of a Large Set of Organic Molecules Faster than Density Functional Theory (DFT). arXiv :1809.02723 [physics]. arXiv: 1809.02723.

Tabor, D. P., L. M. Roch, S. K. Saikin, C. Kreisbeck, D. Sheberla, J. H. Montoya, S. Dwaraknath, M. Aykol, C. Ortiz, H. Tribukait, C. Amador-Bedolla, C. J. Brabec, B. Maruyama, K. A. Persson, et A. Aspuru-Guzik (2018). Accelerating the discovery of materials for clean energy in the era of smart automation. Nature Reviews Materials 3(5), 5–20.