Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
La sélection d'articles publiés dans le présent recueil constitue les actes de la 19e édition de la conférence francophone Extraction et Gestion des Connaissances (EGC 2019) qui s'est déroulée à Metz du 21 au 25 janvier 2019 sur le Campus de CentraleSupélec. L'objectif de ces journées scientifique est de rassembler des chercheurs de disciplines connexes (Bases de Données, Statistiques, Apprentissage, Représentation des Connaissances, Gestion des Connaissances et Fouille de Données) et les ingénieurs qui mettent en oeuvre sur des données réelles des méthodes d'extraction et de gestion des connaissances. Cette conférence est un évènement majeur fédérateur de la communauté francophone en Extraction et Gestion des Connaissances et regroupe des chercheurs de plusieurs pays (notamment France, Belgique, Luxembourg, Canada, Afrique du Nord). Le programme de la conférence comprend aussi des présentations de chercheurs invités reconnus mondialement pour leurs travaux. Les communications rassemblées dans ce volume traduisent à la fois le caractère multidisciplinaire des travaux de recherche présentés, la richesse des applications sous-jacentes et la vitalité des innovations issues de l'extraction et de la gestion des connaissances.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 992
Veröffentlichungsjahr: 2019
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Très chers lecteurs et lectrices,
La collection RNTI s’étoffe d’année en année. Vos publications RNTI sont disponibles en ligne mais également en diffusion de livres classiques ou numériques auprès des grands libraires et distributeurs.
La collection RNTI a maintenant pris sa place dans l’édition scientifique francophone. Elle s’impose dans le paysage éditorial scientifique puisque tout son contenu est référencé dans les banques de données bibliographiques et notamment DBLP. La communauté scientifique, notamment francophone, la considère comme l’une des publications de référence du domaine. Le nombre de pages publiées chaque année est d’environ 1000, représentant des articles sélectionnés sur la base d’une évaluation rigoureuse selon les normes internationales. Le taux de sélection, autour de 30%, la place parmi les publications les plus exigeantes. Les publications de RNTI se font toutes selon la même charte éditoriale respectant les standards internationaux en matière de transparence et de qualité.
Nous tenons encore une fois à exprimer toute notre gratitude aux auteurs, aux rédacteurs invités et à tous nos collègues qui nous ont fait l’honneur de proposer des articles ou des numéros spéciaux.
Nous continuons à faire paraître des numéros dans les thèmes liés à l’Extraction de connaissances à partir des données, à la Fouille de données et à la Gestion des connaissances, mais nous ouvrons l’espace RNTI plus largement à d’autres domaines de l’Informatique, toujours avec les mêmes niveaux d’exigence sur les numéros publiés. Nous vous invitons à nous proposer des projets êditoriaux rentrant dans la politique éditoriale de RNTI et dont les principes assez simples font la distinction entre deux deux sortes de publications :
des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d’une quinzaine de personnes est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s’il est dans le créneau de RNTI vous serez désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante de la mise en place de la collecte, de l’évaluation, de la sélection et de la publication du numéro,
des actes de conférences sélection garantissant une haute qualité des articles. Si vous présidez une conférence dans des thématiques liées aux technologies de l’information, vous pouvez nous contacter.
Nous remercions chaleureusement la communauté EGC de faire de nouveau confiance à RNTI pour la parution de ce numéro et nous espérons vivement qu’il vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter.
Nous terminons ce petit mot en vous adressant nos meilleurs voeux pour 2019.
Djamel A. Zighed et Gilles Venturini.
A l’heure de la confrontation de l’Intelligence Artificielle au déluge de données massives, les sujets de l’extraction et de la gestion des connaissances apparaissent comme particulièrement centraux à de nombreux travaux de recherche et développement. Le traitement et l’intégration de sources de données et de connaissances posent sans cesse de nouveaux besoins et de nouveaux défis en termes de méthodes, de techniques et d’outils pour acquérir les données, les classifier, les intégrer, les représenter, les stocker, les indexer, les visualiser, interagir avec elles, les protéger et surtout les transformer en connaissances utiles, pertinentes et respectueuses de nos droits. Aux besoins de passage à l’échelle posés par de grandes collections de données, s’ajoutent les besoins de traitement de données hétérogènes, de qualité variable et parfois très dynamiques. Un défi majeur est la conception d’algorithmes d’analyse et de raisonnement sur des données, plus transparents, tout en garantissant le respect de la vie privée et l’équité.
La conférence Extraction et Gestion de Connaissances (EGC) est le rendez-vous annuel de chercheurs et praticiens travaillant dans les domaines de la science des données et des connaissances. Ces disciplines incluent notamment l’apprentissage automatique, l’ingénierie et la représentation des connaissances, les statistiques et l’analyse de données, la fouille de données, les systèmes d’information, les bases de données, le Web sémantique. EGC est une occasion unique de faire se rencontrer académiques et industriels afin de confronter des travaux théoriques et des applications pratiques sur des données réelles et de communiquer des travaux de qualité, d’échanger et de favoriser la fertilisation croisée des idées, à travers la présentation de travaux de recherche récents, de développements industriels et d’applications originales.
La sélection d’articles publiés dans le présent recueil constitue les actes de la 19e édition de la conférence (EGC 2019) qui s’est déroulée à Metz du 21 au 25 janvier 2019 sur le Campus de CentraleSupêlec. Les articles sélectionnés couvrent des thématiques très diverses mais au coeur de la communauté telles que l’apprentissage automatique, l’ingénierie et la représentation des connaissances, la fouille de données, les systèmes d’information, les bases de données, le Web sémantique et les données ouvertes, le traitement de données de nature diverse : numériques et symboliques, textuelles ou images ou encore données de graphes issues des réseaux sociaux. Les applications présentées sont également variées allant de la recommandation, des assistants vocaux, de l’urbanisme à la médecine et à la chimie. Sur 72 soumissions complètes, nous avons retenu 19 articles longs (soit un taux de sélection de 26,3%), 20 articles courts, 8 résumés d’articles déjà publiés à l’international et 15 posters. Pour assurer un retour de qualité, 5 articles ont eu 3 relectures, 64 articles ont eu 4 relectures et 3 articles ont eu 5 relectures. Ce travail a été effectué par un comité de 167 relecteurs et supervisé par 8 mêta-relecteurs. De manière à rendre l’évaluation la plus juste et la plus équitable possible, le processus a été réalisé via des soumissions anonymes, avec un droit de réponse des auteurs avant la réunion du comité de programme. Chaque article a aussi fait l’objet d’une mêta-relecture pour synthétiser les retours et les discussions, arbitrer les échanges et recommander une décision.
EGC héberge aussi une école qui nous permet de nous former aux dernières méthodes et nouveaux outils. Cette année, elle était ciblée sur “Privacy preserving, reasoning, explaining”.
Pour cette édition 2019, nous avons eu le plaisir d’accueillir quatre chercheurs invités de renom international :
Frank van Harmelen, Université VU d’Amsterdam, président d’honneur de EGC 2019
Krishna P. Gummadi, Max Planck Institute for Software Systems (MPI-SWS)
Ioana Manolescu, Inria-LIX, Ecole Polytechnique
Roberto Di Cosmo, Inria et Université Paris Diderot
Le recueil inclut les résumés de leurs conférences invitées.
La conférence est complétée par 6 ateliers sélectionnés sur un spectre large de thématiques: Fouille de textes, Web des données, Humanités numériques et héritage culturel, Gestion et analyse des données spatiales et temporelles, Interprêtabilitê de l’apprentissage automatique et de IA, Véracité des données.
Remerciements : Nous tenons à remercier les membres du comité de programme pour la qualité de leurs rapports d’évaluations et le temps consacré malgré des périodes chargées et difficiles. Nos remerciements chaleureux vont également à toute l’équipe du comité d’organisation pour leur travail, leur implication, leur mobilisation, et leur réactivité. Ils vont également aux membres du bureau de l’association EGC pour leur appui tout au long de la préparation de cette édition. Nous remercions spécialement pour leur soutien et participation, CentraleSupêlec, le laboratoire lorrain de recherche en informatique et ses applications (LORIA, UMR 7503), CNRS, INRIA l’Université de Lorraine, l’IUT de Metz, la région Grand Est, le département de Moselle, Metz Métropole, le groupe de recherche GDR MADICS (Masses de Données, Informations et Connaissances en Sciences), la société Luxembourgeoise de Statistique (SLS), Sogeti, Business & Décision, Arcelor Mittal, google, Crédit Mutuel Enseignant.
Marie-Christine Rousset et Lydia Boudjeloud-Assala.
Le Comité de Lecture est constitué du comité de programme et des membres du comité de pilotage de l’association EGC ayant participé à la sélection des articles.
Présidente : Marie-Christine Rousset, LIG, Université Grenoble Alpes & Institut Universitaire de France
Nathalie Abadie - COGIT, IGN
Jacky Akoka - TEM, CNAM
Laurent Amsaleg - IRISA, CNRS
Boyer Anne - Kiwi Team - LORIA, Université de Lorraine
Said Assar - Institut Mines-Télécom
Manuel Atencia - INRIA, Université de Grenoble Alpes
Baghdad Atmani - Computer Science Laboratory of Oran (LIO). Oran 1 University
Marie-Aude Aufaure - DATARVEST
Jérôme Azê - LIRMM, CNRS UMR 5506
Amine Aït Younes - CreSTIC, Université de Reims Champagne-Ardenne
Jean-Paul Barthès - Université de Technologie de Compiègne
Sadok Ben Yahia - Faculty of Sciences, Tunis
Khalid Benabdeslem - LIRIS, Université
Claude Bernard Lyon I, France
Younès Bennani - LIPN, Université Paris 13
Fadila Bentayeb - ERIC, Université Lyon 2
Giuseppe Berio - Université de Bretagne Sud & IRISA UMR 6074
Marc Bertin - Université Claude Bernard Lyon 1
Romain Billot - Institut Mines-Télécom Atlantique
Gilles Bisson - LIG, Université de Grenoble Alpes & CNRS
Alexandre Blanschê - LORIA, Université de Lorraine
Alexis Bondu - Orange Labs
Amel Borgi - ISI / LIPAH, Université de Tunis El Manar
Cécile Bothorel - Institut Mines-Télécom Atlantique
Fatma Bouali - Université Lille 2
Lydia Boudjeloud-Assala - LORIA, Université de Lorraine
Alain Bouju - Université de La Rochelle Omar Boussaid - ERIC, Université Lyon 2
Agnès Braud - Université de Strasbourg Paula Brito - Université de Porto
Pierrick Bruneau - Luxembourg Institute of Science and Technology
Patrice Bûche - INRA, CIRAD Wemmert Cedric - ICube, UMR 7357 CNRS/Unistra
Peggy Cellier - IRISA, INSA Rennes Thierry Chamois - LIPN, Université Paris 13, CNRS
Max Chevalier - IRIT, Université Paul Sabatier
Guillaume Cleuziou - Laboratoire d’Informatique Fondamentale d’Orléans
Florence Cloppet - LIPADE, Université Paris Descartes
Martine Collard - Université des Antilles Camélia Constantin - LIP6, Université de Paris 6
Bruno Cremilleux - Université de Caen Mathieu D’Aquin - Insight Centre for Data Analytics, National University of Ireland Galway
Jérôme Darmont - Université de Lyon
Jérôme David - INRIA
Francisco De A. T. De Carvalho - Centro de Informatica, CIn/UFPE
Cyril de Runz - CreSTIC, Université de Reims Champagne-Ardenne
Géraldine Del Mondo - LITIS, INSA Rouen
Sylvie Despres - Laboratoire d’Informatique Médicale et de BlOinfor-matique (LIM&BIO)
Juliette Dibie-Barthêlemy - AgroParis-Tech
Nicolas Duguê - Laboratoire d’Informatique de l’Université du Maine Rémi Emonet - Laboratoire Hubert Curien, Université Jean Monnet de Saint-Etienne
Catherine Faron Zucker - Université Nice Sophia Antipolis
Cécile Favre - ERIC, Université Lyon 2 Françoise Fessant - France Télécom R&D Frédéric Flouvat - Université de la Nouvelle-Calédonie
Françoise Fogelman-Souliê - Tianjin University, School of Computer Software
Germain Forestier - Université de Haute Alsace
Agnès Front - LIG, SIGMA, Université de Grenoble
Esther Galbrun - Aalto University
Jean-Gabriel Ganascia - LIP6, Université Pierre et Marie Curie
Pierre Gancarski - LSIIT, Université Louis Pasteur, Strasbourg.
Fabien Gandon - INRIA
Dominique Gay - Université de La Réunion
François Goasdoue - Université Rennes 1
Christophe Gravier - Université Jean
Monnet de Saint-Etienne
Daniela Grigori - LAMSADE, Université Paris-Dauphine
Adrien Guille - ERIC, Université Lyon 2 Christiane Guinot - Université François Rabelais, Tours
Thomas Guyet - AGROCAMPUS OUEST/UMR 6074 IRISA
Alain Gêly - LORIA, Université de Lorraine
Hakim Hacid - Bell Labs
Fayçal Hamdi - CEDRIC, Conservatoire
National des Arts et Métiers
Georges Hebrail - EDF Lab Saclay, IRT SystemX
Gilles Hubert - IRIT, Université Paul Sabatier
Dino Ienco - IRSTEA, Montpellier
Antonio Irpino - Second University of Naples, Italy
Fabrice Jouanot - LIG, Université de Grenoble Alpes
Mehdi Kaytoue - Infologic
Zoubida Kedad - Université of Versailles
Ali Khenchaf - Lab-Sticc, ENSTA Bretagne
Pascale Kuntz - Laboratoire d’Informatique de Nantes Atlantique
Vincent Labatut - Université d’Avignon
Nicolas Labroche - Université François
Rabelais, Tours
Nicolas Lachiche - Université of Strasbourg
Frederique Laforest - Laboratoire Hubert Curien, Université Jean Monnet de Saint-Etienne
Sylvain Lamprier - LIP6, Université de Paris 6
Luigi Lancieri - Université de Lille
Christine Largeron - Université Jean
Monnet de Saint-Etienne
Anne Laurent - LIRMM, Université de
Montpellier 2
Florence Le Ber - ICube
Yves Lechevallier - INRIA
Maxime Lefrançois - Ecole des Mines de
Saint-Etienne
Sébastien Lefèvre - Université de Bretagne Sud
Vincent Lemaire - Orange Labs, Equipe
Profiling et Data Mining
Philippe Lenca - Institut Mines-Télécom Atlantique
Philippe Leray - LINA/DUKe, Université de Nantes
Marie-Jeanne Lesot - LIP6, Université de Paris 6
Stéphane Loiseau - LERIA, Université d’Angers
Stéphane Lopes - PRiSM, Université de Versailles
Sabine Loudcher - ERIC, Université Lyon 2
Sofian Maabout - LaBRI, Université de Bordeaux
Mondher Maddouri - URPAH, Faculté des Sciences de Gafsa, Tunisie
Claudia Marinica - ETIS - ENSEA UCP CNRS - UMR 8051
Béatrice Markhoff - LI, Université
François Rabelais, Tours
Arnaud Martin - Université de Rennes 1 / IRISA
Florent Masseglia - INRIA
Guy Melançon - LaBRI, Université de
Bordeaux, CNRS
Engelbert Mephu Nguifo - LIMOS, Université de Clermont Auvergne, CNRS
Zoltan Miklos - Université de Rennes 1
Rokia Missaoui - LARIM
Boughanem Mohand - IRIT, Université Paul Sabatier
Fabrice Muhlenbach - Laboratoire Hubert
Curien, Université Jean Monnet de Saint-Etienne
Amedeo Napoli - LORIA Nancy (CNRS - INRIA - Université de Lorraine)
Eisa Nègre - LAMSADE, Université Paris-Dauphine
Benjamin Nguyen - INSA Centre Val de Loire
Ndèye Niang - CNAM
Monique Noirhomme - Université de Namur
Damien Nouvel - INaLCO
Jean-Marc Ogier - L3i, Université de La
Rochelle
Teste Olivier - IRIT
Benoit Otjacques - Luxembourg Institute of Science and Technology
Nathalie Pernelle - LRI, Université Paris SUD
Fabien Picarougne - LINA, Université de Nantes
Bruno Pinaud - LaBRI, Université de Bordeaux, CNRS
Suzanne Pinson - LAMSADE, Université Paris-Dauphine
Marc Plantevit - LIRIS, Université Claude Bernard Lyon 1
Pascal Poncelet - LIRMM Montpellier
Philippe Preux - INRIA, LIFL, Université de Lille
Cêdric Pruski - Luxembourg Institute of Science and Technology
Andrê Pêninou - IRIT
Gianluca Quercini - LRI, CentraleSupêlec
Mohamed Cherif Rahal - Institut VeDeCoM
Franck Ravat - IRIT, Université de Toulouse
Chantai Reynaud - LRI, Université Paris-Sud, CNRS, Université Paris-Saclay
François Rioult - GREYC CNRS UMR6072, Université de Caen
Christophe Roche - Condillac, Université Savoie Mont-Blanc
Mathieu Roche - Cirad, TETIS
Marie-Christine Rousset - LIG, Université
Grenoble Alpes & Institut Universitaire de France
Catherine Roussey - Irstea Clermont-Ferrand
Christian Sallaberry - Université de Pau et Pays de l’Adour
Yacine Sam - Computer Science Lab Virginie Sans - IRISA, University de Rennes 1
Lucile Sautot - AgroParisTech (Dêp. SIAFEE, UMR TETIS)
Fatiha Sais - LRI, Université Paris-Sud 11, CNRS & INRIA Saclay
Florence Sedes - Université Paul Sabatier, Toulouse 3
Nazha Selmaoui-Folcher - Université de la
Nouvelle-Calédonie
Samira Si-Said Cherfi - CEDRIC, Conservatoire National des Arts et Métiers
Dan Simovici - University of Massachusetts Boston
Malika Smail-Tabbone - LORIA, Université de Lorraine
Arnaud Soulet - Université François Rabelais, Tours
Erick Stattner - LAMIA, Université des Antilles
Luiz Angelo Steffenel - Université de
Reims Champagne-Ardenne
Thomas Tamisier - Luxembourg Institute of Science and Technology
Bouadi Tassadit - IRISA, Université Rennes 1
Maguelonne Teisseire - Irstea, UMR Tetis
Alexandre Termier - Université de Rennes 1
Andrea Tettamanzi - Université Nice Sophia Antipolis
Virginie Thion - IRISA, Université Rennes 1 / ENSSAT
Christophe Thovex - French-Mexican Laboratory of Informatics and Automatic Control (LAFMIA - UMI CNRS 3175)
Fabien Torre - Université de Lille
Ronan Tournier - IRIT Federico Ulliana - Université de Montpellier 2
Julien Velcin - Université de Lyon 2
Gilles Venturini - LI, Université François Rabelais, Tours
Nicole Vincent - Université Paris Descartes Paris 5
Christel Vrain - LIFO, université d’Orléans
Haifa Zargayouna - Université Paris 13
Comité d’organisation
Présidente : Lydia Boudjeloud-Assala - LORIA, Université de Lorraine
Marie Baron - LORIA
Olivia Brenner - LORIA
Brieuc Conan-Guez - LORIA, Université de Lorraine
Jêrêmy Fix - LORIA, CentraleSupêlec
Alain Gêly - LORIA, Université de Lorraine
Yann Liber - CentraleSupêlec
Patrick Mercier - CentraleSupêlec
Frédéric Pennerath - LORIA, CentraleSupêlec
Sébastien Van Luchene - CentraleSupêlec
Thérèse Pirrone - CentraleSupêlec
Fabienne Munier - CentraleSupêlec
Bruno Pinaud - LaBRI, Université de Bordeaux
Comité d’organisation de l’école ê-EGC
Claudia Marinica - ETIS, ENSEA / UCP / CNRS 8051
Malika Smail-Tabbone - LORIA, Université de Lorraine
Dimitris Kotzinos - ETIS, ENSEA / UCP / CNRS 8051
Responsable des ateliers
Alexandre Blanschê - LORIA, Université de Lorraine
Responsables de la session démonstrations
Adrien Guille - ERIC, Université de Lyon 2
Sabeur Aridhi - LORIA, Université de Lorraine
Conférences invitées
Combining learning and reasoning: new challenges for knowledge graphs
Frank van Harmelen
Foundations for Fair Algorithmic Decision Making
Krishna P. Gummadi
Software Heritage: que faire avec tout le code source du monde ?
Roberto Di Cosmo
Computational fact-checking: state of the art, challenges, and perspectives
Ioana Manolescu
Articles longs
Des réseaux de neurones pour prédire des distances interatomiques extraites d’une base de données ouverte de calculs en chimie quantique
Jules Leguy, Thomas Cauchy, Béatrice Duval, Benoit Da Mota
Découverte de motifs à la demande dans une base de données distribuée
Lamine Diop, Cheikh Talibouya Diop, Arnaud Giaeometti, Dominique Li, Arnaud Soulet
Sur l’intérêt de l’analyse de la dynamique des processus de classement. Un retour d’expériences pour la Q méthode.
Claire Gauzente, Pascale Kuntz, Aurélien Milliat, Yves Roy
Calcul d’une politique déterministe dans un MDP avec récompenses imprécises
Pegah Alizadeh, Aomar Osmani, Emiliano Traversi
Régler le processus d’exploration dans l’analyse relationnelle de concepts - Le cas de données hydroécologiques
Amirouche Ouzerdine, Agnès Braud, Xavier Dolques, Marianne Huchard, Florence Le Ber
Prédiction de liens dans les graphes de connaissances avec les concepts de plus proches voisins
Sébastien Ferré
Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD
Cédric Lopez, Métissa Mekaoui, Kevin Aubry, Jean Bort, Philippe Garnier
Une nouvelle approche pour la détection d’anomalies dans les flux de graphes hétérogènes
Abd Errahmane Kiouche, Karima Amrouehe, Hamida Seba, Sofiane Lagraa
Similarité par recouvrement de séquence pour la fouille de données séquentielles et textuelles
Pierre-François Marteau, Nicolas Béchet, Oussama Ahmia
Extraction de communautés ego-centrées par apprentissage supervisé d’espaces pré-topologiques
Gaétan Caillant, Guillaume Cleuziou, Nicolas Dugué
Utilité d’un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles.
Oussama Ahmia, Nicolas Béchet, Pierre-François Marteau, Alexandre Garel
Apprentissage fédératif pour la prédiction du churn : une évaluation
Sébastien Godard, Nicolas Voisine, Tanguy Urvoy, Vincent Lemaire
Découverte de sous-groupes à partir de données séquentielles par échantillonnage et optimisation locale
Romain Mathonat, Boulicaut Jean-François, Mehdi Kaytoue
Approximation du score CFOF de détection d’anomalie dans un arbre d’indexation iSAX : Application au contexte SI de la SNCF
Lucas Foulon, Christophe Rigotti, Serge Fenet, Denis Jouvin
Conception physique d’un entrepôt de données distribuées basée sur K-means équilibré
Yassine Ramdane, Omar Boussaid, Nadia Kabachi, Fadila Bentayeb
Detecting Overlapping Communities in Two-mode Data Networks using Formai Concept Analysis
Abir Messaoudi, Rokia Missaoui, Mohamed-Hamza Ibrahim
Quand les sous-groupes rencontrent les graduels : découverte de sous-groupes identifiant des corrélations exceptionnelles
Mohamed-Ali Hammal, Céline Robardet, Marc Plantevit
Une approche basée graphe pour la détection de zones fonctionnelles urbaines
Noudéhounéou Lionel Jaderne Houssou, Jean-Loup Guillaume, Armelle Prigent
Représentation condensée de règles d’association multidimensionnelles
Alexandre Bazin, Aurélie Bertaux, Christophe Nicolle
Articles courts
Extraction de composés phénoliques végétaux susceptibles de limiter les émissions de méthane chez les ruminants
Sylvie Guillaume, Didier Macheboeuf
Une méthodologie pour l’implémentation d’applications tierces intelligentes à destination des assistants vocaux via des bandits linéaires
Robin Allesiardo, Christophe Sauldubois, Fabrice Depaulis, Nicolas Bulteau, Frédéric Chantrel, Erwan Pigneul
Évaluation des améliorations de prédiction d’hospitalisation par l’ajout de connaissances métier aux dossiers médicaux
Raphaël Gazzotti, Catherine Faron Zucker, Fabien Gandan, Virginie Lacroix-Hugues, David Darmon
Accélération de k-means par pré-calcul dynamique d’agrégats
Nabil El Malki, Franck Ravat, Olivier Teste
Combiner analyse syntaxique de surface et apprentissage supervisé pour la fouille d’opinion ciblée : expérimentations sur des données d’opinion concernant les livres
Jeanne Villaneau, Stefania Pecare, Farida Saïd, Pierre-François Marteau
Recommandation séquentielle à base de séquences fréquentes
Corentin Lonjarret, Marc Plantevit, Celine Robardet, Roch Auburtin
Résistance au bruit et à la rareté de la détection d’anomalies par arbre de décision de systèmes physiques simulés
Nesrine Bannour, Anne J eannin-Girar don, Nicolas Lachiche, Etienne Schneider
Apprentissage et évaluation de plongements lexicaux sur un corpus SNCF en langue spécialisée
Nicolas Dugué, Nathalie Camelin, Luce Lefeuvre, Xining Li, Coralie Reutenauer, Cyndel Vaudapiviz
Application des Pattern Structures à la découverte de biclusters à changements de signes cohérents
Nyoman Juniarta, Miguel Couceiro, Amedeo Napoli
Entre factorisation de matrices et apprentissage profond pour la recommandation dans le domaine du pneumatique
Kilian Bourhis, Khalid Benabdeslem, Bruno Canitia
Identification de symboles dans des documents déstructurés
Jacques Péré-Laperne
Étude lexicographique de sous-graphes pour l’élaboration de modèles structures à activité - cas de la chimie organique
Nicolas Bloyet, Pierre-François Marteau, Emmanuel Frénod
Prédiction d’événements distants basée sur des règles séquentielles
Lina Fahed, Philippe Lenca, Yannis Haralambous, Riwal Lefort, Marie-Laure Tallec
Propagation d’événements dans un graphe économique
Jocelyn Bernard, Julien Goncalves, Hamamaehe Kheddouei
Construction et exploitation d’un corpus multilingue algérien pour l’analyse des opinions et des émotions
Leila Moudjari, Karima Akli-Astouati
L’exploitation des techniques de regression pour l’évaluation de la crédibilité des tweets
Hamda Slimi, Ibrahim Bounhas, Yahya Slimani
MCVGraphViz, un outil de visualisation de connaissance. Application à la visualisation dynamique d’interactions entre facteurs de risque cardiovasculaires
Rabia Azzi, Sylvie Despres, Jérôme Nobecourt
L’analyse sémantique des recommandations médicales en des règles SWRL
Samia Sbissi, Mahfoudh Mariem, Said Gatooufi
Du nombre maximum d’ensembles fermés en 3 dimensions
Alexandre Bazin, Laurent Beaudou, Giacomo Kuhn, Kaveh Khoshkhah
WorldSpread : un modèle de propagation de l’information entre populations
Didier Henry, Erick Stattner, Martine Collard
Posters
Améliorer la classification semi-supervisée à base de graphes
Dino Ienco, Ruggero G. Pensa
Étude comparative de Top
k
basée sur l’algorithme de Fagin en utilisant des métriques de corrélation dans la qualité de service de Cloud Computing
Kaoutar El Handri, Abdellah Idrissi
Maintenance prédictive d’hélicoptère à partir de données d’usage : Application à la boite de transmission principale
Nassia Daouayry, Pierre-Loic Maisonneuve, Ammar Mechouche, Vasile-Marian Scuturici, Jean-Marc Petit
Etude de l’opinion et de la confiance sur TripAdvisor.
Faiza Belbachir
Etude expérimentale de la classification interlingue pour la gestion de la relation client
Gil Francopoulo, Léon-Paul Schaub, Lynda Ould Younes
Deep Learning for Solar Irradiance Forecasting
Cristian Onose, Dumitru-Clementin Cercel, Florin Pop
Les cartes cognitives temporelles : modélisation et interrogation
Adrian Robert, David Genesi, Stéphane Loiseau, Thomas Raimbault, Brice Trouillet
Vers une décision Skyline intelligente
Sana Nadouri, Allel Hadjali, Zaidi Sahnoun
F
C
-S
WEEPER
: Extracting and Navigating within the top-k formai concepts
Amira Mouakher
Augmentation de données pour la classification de séries temporelles par réseaux de neurones profonds résiduels
Hassan Ismail Fawaz, Germain Forestier, Jonathan Weber, Lhassane Idoumghar, Pierre-Alain Muller
Vers une approche heuristique distribuée à base d’ontologie pour la fouille des règles d’association dans les données massives
Rania Mkhinini Gahar, Olfa Arfaoui, Minyar Sassi Hidri, Nejib Ben Hadj-Alouane
W
INECLOUD
: Une ontologie d’événements pour la modélisation sémantique des données de capteurs hétérogènes
Rami Belkaroui, Amira Mouakher, Aurélie Bertaux, Ouassila Labbani, Clémentine Hugol-Gential, Christophe Nicolle
La gestion des connaissances au cœur de la continuité numérique pour l’industrie 4.0 : Le cas du projet « SmartEmma »
Oussama Meski, Florent Laroche, Farouk Belkadi, Benoit Furet
Déjà publié à l’international
CRAFTML, une forêt aléatoire efficace pour l’apprentissage multi-label extrême
Wissam Siblini, Frank Meyer, Pascale Kuntz
Recherche de motifs pour l’étude critique de partitions musicales
Riyadh Benammar, Christine Largeron, Véronique Eglin, Mylène Pardoen
Les forêts d’arbres extrêmement aléatoires : utilisation dans un cadre non supervisé
Kevin Dalleau, Miguel Couceiro, Malika Smail-Tabbone
La simulation relaxée de graphes pour la recherche de motifs
Abdelmalek Habi, Brice Effantin, Hamamache Kheddouci
Représentations compactes des graphes et contraintes pseudo booléenne
Said Jabbour, Nizar Mhadhbi, Badran Raddaoui
Apprentissage non-supervisé relationnel dans l’espace des coordonnées barycentriques
Parisa Rastin, Basarab Matei, Guénaël Cabanes
Détection de changement dans les profils en ligne d’utilisateurs
Parisa Rastin, Basarab Matei, Guénaël Cabanes
Démonstrations
CK-Cartography : un système de cartographie pour l’identification et la caractérisa-tion des savoirs
Sahar Ghrab, Inès Saad, Gilles Kassel, Faiez Gargouri
A la recherche du quartier idéal
Nelly Barret, Fabien Duchateau, Franck Favetta, Maryvonne Miquel, Aurélien Gentil, Loïc Bonneval
WIB : un navigateur intégré pour Wikipédia destiné à l’évaluation participative de modèles de pertinence
Christophe Brouard, Jean-Pierre Chevallet, Téo Orthlieb, Habib Slim
Analyse de comportements relatifs exceptionnels expliquée par des textes : les votes du parlement européen
Charles de Lacombe, Antoine Morel, Adnene Belfodil, François Portet, Cyril Labbé, Sylvie Cazalens, Marc Plantevit, Philippe Lamarre
Dataforum : Faciliter l’échange, la découverte et la valorisation des données à l’aide de technologies sémantiques
Yoan Chabot, Patrick Grohan, Gilles Le Calvez, Christèle Tarnec
MMS Explore : un outil de visualisation interactive pour l’analyse qualité de flux données temporelles
Zied Ben Othmane, Cyril De Kunz, Amine Ait Younes, Vincent Mercelot
Index des auteurs
Programme de la conférence
Frank van Harmelen*
*Dpt of Computer Science, Vrije Universiteit Amsterdam, The Netherlands
https://www.cs.vu.nl/frank.van.harmelen/
The question on how to combine learning with reasoning is widely seen as one of the major challenges for AI. Knowledge Graphs are now well established as a formalism for knowledge representation and reasoning, with large scale adoptions in industry (Google search, Apple’s Siri, Amazon, Uber, Airbnb, BBC, Reuters, and many others). Besides their use for reasoning tasks, knowledge graphs have also shown promise as a formalism to combine reasoning with learning. They have been used as a source of labels for semi-supervised learning, machine learning has been used to generate knowledge graphs, using knowledge graphs can be used to construct post-hoc explanations for machine learning, to name just a few. Central questions in this talk will be : what is the progress that has been made on combining knowledge graphs with machine learning to date, and what are the promises and challenges in both the near and the long term ?
Krishna P. Gummadi*
*Max Planck Institute for Software Systems (MPI-SWS), Allemagne
https://people.mpi-sws.org/gummadi/
Algorithmic (data-driven learning-based) decision making is increasingly being used to assist or replace human decision making in a variety of domains ranging from banking (rating user credit) and recruiting (ranking applicants) to judiciary (profiling criminals) and journalism (recommending news-stories). Recently concerns have been raised about the potential for discrimination and unfairness in such algorithmic decisions. Against this background, in this talk, I will discuss the following foundational questions about algorithmic unfairness :
How do algorithms learn to make unfair decisions?
How can we quantify (measure) unfairness in algorithmic decision making ?
How can we control (mitigate) algorithmic unfairness ? i.e., how can we re-design learning mechanisms to avoid unfair decision making ?
Roberto Di Cosmo*
*Laboratoire IRIF, université Paris-Diderot, 75205 Paris CEDEX 13
www.dicosmo.org
Software Heritage est une initiative à but non lucratif dont l’objectif ambitieux est de collecter, préserver et partager le code source de tous les logiciels jamais écrits, avec leur historique de développement complet, en construisant une base de connaissances logicielle universelle. Software Heritage répond à une variété de besoins : préserver nos connaissances scientifiques et technologiques, améliorer le développement et la réutilisation des logiciels pour la société et l’industrie, favoriser la science ouverte et construire une infrastructure essentielle pour des études logicielles reproductibles à grande échelle. Nous avons déjà collecté plus de 4 milliards de fichiers sources uniques provenant de plus de 80 millions d’origines. Manipuler ce gigantesque ensemble de données est une mission complexe et nécessite de nouvelles approches pour stocker et requêter l’information d’une manière compatible avec la croissance explosive du développement logiciel collaboratif. Dans cette conférence, nous explorons quelques uns des nouveaux défis et opportunités que présente Software Heritage.
Ioana Manolescu*
*Laboratoire d’Informatique (LIX), École Polytechnique, Palaiseau, France
http://pages.saclay.inria.fr/ioana.manolescu/
The tremendous value of Big Data has been noticed of late also by the media, and the term “data journalism” has been coined to refer to journalistic work inspired by digital data sources. A particularly popular and active area of data journalism is concerned with fact-checking. The term was born in the journalist community and referred to the process of verifying and ensuring the accuracy of published media content ; more recently, its meaning has shifted to the analysis of politics, economy, science, and news content shared in any form, but first and foremost on the Web. A very lively area of digital content management research has taken up these problems and works to propose foundations (models), algorithms, and implement them through concrete tools. In my talk, I will show why I believe the data and knowledge management communities should get involved, cast computational fact-checking as a content management problem, present some of the research results attained in this area, and point out areas where more work is needed. This talk is mostly based on research carried within the ANR ContentCheck project (http://contentcheck.inria.fr)
Jules Leguy*, Thomas Cauchy**, Béatrice Duval*, Benoit Da Mota*
*Laboratoire LERIA, Université d’Angers, 2 bd Lavoisier, 49045 Angers, France
{beatrice.duval, benoit.damota}@univ-angers.fr
**Laboratoire MOLTECH-Anjou, Université d’Angers, CNRS UMR 6200,
2 bd Lavoisier, 49045 Angers, France
Résumé. Le calcul de la géométrie de l’état fondamental d’une molécule est le point de départ de l’immense majorité des travaux en chimie quantique moléculaire. La base de données ouverte PubChemQC met à disposition les résultats de calculs des états fondamentaux pour plus de trois millions de molécules. Nous avons extrait les géométries convergées afin d’entraîner des modèles d’apprentissage automatique. Prédire la géométrie complète serait une avancée remarquable. Nos premiers résultats suggèrent qu’il est difficile d’entraîner un réseau de neurones sur cette tâche complexe. Par contre, nous démontrons qu’un réseau de neurones est capable de prédire précisément une distance entre deux atomes. L’objet d’étude de ce travail est la distance la plus complexe en chimie organique, la distance carbone-carbone. Les meilleurs résultats sont obtenus en limitant la quantité d’information grâce à une distance seuil autour de chaque carbone.
La chimie moléculaire se définit comme l’étude d’entités discrètes (appelées molécules) et correspond à la communauté la plus large de chimistes. Des centaines de millions de molécules sont connues, contenant généralement moins d’une centaine d’atomes et moins d’un millier d’électrons. Les propriétés chimiques de ces molécules dépendent des positions des noyaux et des électrons qui peuvent être calculées de manière approchée par des méthodes issues de la mécanique quantique. Avec la démocratisation de la puissance de calcul, la chimie informatique est devenue une partie essentielle de la recherche en chimie moléculaire. Mais, selon les différents paramètres utilisés, ces calculs peuvent durer de quelques heures à quelques milliers d’heures par molécule. L’apprentissage automatique et plus généralement l’intelligence artificielle appliquée à des données de chimie moléculaire promet de révolutionner la chimie dans un futur proche (Schneider, 2018; Tabor et al., 2018). Avec la récente abondance de données en chimie quantique moléculaire, de nombreux travaux ont vu le jour à un rythme accru depuis 2017. Les modèles employés sont majoritairement de deux types : les réseaux de neurones (Schütt et al., 2017, 2018; Gubaev et al., 2018; Hy et al., 2018; Sinitskiy et Pande, 2018) et les méthodes à noyaux de type Support Vector Machine (SVM) ou Gaussian Process Regressions (GPR) (Nakata et Shimazaki, 2017; Bartók et al., 2017; Musil et al., 2018). Aujourd’hui, les travaux se concentrent sur la prédiction de valeurs finales, au sens où si l’énergie totale de la molécule est l’objet d’étude, alors un modèle prédisant cette énergie est entraîné. La plupart des travaux présentent des résultats prometteurs, mais travaillent sur des jeux de données très restrictifs en termes de taille et de variété de molécules ; principalement le jeu de données QM9 avec 1 million de couples géométrie/énergie sur seulement 7165 molécules contenant au maximum 23 atomes.
Les propriétés moléculaires les plus étudiées en chimie quantique concernent la réactivité d’une molécule (localisation des électrons les plus énergétiques, etc.) ou ses propriétés d’absorption et d’émission de lumière visible qui dépendent des états excités de la molécule. Dans tous ces cas, une description précise de l’état fondamental est nécessaire. Cela signifie connaître la position d’équilibre des noyaux, ce que l’on appelle la géométrie convergée de l’état fondamental, et connaître les fonctions d’onde des électrons. Ainsi prédire la géométrie complète à partir d’une méthode d’apprentissage automatique serait une importante avancée, permettant notamment d’économiser beaucoup de temps de calculs et permettant à terme d’accélérer et guider le criblage de nouvelles molécules. Un point crucial pour l’apprentissage automatique est la disponibilité de données homogènes ou tout du moins comparables. Or, les calculs en chimie quantique sont toujours des méthodes approchées car la résolution analytique de l’équation de Schrödinger n’est pas possible pour des systèmes contenant plusieurs électrons. Ne sont donc comparables que des calculs effectués avec les mêmes approximations de calculs (sur l’opérateur mathématique ou sur les fonctions d’onde électronique). Des bases de données de calculs homogènes sont très rares en chimie moléculaire. Il existe des bases de données expérimentales de tailles importantes dont la plus conséquente est le projet PubChem contenant plus de 96 millions de molécules (Wang et al., 2009). Il existe aussi au moins cinq bases de données théoriques pour des systèmes de la chimie des solides (comme NoMaD par exemple), mais leurs méthodes de calcul sont malheureusement radicalement différentes et assez incompatibles avec la chimie moléculaire (fonctions mathématiques localisées contre fonctions mathématiques périodiques). À l’échelle moléculaire, depuis 2013 le projet “Clean Energy” d’Harvard contient plus de 2 millions de molécules calculées afin d’en estimer leurs potentiels comme matériau photovoltaïque (https://cepdb.molecularspace.org/). Malheureusement, les données des calculs ne sont pas disponibles et ces calculs auraient aussi pu servir à bien d’autres applications. Finalement, une base de données de calculs en chimie moléculaire, PubChemQC (Nakata et Shimazaki, 2017), a été construite par un laboratoire japonais. Elle avait pour objectif ambitieux de calculer avec des paramètres constants tous les composés de la base PubChem. Le projet est au point mort après 3,5 millions de composés calculés, mais il s’agit de la source de données primaires, libre d’accès, la plus homogène et la plus large en chimie moléculaire. Elle est beaucoup plus représentative de l’espace moléculaire que le jeu de données QM9. Nous avons donc utilisé cette source pour l’apprentissage de nos modèles.
Notre objectif à terme est de pouvoir se passer du calcul de mécanique quantique ou tout du moins de prédire un bon point de départ pour l’accélérer de façon substantielle. Le premier problème qu’il faut résoudre est donc de prédire précisément la position des atomes (section 3), problème qui peut être décomposé en la prédiction de la longueur d’une liaison covalente (section 4) et d’angles. Cette longueur de liaison covalente entre deux atomes est un équilibre entre la répulsion des noyaux de charge positive, la répulsion entre les électrons de charge négative et l’attraction entre les électrons et les noyaux. Ainsi la distance d’équilibre dépend de la nature des atomes (carbone, hydrogène, oxygène...) participant à la liaison, mais est également influencée par les atomes au voisinage de la liaison car ils peuvent par exemple attirer à eux une partie des électrons et donc modifier l’équilibre de la liaison. L’influence des atomes du voisinage peut être plus ou moins forte selon leurs positions relativesà la liaison.
Les calculs dont les résultats sont disponibles sur la base PubChemQC (Nakata et Shimazaki, 2017) ont été réalisés à l’aide du logiciel de chimie quantique GAMESS avec comme paramètres la fonctionnelle B3LYP (approximation sur l’opérateur hamiltonien), l’ensemble de fonctions de base 6-31G* (approximation sur les fonctions monoélectroniques), le tout en closed shell et phase gazeuse. Nous avons récupéré pour cette étude la géométrie issue de l’optimisation de l’état fondamental. Ce sont ces données qui serviront de cibles à nos modèles prédictifs. Nous avons effectué un premier filtre grossier afin d’enlever les molécules vides ou contenant un unique atome. Afin de limiter la taille des entrées de nos modèles, nous avons fixé une taille maximale de 60 atomes (bien supérieure aux 23 atomes du jeu de données QM9), ce qui permet de garder la quasi-totalité des molécules de cette base. Nos travaux préliminaires de curation manuelle des données nous permettent d’affirmer qu’une partie de ces calculs sont faux, au sens où il n’arrivent pas à optimiser l’état fondamental de la molécule initialement demandée. Il s’agit de calculs qui ont convergé vers une autre molécule par une modification de certaines fonctions chimiques ou en plusieurs autres molécules par une dissociation. Nous considérons dans un premier temps que ces données sont valorisables en terme d’apprentissage. Cette hypothèse ne peut pas être vérifiée actuellement faute de procédure automatique de nettoyage de la base de données, qui aurait permis de comparer les performances de nos modèles avec ou sans ces calculs.
Afin d’évaluer la qualité des prédictions lors de l’entraînement et pour guider les modèles lors de la procédure d’optimisation des poids, nous utilisons l’erreur quadratique moyenne (Root-Mean-Square Error ou RMSE). Pour yˆ i la valeur prédite pour la variable yi pour un exemple i, le RMSE de N prédictions se définit comme suit :
Lors de la prédiction d’une géométrie complète, nous adaptons cette fonction afin de prendre en compte la prédiction d’un vecteur de distances restreint aux sorties correspondant à des atomes en entrée. En effet, le nombre d’atomes variant d’une molécule à une autre, il faut masquer le vecteur de sortie. Pour yˆ i,j la valeur prédite pour la variable yi,j pour l’atome j d’une molécule i possédant Ai atomes, le PRMSE de N prédictions se définit comme suit :
Sans le masquage du PRMSE, le modèle apprendrait surtout à prédire des valeurs nulles pour les sorties ne correspondant pas à des atomes en entrée, ce qui constitue une tâche très simple et éloignée de nos objectifs.
L’ensemble de nos traitements ont été réalisés en Python à l’aide des bibliothèques TensorFlow et Scikit-Learn.
Représentation géométrique. Un modèle naïf consisterait à utiliser en entrée une matrice des distances interatomiques, ce qui a été utilisé avec succès par (Schütt et al., 2017) pour prédire l’énergie totale d’une molécule. Les distances relatives ont comme bonne propriété d’être indépendantes d’un repère absolu. Au-delà de quelques atomes cette représentation ne peut pas passer à l’échelle. Il est alors possible de penser à utiliser la trilatération afin de reconstruire des coordonnées avec les distances prédites à partir de 4 distances relatives. En pratique, l’accumulation d’imprécisions rend la reconstruction impossible. Nous avons finalement choisi de représenter nos positions atomiques par des distances à4 points fixes d’un repère orthonormé. La promesse de l’apprentissage profond étant de pouvoir se passer d’ingénierie des descripteurs, nous fournissons des descripteurs géométriques simples et laissons à la charge du réseau de neurones la projection dans un espace adapté de variables latentes.
Paramètres
Valeurs
Taux d’apprentissage (learning rate)
0,1 ; 0,0001 ; 0,00001
Dégradation des coefficients (weight decay)
0,001 ; 0,01 ; 0,1
Epsilon (Adam optimizer)
0,0001 ; 1000
Initialisation des poids
0,002 ; 0,2
Fonction d’activation de la couche de sortie
linéaire
Taille de lot (batch size)
500 ; 2000
Époques d’entraînement
3
Fonction d’activation des couches cachées
elu, crelu
Largeur des couches cachées
360
Nombre de couches cachées
3; 7
Taux de désactivation (dropout)
0,03 ; 0,07
TAB. 1 – Grille des paramètres pour la recherche par quadrillage pour le modèle tentant de prédire la géométrie complète d’une molécule.
Modèles. En plus des données géométriques, nous fournissons aux modèles des informations concernant la nature de chaque atome, ie. la masse et le numéro atomique, soit six descripteurs par atome. Les modèles prédictifs possédant une entrée de taille fixe et les molécules une taille variable (nombre d’atomes), nous adaptons la représentation des molécules en prévoyant une couche d’entrée capable de supporter des molécules jusqu’à 60 atomes. Lorsqu’une molécule est de taille inférieure à la taille maximale, les caractéristiques des atomes non définis sont fixées à zéro (padding). De même, l’évaluation du modèle est réalisée à l’aide du PRMSE. Les modèles testés sont tous des réseaux de neurones possédant des architectures simples. Ils sont composés d’une couche d’entrée (360 neurones), d’une couche de sortie (240 neurones) et d’un certain nombre de couches internes de taille fixe (360 neurones) et entièrement connectées, c’est à dire que chaque neurone d’une couche est connecté à tous les neurones de la couche suivante. Le nombre de couches varie en fonction des modèles (cf.table 1). Nous avons pris quelques précautions afin d’éviter le sur-apprentissage de nos modèles, notamment avec le taux de désactivation aléatoire des neurones (dropout) et la dégradation des coefficients (weight decay). Le temps d’exécution de l’entraînement d’un modèle limite grandement la possibilité d’entraîner des modèles avec des jeux de paramètres variés et un nombre élevé de validations croisées. Il faut donc effectuer un compromis entre la quantité de modèles différents à entraîner, le nombre d’entraînements de chacun de ces modèles et le nombre d’époques. Nous avons effectué une recherche par quadrillage (cf.table 1) décrivant les paramètres de 576 modèles différents avec une validation croisée à deux échantillons (2-fold CV), soit un total de 1152 entraînements. Puis le même jeu de paramètres a été utilisé afin d’entraîner le modèle sur l’ensemble des données d’entraînement (90 % du jeu de données original) en augmentant le nombre d’époques à 5. Les résultats que nous présentons sont les performances réalisées sur des données mises de côté avant l’entraînement, soit 10 % du jeu de données.
À l’issue de la recherche, en dehors de quelques modèles encore moins performants, les performances sont très similaires. Les meilleurs modèles travaillant sur des données ayant un bruit de PRMSE de 17,31 pm effectuent des prédictions de PRMSE à 10,45 pm (cf.table 2). Cela revient à réduire l’erreur à environ 60 % de sa valeur initiale, et donc à prédire 40 % du bruit. Il s’agit d’un gain qui pourrait être non négligeable, même si ce n’est pas réellement utilisable pour optimiser la géométrie des molécules. Toutefois, l’analyse détaillée révèle un comportement inattendu du modèle et remet en cause la nature du bruit introduit.
cibles
prédictions
|erreurs|
Moyenne
-0,82
-0,23
13,83
Médiane
-0,82
-0,13
11,69
Écart-type
17,31
10,45
10,45
Minimum
-94,80
-9,57
0,00
Maximum
97,24
1,23
97,80
TAB. 2 – Analyse statistique des valeurs cibles (Δ de distance engendré par le bruit), des prédictions (Δ de distance prédit) et des erreurs absolues en prédiction (en pm).
FIG. 1 – Prédictions en fonction des cibles pour le modèle prédisant une géométrie complète. À droite, le zoom permet d’observer des prédictions discrètes avec un nombre fini de valeurs.
En effet, l’analyse statistique des données bruitées révèle qu’ajouter le bruit sur les co-ordonnées plutôt que sur les distances a plus éloigné les atomes de l’origine du repère en moyenne (0.82 pm, cf.table 2). Les prédictions de notre modèle s’étendent entre -9,6 pm et 1,2 pm, alors qu’elles devraient s’étendre entre -94,8 pm et 97,2 pm. Le modèle n’arrive donc pas à suffisamment déplacer les atomes pour obtenir les géométries convergées. Pire, il semble tout juste capable de prédire une partie du biais de déplacement en prédisant en moyenne -0.23 pm avec très peu de dispersion. Cet effet est d’autant plus flagrant sur la figure 1. Il est possible de remarquer aussi que le modèle, malgré un très grand nombre de paramètres, prédit un faible nombre de valeurs discrètes. Le modèle apprend très peu, voire n’apprend rien en terme de chimie. Nous avons essayé d’introduire un bruit plus faible ou de l’introduire directement sur les distances, mais nous avons obtenu des résultats similaires. Cette expérience, montre la complexité du problème à résoudre, cependant la tâche ne nous semble pas impossible et nous donnerons quelques pistes à la fin de cet article.
Classe pos.
Distances
Masse atomique
Numéro attomique
g
c
d
H
He
Li
Be
B
C
N
O
F
1
0
0
dC1,1 dC1,2
14,007
0
0
0
0
0
0
1
0
0
0
0
1
dC1,2 dC2,2
15,999
0
0
0
0
0
0
0
1
0
...
...
...
...
...
...
...
...
...
...
...
...
...
...
0
0
0
0
0
0
0
0
0
0
0
0
0
0
TAB. 3 – Représentation des données d’une liaison en entrée des modèles tentant de prédire des distances carbone-carbone. Pour un atome k du voisinage de la liaison, la distance au premier (resp. second) atome de carbone est notée dC1,k(resp. dC2,k).
Les modèles décrits dans cette section ont pour objectif de prédire la distance entre des atomes partageant une liaison covalente au sein d’une molécule. L’objectif n’est donc plus de résoudre le problème de prédiction d’une géométrie moléculaire convergée complète, mais plutôt d’en résoudre une version locale simplifiée.
Problème et données. La liaison carbone-carbone est la liaison chimique la plus complexe de la chimie organique. Nous en avons extrait 6,5 millions de la base PubChemQC, dont 80 % servent à l’entraînement de nos modèles et 20 % à la validation. La représentation de la distribution de cette distance dans notre jeu de données montre une dispersion importante, entre 115 et 160 pm, avec une forte prédominance de liaisons entre 150 et 155 pm (dite simple liaison) et autour de 140 pm (dite double liaison). On retrouve toutefois un certain nombre de triple liaisons vers 120 pm et des liaisons intermédiaires entre ces trois représentations limites (voir graphique en bas à droite de la figure 2). Une précision en dessous du picomètre permettrait de considérer une géométrie prédite comme fiable.
Représentation géométrique. La longueur d’une liaison covalente entre deux atomes dépend du type des atomes formant la liaison, mais également de l’influence des atomes au voisinage de la liaison. L’influence des atomes du voisinage dépend de leur position relative à la liaison. C’est pour cette raison qu’en plus des distances, nous introduisons la notion de classe positionnelle qui va représenter de quel côté de la liaison chaque atome se trouve. Les atomes peuvent donc être « à gauche », « au centre » ou « à droite » de la liaison. Formellement, on compare la position des atomes aux deux plans normaux à la liaison et passant par les atomes de la liaison. Si un atome est entre les deux plans, il est de classe « centre », sinon il est de classe « gauche » ou « droite » en fonction du plan dont il est le plus proche. Puisque l’on se place dans le repère relatif de la liaison et qu’il n’y existe pas de notion absolue de gauche ou de droite, ces deux classes sont interchangeablesà condition que les atomes appartenant à une classe soient tous à distance minimale du même plan.
Horizon. L’influence des atomes au voisinage étant inversement proportionnelle à leur distance aux atomes de la liaison, elle décroît rapidement lorsque ils s’en s’éloignent. Donc, l’influence des atomes qui ne sont pas au voisinage direct peut être considérée comme négligeable. Dans le but de tester cette hypothèse et de simplifier la tâche à notre modèle, dit « avec horizon », nous avons choisi d’implémenter un seuil au-delà duquel les voisins ne sont plus considérés. En pratique, ce seuil a été choisi pour correspondre à une réalité chimique : garder uniquement les distances pouvant correspondre à des liaisons covalentes proches de la liaison carbone-carbone étudiée, soit 200 pm.
Paramètres
Valeurs
Taux d’apprentissage (learning rate)
0,01
Dégradation des coefficients (weight decay)
0,001
Epsilon (Adam optimizer)
0,001
Initialisation des poids
0,001
Fonction d’activation de la couche de sortie
linéaire
Taille de lot (batch size)
10000
Époques d’entraînement
300
Fonction d’activation des couches cachées
elu
Largeur des couches cachées
870
Nombre de couches cachées
3
Taux de désactivation (dropout)
0,02
TAB. 4 – Paramètres des modèles tentant de prédire des distances carbone-carbone.
Modèles. En plus des informations géométriques, nous ajoutons la masse et le numéro atomique de chaque atome au voisinage de la liaison. Le numéro atomique est encodé de façon booléenne (one-hot encoding). Cela a pour but de ne pas instaurer de relation d’ordre entre les différents atomes et donc a priori de mieux guider les modèles lors de l’apprentissage. Cela implique toutefois de déterminer une limite aux numéros atomiques des atomes acceptés par un modèle. En effet, cet encodage coûte un attribut pour chaque numéro atomique accepté et cela pour chaque atome au voisinage de la liaison. Afin de travailler sur des modèles de taille raisonnable, nous acceptons les atomes de numéro atomique inférieur ou égal à celui du fluor, ce qui correspond à9 attributs encodant le numéro atomique pour chaque atome du voisinage. La classe positionnelle de chaque atome par rapport à la liaison est également représentée en one-hot encoding. Ainsi, il faut 15 attributs par atome dans le voisinage. La grande majorité des molécules de notre jeu de données étant de taille inférieure à 60 et les deux atomes composant la liaison n’apparaissant pas dans les entrées, nous choisissons de limiter le voisinage de la liaison à 58 atomes, soit une couche d’entrée de taille 870. Les molécules possédant un nombre variable d’atomes et l’entrée des modèles étant de taille fixe, nous effectuons une procédure de padding des données : lorsqu’une liaison possède moins de 58 voisins, les blocs correspondant aux atomes non définis valent zéro. La table 3 illustre les entrées de nos modèles. Ceux-ci possèdent 3 couches cachées entièrement connectées de largeur 870 et un unique neurone de sortie dont l’objectif est de prédire la distance entre les deux atomes de carbone. Nous avons pris quelques précautions afin d’éviter le sur-apprentissage de nos modèles, notamment avec le taux de désactivation aléatoire des neurones (dropout) et la dégradation des coefficients (weight decay) (cf.table 4). Les résultats que nous présentons sont les performances réalisées sur des données mises de côté avant l’entraînement, soit 20 % du jeu de données.
FIG. 2 – Analyse graphique du modèle tentant de prédire des distances carbone-carbone sans horizon. À gauche, l’histogramme de distribution des erreurs. Au centre, l’histogramme de distribution des erreurs en échelle logarithmique. En haut à droite, le tracé des distances prédites (en ordonnée) en fonction des distances cibles (en abscisse) à mettre en relation avec l’histogramme de distribution des distances cibles en bas à droite.
Le tableau 5 fournit les résultats de l’analyse statistique des erreurs de prédiction des modèles. Les deux modèles obtiennent des performances très satisfaisantes qui permettent d’envisager leur utilisation en pratique. La restriction au plus proche voisinage améliore significativement les performances sur notre jeu de données. Les analyses graphiques des erreurs et des prédictions (figure 2 et 3) des modèles prédisant les longueurs de liaisons entre des atomes de carbone font nettement apparaître la diminution des erreurs importantes. Malgré la quantité de données disponibles, l’espace réel présente une concentration importante sur deux types de distances. Le modèle sans horizon a tendance à ramener, entre autres, les liaisons très courtes (< 130 pm) vers 140 pm. Avec le seuil de 200 pm, une meilleure continuité des prédictions entre les différents types de liaisons apparaît. Soit le modèle sans horizon, plus complexe, ne dispose pas d’assez d’exemples pour bien prédire les distances ayant un faible effectif, soit il n’a pas encore convergé. En ajoutant l’horizon, le modèle est plus simple et possède suffisamment d’exemples pour converger rapidement vers une meilleure solution.
Métrique
Sans horizon
Avec horizon
Moyenne
0,833
0,342
Médiane
0,460
0.267
Écart-type
1,207
0,337
Minimum
0,000
0,000
Maximum
30,114
26,217
Erreur relative moyenne
0,006
0,002
TAB. 5 – Analyse statistique des erreurs des modèles tentant de prédire des distances carbonecarbone (en pm).
FIG. 3 – Analyse graphique du modèle tentant de prédire des distances carbone-carbone avec horizon. À gauche, l’histogramme de distribution des erreurs. Au centre, l’histogramme de distribution des erreurs en échelle logarithmique. En haut à droite, le tracé des distances prédites (en ordonnée) en fonction des distances cibles (en abscisse) à mettre en relation avec l’histogramme de distribution des distances cibles en bas à droite.
Nous avons réalisée une tentative ambitieuse en essayant de prédire la géométrie complète de molécules à partir d’une base de données (PubChemQC) large, diversifiée et imparfaite. La tâche que nous avons tentée d’accomplir avec ces modèles est théoriquement possible, cependant l’approche directe, la plus simple, est particulièrement inefficace. Le fait que le modèle effectue des prédictions constantes et l’impossibilité de produire de meilleurs résultats à l’issue de la recherche par quadrillage ont mené à l’abandon de la méthode pour prédire des géométries moléculaires convergées, au profit d’une méthode plus locale. Toutefois, nous pouvons essayer d’en tirer quelques explications et de nouvelles pistes. Premièrement, les modèles que nous avons entraînés sont des modèles aux architectures relativement simples, avec un nombre de neurones et de connexions limité par les capacités matérielles actuelles. Des architectures plus complexes auraient pu mener à de meilleures performances pour les mêmes données. Un autre écueil pourrait être le manque de données. Même si nous travaillons sur un jeu de données conséquent, il s’agit peut-être d’une quantité insuffisante pour une tâche aussi complexe. Il est également possible que le problème soit lié à notre méthodologie et notamment à l’ajout du bruit sur les données à prédire. Enfin, il est probable, et c’est cette piste de travail que nous souhaitons privilégier pour la suite, qu’il nous manque les bons descripteurs des molécules en entrée des modèles. En effet, les travaux récents mêlant chimie moléculaire et apprentissage obtiennent des résultats très convaincants en utilisant des filtres de convolution reflétant les lois fondamentales de la physique et ayant les propriétés recherchées pour ce type d’application : invariance à l’indexation et à la translation/rotation des atomes (Schütt et al., 2018). La même logique a été déclinée pour l’utilisation de méthodes à noyaux (Bartók et al., 2017; Musil et al., 2018). Les travaux de Sinitskiy et Pande (2018) utilisent une représentation discrétisée dans l’espace (volume 3D) et entraînent des réseaux de neurones convolutifs. Il faut tout de même noter que des distances interatomiques ont été utilisées avec succès par Schütt et al. (2017) afin de prédire l’énergie totale d’une molécule en fonction de sa géométrie. Nous avons donc choisi dans un premier temps d’étudier un sous-problème plus simple.
Les modèles tentant de prédire la distance carbone-carbone travaillent sur des données parfaites, c’est à dire qu’il prédisent des longueurs de liaisons dans des molécules dont la géométrie a déjà été optimisée. Cela nous permet de confirmer notre capacité à effectuer des prédictions d’ordre géométrique en utilisant des distances interatomiques. Afin de prédire avec une haute précision l’immense majorité des distances de la base de données, de la connaissance métier a été introduite dans le modèle d’apprentissage par le biais d’un seuil. Ce seuil permet de mieux discriminer l’environnement proche ayant un fort impact sur la distance calculée. Cette information, relativement simple, limite aussi la taille des données à fournir au modèle. Nous avons également entraîné des modèles sur des liaisons plus simples comme la liaison carbone-hydrogène et la liaison oxygène-hydrogène et les performances sont du même ordre de grandeur. En complément, nous avons testé des modèles de type support vector machine (SVM) et Kernel Ridge Regression (KRR) sans obtenir de résultats aussi convaincants. Au final, seule une dizaine de cas sur plusieurs millions d’exemples semble poser des problèmes. Une application inattendue de notre modèle est la mise en évidence d’un défaut de curage de la PubChemQC avec des résultats ayant mal été calculés Ainsi notre modèle a été capable de s’entraîner sur des données imparfaites sans sur-apprendre et sa capacité en généralisation permet de mettre en exergue une partie des données de mauvaise qualité dans les données d’origine. Notre modèle peut donc être utilisé afin de vérifier qu’une molécule ne possède pas une longueur de liaison carbone-carbone aberrante ou au contraire, mettre en avant les situations exceptionnelles, importantes en réactivité chimique. Cette piste nous intéresse particulièrement dans le cadre du projet QuChemPedIA, dont un des volets vise à fournir une base de données libre, collaborative et nettoyée pour la chimie quantique moléculaire. La suite de ce travail sur les modèles localisés serait de constituer une procédure itérative combinant différents modèles (réseaux de neurones et modèles à noyaux) et d’ajouter la notion d’angles.
Ce travail a été financé par un projet d’amorçage de la commission de la recherche de l’Université d’Angers (QuChemPedIA). Les moyens de calcul ont été mis à disposition par le laboratoire LERIA, mercià Jean-Mathieu Chantrein pour son aide.
Bartók, A. P., S. De, C. Poelking, N. Bernstein, J. R. Kermode, G. Csányi, et M. Ceriotti (2017). Machine learning unifies the modeling of materials and molecules. Science Advances 3(12), e1701816.
Gubaev, K., E. V. Podryabinkin, et A. V. Shapeev (2018). Machine learning of molecular properties : Locality and active learning. The Journal of Chemical Physics 148(24), 241727.
Hy, T. S., S. Trivedi, H. Pan, B. M. Anderson, et R. Kondor (2018). Predicting molecular properties with covariant compositional networks. The Journal of Chemical Physics 148(24), 241745.
Musil, F., S. De, J. Yang, J. E. Campbell, G. M. Day, et M. Ceriotti (2018). Machine learning for the structure–energy–property landscapes of molecular crystals. Chemical Science 9(5), 1289–1300.
Nakata, M. et T. Shimazaki (2017). PubChemQC Project : A Large-Scale First-Principles Electronic Structure Database for Data-Driven Chemistry. Journal of Chemical Information and Modeling 57(6), 1300–1308.
Schneider, G. (2018). Generative Models for Artificially-intelligent Molecular Design. Molecular Informatics 37(1-2), 1880131.
Schütt, K. T., F. Arbabzadah, S. Chmiela, K. R. Müller, et A. Tkatchenko (2017). Quantumchemical insights from deep tensor neural networks. Nature Communications 8, 13890.
Schütt, K. T., H. E. Sauceda, P.-J. Kindermans, A. Tkatchenko, et K.-R. Müller (2018). SchNet – A deep learning architecture for molecules and materials. The Journal of Chemical Physics 148(24), 241722.
Sinitskiy, A. V. et V. S. Pande (2018). Deep Neural Network Computes Electron Densities and Energies of a Large Set of Organic Molecules Faster than Density Functional Theory (DFT). arXiv :1809.02723 [physics]. arXiv: 1809.02723.
Tabor, D. P., L. M. Roch, S. K. Saikin, C. Kreisbeck, D. Sheberla, J. H. Montoya, S. Dwaraknath, M. Aykol, C. Ortiz, H. Tribukait, C. Amador-Bedolla, C. J. Brabec, B. Maruyama, K. A. Persson, et A. Aspuru-Guzik (2018). Accelerating the discovery of materials for clean energy in the era of smart automation. Nature Reviews Materials 3(5), 5–20.
