Le groupe de travail CAVIAR vous propose une activité dédiée aux doctorants avec un programme qui s’étalera sur l’année. L’idée du DP-CAVIAR (doctoral Caviar Program) est de donner l’occasion à nos doctorants de présenter leurs travaux sous la forme d’un séminaire en ligne d’une heure (une demi-heure de présentation + une demi-heure de discussion) en présence d’un petit comité qui désignera le gagnant du prix de la meilleure présentation à la fin de l'année. Les présentations seront ouvertes à tout le monde. Nous organiserons au moins une présentation par mois (idéalement un vendredi entre 10h et 12h) à partir du mois de janvier prochain et jusqu’à fin juin. Le comité se réunira en juillet pour désigner le gagnant qui recevra une somme d’argent de 200 euros. Le comité est formé de :
Les présentations sont enregistrées et disponibles sur la chaîne YouTube du groupe de travail. Le comité évalue chaque présentation selon les critères suivants :
Date : Le 02/02/2024 à 11h
Résumé : L'acquisition de contraintes consiste à apprendre un réseau de contraintes à partir d'exemples de solutions et de non-solutions. Les méthodes d'acquisition de contraintes existantes requièrent généralement que le langage de contraintes du réseau cible soit connu à l'avance, ce qui réduit considérablement le champ d'application de ces méthodes. Nous proposons une méthode d'acquisition de contraintes qui détermine un langage de contraintes approprié au sein du processus d'apprentissage, éliminant ainsi la nécessité d'une connaissance préalable.
Date : Le 01/03/2024 à 10h
Résumé : Constraint programming (CP) has become increasingly prevalent in recent years for performing pattern mining tasks, particularly on binary datasets. While numerous CP models have been designed for mining on binary data, there does not exist any model designed for mining on numerical datasets. Therefore these kinds of datasets need to be pre-processed to fit the existing methods. Afterward a post-processing is also required to recover the patterns into a numerical format. This paper presents two CP approaches for mining closed interval patterns directly from numerical data. Our proposed models seamlessly execute pattern mining tasks without any loss of information or the need for pre- or post-processing steps. Experiments conducted on different numerical datasets demonstrate the effectiveness of our proposed CP models compared to other methods.
Date : Le 05/04/2024 à 10h
Résumé : Mon travail consiste à étudier des techniques neurosymboliques permettant d'exploiter de la connaissance logique a priori sur un ensemble de classes afin d'améliorer la performance d'un système de classification basé sur l'apprentissage profond. J'étudie plus particulièrement les techniques exploitant la logique propositionnelle probabiliste et qui agissent sur la fonction de perte du système ou sur le processus d'inférence.
Date : Le 06/05/2024 à 10h
Résumé : Le clustering sous contraintes permet d'intégrer des connaissances sur les données sous forme de contraintes pour guider le calcul de partition. Les algorithmes de l'état de l'art nécessitent souvent que l'utilisateur puisse fournir toutes les contraintes utiles a priori : une tâche ardue en pratique. Nous proposons un cadre de clustering sous contraintes incrémental où l'utilisateur réagit et affine une partition existante en ajoutant des contraintes pas à pas. Dans ce cadre, nous avons développé un problème d'optimisation sous contraintes pour trouver la partition satisfaisant les contraintes utilisateur tout en restant aussi proche que possible de la partition courante.
Date : Le 06/06/2024 à 10h
Résumé : The importance of interpretability extends across various machine learning domains including clustering. Indeed, unsupervised clustering tasks often necessitate validation and understanding by domain experts. Our work introduces a novel interpretable clustering approach, seeking both high-quality clustering according to classic criteria and cluster explainability. In our context, we consider that a good cluster explanation should highlight properties that are frequent (coverage) and that distinguish it from the other clusters (discrimination). Our work can be compared to clustering ensemble methods that generate many base partitions and return a single final partition. While multiple approaches aiming at integrating expert knowledge in clustering ensemble methods have been introduced in recent years, none has focused on cluster selection from a set of clusters, nor on interpretability. The interpretable constrained clustering method that we propose leverages two views of data: one for clustering and another Boolean for generating explanations. The model starts by building a pool of candidate clusters and covering patterns for each of these clusters. The subsequent step relies on Constraint Programming (CP) for combinatorial cluster and pattern selection to satisfy various constraints, in the end resulting in a final clustering where each cluster is explained by covering and discriminant patterns. Expert knowledge can be integrated as structural constraints, where for example Must-Link and Cannot-Link constraints can be used to decrease the number of candidate clusters,or as explanation-based constraints where the expert specifies coverage and discrimination requirements, and other constraints such as the allowed overlapping between all clusters. Contributions include a formalization of interpretable clustering, a novel CP clustering model, and the introduction of three novel clustering explana-tion quality measures. The method also allows the use of expert knowledge at different stages, enhancing the cluster selection process. In this presentation, we will detail each step of our process and present evaluation and examples of results. We will provide comparison of the impact of different parameters on different datasets. This work was funded by the ANR project InvolvD (Interactive constraint elicitation for unsupervised and semi-supervised data mining) (ANR-20-CE23-0023).
Date : Le 18/10/2024 à 15h
Résumé : Concept embeddings offer a practical and efficient mechanism for injecting commonsense knowledge into downstream tasks. Their core purpose is often not to predict the commonsense properties of concepts themselves, but rather to identify commonalities, i.e. sets of concepts which share some property of interest. Such commonalities are the basis for inductive generalisation, hence high-quality concept embeddings can make learning easier and more robust. Unfortunately, standard embeddings primarily reflect basic taxonomic categories, making them unsuitable for finding commonalities that refer to more specific aspects (e.g. the colour of objects or the materials they are made of). In this paper, we address this limitation by explicitly modelling the different facets of interest when learning concept embeddings. We show that this leads to embeddings which capture a more diverse range of commonsense properties, and consistently improves results in downstream tasks such as ultra-fine entity typing and ontology completion.