Événements à venir |
Résumé : L'habitat des baleines endémiques du Groenland est menacé par le dérèglement climatique (réchauffement de l'eau, activité humaine). Des biologistes ont recueilli des observations multidimensionnelles chez des baleines narvals pour quantifier l'impact de ces changements sur le comportement des baleines. Dans cet exposé, on présentera quelques modèles statistiques utilisés pour analyser ces données. En particulier, on discutera des modèles stochastiques sous forme d'équations différentielles stochastiques (EDS) qui permettent de caractériser les déplacements des baleines. Ces EDS peuvent être multidimensionnelles, hypoelliptiques et partiellement observées. On discutera la question de l'estimation des paramètres de ces modèles à partir d'observations à temps discrets. |
|
Événements passés |
Résumé : Un des objectifs en inférence causale est l’estimation des effets causaux des causes établies pour un évènement donné (par exemple la survenue d’une maladie). Dans cet exposé, je présenterai un aperçu des Structural Causal Models (SCMs, développés notamment par Pearl). Les SCMs reposent sur deux outils principaux : les DAGs (Directed Acyclic Graphs) et les SEMs (Structural Equation Models), qui décrivent le système causal conduisant à l’évènement étudié. Les SCMs présentent plusieurs avantages par rapport à d’autres cadres introduits précédemment, comme les Marginal Structural Models de Robins. Ils permettent en particulier la définition précise des variables contrefactuelles (ou résultats potentiels), et la clarification de certaines hypothèses classiques telles de la consistance et l'ignorabilité. Ils permettent également d’étudier des conditions sur le DAG, assurant l’identifiabilité des effets causaux à partir des données disponibles, et ce en présence de biais de confusion et/ou de sélection. Si le temps le permet, j’évoquerai également le principe des analyses en médiation qui visent à décomposer les effets causaux en effet direct et indirect (médié par un médiateur), ainsi que la question des fractions attribuables (qui mesurent la proportion de cas d’une maladie qui aurait été évitée en l’absence de l’exposition). |
Résumé : Les fonctionnelles de clusters d’extrêmes ont été introduites et étudiées par Yun (2000) pour les chaînes de Markov d’ordre d. Quelques années plus tard, Segers (2003) et Drees & Rootzén (2010) fournissent des résultats asymptotiques dans le cadre des processus stationnaires unidimensionnels et multidimensionnels respectivement. Cependant, ces résultats sont démontrés sous des conditions de dépendance de type mélange, qui sont très restrictives : elles sont particulièrement adaptées aux modèles de finance et d’histoire, et elles sont de plus compliquées à vérifier. Généralement, pour d’autres modèles fréquemment rencontrés dans les domaines applicatifs, les conditions de mélange ne sont pas satisfaites. En revanche, les conditions de dépendance faible de Doukhan & Louhichi (1999) et Dedecker & Prieur (2004a) sont plus générales et comprennent une grande liste de modèles. Plus précisément, sous des conditions faibles, tous les processus causaux ou non causaux sont faiblement dépendants : les processus Gaussiens, associés, linéaires, ARCH(∞), bilinéaires et notamment Volterra entrent dans cette liste. À partir de ces conditions favorables, nous étendons certains de ces résultats aux processus faiblement dépendants. |
Résumé : This presentation will provide an update on how to manage missing data (imputation, mechanism that generate missing values, etc). Most of the methods have been developed with the objective of estimating the parameters and their variance as best as possible with missing values and not in a predictive framework. Thus, many practical questions have not been studied much: what to do with missing data in a test dataset, should the response variable be integrated into imputation methods.... In particular, we will focus on establishing predictive models with missing data with random forests that have the advantage of being able to be used to make causal inferences with double robust methods. |
Résumé : |
Résumé : Dans le secteur de l'automobile, les turbomachines sont des machines tournantes participant au refroidissement des moteurs des voitures. Leur performance dépend de multiples paramètres géométriques qui déterminent leur forme. Cette thèse s'inscrit dans le projet ANR PEPITO réunissant industriels et académiques autour de l'optimisation de ces turbomachines.. L'objectif du projet est de trouver la forme du ventilateur maximisant le rendement en certains points de fonctionnement. Dans ce but, les industriels ont développé des codes CFD (computational fluid dynamics) simulant le fonctionnement de la machine. Ces codes sont très coûteux en temps de calcul. Il est donc impossible d'utiliser directement le résultat de ces simulations pour conduire une optimisation. Par ailleurs, lors de la construction des turbomachines, on observe des perturbations sur les paramètres d'entrée. Elles sont le reflet de fluctuations des machines de production. Les écarts observés sur la forme géométrique finale de la turbomachine peuvent provoquer une perte de performance conséquente. Il est donc nécessaire de prendre en compte ces perturbations et de procéder à une optimisation robuste à ces fluctuations. Dans ce travail de thèse, nous proposons des méthodes basées sur du krigeage répondant aux deux principales problématiques liées à ce contexte de simulations coûteuses :
|
Résumé : Première partie : exposé préliminaire sur l'analyse de données en génomique
Seconde partie : We propose a novel continuous testing framework to test the intensities of Poisson Processes. This framework allows a rigorous definition of the complete testing procedure, from an infinite number of hypothesis to joint error rates. Our work extends traditional procedures based on scanning windows, by controlling the family-wise error rate and the false discovery rate in a non-asymptotic manner and in a continuous way. The decision rule is based on a pvalue process that can be estimated by a Monte-Carlo procedure. We also propose new test statistics based on kernels. Our method is applied in Neurosciences and Genomics through the standard test of homogeneity, and the two-sample test. |
Résumé : L’exposé est prévu en deux parties : une première au cours de laquelle les liens entre apprentissage statistique et extrêmes seront discutés, c.à.d. comment des résultats sur les extrêmes peuvent être obtenus en manipulant des bornes de concentration à la Vapnik. Les garanties que cela peut fournir sur des problèmes d'estimation de support ou de classification seront aussi abordées. Dans une seconde partie, le travail joint avec Hamid Jalalzai et Stephan Clémençon sera présenté, dont voici un résumé : In a wide variety of applications involving anomaly detection (e.g. buzzes in social network data, frauds, system failures), extreme observations play a key role because anomalies often correspond to large observations. The key issue is then to distinguish between large observation from the normal class and large observations from the anomaly class. This task can thus be formulated as a binary classification problem in extreme regions. However, extreme observations generally contribute in a negligible manner to the (empirical) error, simply because of their rarity. As a consequence, empirical risk minimizers generally perform very poorly in extreme regions. This paper develops a general framework for classification of extreme values. Precisely, under non-parametric heavy-tail assumptions, we propose a natural and asymptotic notion of risk accounting for predictive performance in extreme regions. We prove that minimizers of an empirical version of this dedicated risk lead to classification rules with good generalization capacity, by means of maximal deviation inequalities in low probability regions. Numerical experiments illustrate the relevance of the approach developed.On considère le problème d'estimer la position et l'intensité de sources ponctuelles réparties en $L$ groupes, ou "spike trains" et dont chacun est convolué par une "point spread function" $g(\dots/\mu_l)$, $l=1,\ldot,L$. Dans de multiples applications, seule la somme de ces spike trains convolués, appelée "mélange", est accessible à l'observation. Ce problème est une géneralisation du problème de super-résolution, qui correspond au cas $L = 1$, et qui a été l'objet d'une récente et intense activité de recherche, sous l'impulsion de Azais, de Castro, Gamboa, Cand\`es, Fernandes-Granda, Recht, Schiebinger, Bandari, Moitra, etc. Nous démontrons dans ce travail qu'en choisissant des échantillons de la transformée de Fourier du mélange de manière adéquate, l'application successive d'un algorithme proposé récemment par Moitra permet d'estimer la position des sources dans chaque groupe avec des garanties non asymptotiques précises. Ces résultats seront appuyés par des illustrations numériques. » Voir https://arxiv.org/pdf/1807.02862.pdf |
Résumé : Que ce soit pour les systèmes de recommandation, pour l'allocation dynamique de ressources ou pour l'exploration des arbres dans les jeux, de nombreux systèmes de décision automatiques s'appuient sur le modèle simple dit du "bandit manchot" où un agent doit choisir, à chaque instant, une source aléatoire dont il observe ensuite une réalisation. |
Résumé : Première partie : exposé préliminaire sur l'analyse de données en génomique
Seconde partie : We propose a novel continuous testing framework to test the intensities of Poisson Processes. This framework allows a rigorous definition of the complete testing procedure, from an infinite number of hypothesis to joint error rates. Our work extends traditional procedures based on scanning windows, by controlling the family-wise error rate and the false discovery rate in a non-asymptotic manner and in a continuous way. The decision rule is based on a pvalue process that can be estimated by a Monte-Carlo procedure. We also propose new test statistics based on kernels. Our method is applied in Neurosciences and Genomics through the standard test of homogeneity, and the two-sample test. |
Résumé : Notre invité nous introduira ses problématiques de recherche autour du thème « Sociologie quantitative et pratiques physiques et sportives » ; il nous parlera d'enquêtes nationales sur les pratiques physiques et sportives, de comparaisons internationales sur la sportivité des populations, mais aussi marketing fédéral, accidentologie sportive et dopage |
Résumé : Introduction à l'acp fonctionnelle par Ryad Belhakem ~ 30 minutes
L'acp fonctionnelle est une généralisation de l'acp classique lorsque les données sont des fonctions, des courbes ou des trajectoires. De telles données surviennent tout naturellement dans des domaines différents. Par exemple dans les phénomènes où les mesures proviennent d'un processus automatisé de collecte de données (mesures de termperature, charge sur un réseau éléctrique..).
Les fonctions de données observées doivent être pensées comme des entités uniques plutôt qu'une suite d'observations individuelles : le terme fonctionnel fait référence à la structure intrinsèque des données plutôt qu'à leur forme explicite. En effet, d'un point de vue pratique, les données fonctionnelles sont généralement observés et enregistrés discrètement. Ce cadre d'approche fournit des outils supplémentaires pour l'analyse de données en grande dimension.
Pause (café) ~ 15 minutes
Minimax estimation of Functional Principal Components from noisy discretized functional data. Ryad Belhakem ~ 45 minutes
Functional Principal Component Analysis is a reference method for dimension reduction of curve data. Its theoretical properties are now well understood in the simplified case where the sample curves are fully observed without noise. However, functional data are noisy and necessarily observed on a finite discretization grid. Common practice consists in smoothing the data and then to compute the functional estimates, but the impact of this denoising step on the procedure’s statistical performance are rarely considered. Here we prove new convergence rates for functional principal component estimators. We introduce a double asymptotic framework: one corresponding to the sampling size and a second to the size of the grid. We prove that estimates based on projection onto histograms show optimal rates in a minimax sense. Theoretical results are illustrated on simulated data and the method is applied to the visualization of genomic data.
|
Résumé : Nous commencerons par parler des copules linéaires par morceaux et de leurs bonnes propriétés, puis nous construirons un estimateur pour cette classe de copule, basé sur les travaux de Ram & Gray sur les estimateur de densité par arbre. Nous montrerons la convergence de l’estimateur, discuterons quelques extensions possibles et, si le temps le permet, nous regarderons quelques exemples. » / « We will discuss the class of piecewiselinear copula, and show some of the good properties they have. Then, we will construct an estimator for this class, based on the ‘Density estimation trees’ of Ram & Gray. We show an asymptotic result for this estimator, discuss potential extensions, and if possible look at some examples. |
Résumé : Partie 1. Julien Jacques (10h-11h). Clustering de données fonctionnelles Partie 2. Martial Amovin-Assagba (11h-12h). Détection de données fonctionnelles aberrantes |
Résumé : Les courbes d'intensité-durée-fréquence (IDF) pour les précipitations extrêmes sont largement utilisées pour concevoir des infrastructures civiles telles des égouts et des digues. Toutefois, les courbes IDF ne sont parfois disponibles qu'en quelques endroits isolés. On proposera une façon d'interpoler les précipitations extrêmes relatives à plusieurs durées pour calculer des courbes IDF sur un grand domaine clairsemé. On verra qu'en l'absence de données locales, on peut faire appel à une reconstitution de la météo comme covariable pour interpoler les caractéristiques des précipitations extrêmes. Cette covariable sera incorporée à un modèle spatial bayésien hiérarchique pour les précipitations extrêmes qui s'avère particulièrement bien adapté à la structure en treillis de la covariable, permettant ainsi des calculs rapides et précis. À titre d'illustration, la méthodologie sera utilisée pour construire des courbes IDF pour l'est du Canada. Une vaste étude de validation croisée montrera qu'aux emplacements où les données sont disponibles, la méthode proposée améliore généralement la pratique actuelle qui consiste à prendre la courbe IDF de la plus proche station disponible. Au final, le modèle fournit des courbes IDF fiables sur l'ensemble du domaine. Ce travail a été réalisé en collaboration avec Jonathan Jalbert (Polytechnique Montréal) et Luc Perreault (IREQ). |
Résumé : Quand on observe des données fonctionnelles, il faut prendre en compte au moins 2 types de variabilités : la variabilité en amplitude et la variabilité en phase. L'alignement de données fonctionnelles (se focalisant sur la variabilité en phase) est un sujet de recherche assez ancien, qui intéresse de nombreuses communautés. Dans le tutoriel, je présenterai différentes méthodes proposées dans la littérature, allant d'outils de statistiques mathématiques (Kneip et Gasser, Annals of Statistics, 1992) à des algorithmes développés pour la reconnaissance vocale (Sakoe, IEEE Transactions on Acoustics, Speech and Signal Processing, 1978). |
Résumé : Nous nous intéressons ici à la simulation exacte de trajectoires conditionnées par un potentiel (que l'on peut voir comme une mesure de Gibbs ou une déformation de la mesure d'un processus aléatoire). Dans la première partie de l'exposé, je rappellerai des notions de probabilités utiles et amusantes (algorithme de Metropolis, couplage depuis le passé) et je motiverai ces recherches (à la base, c'est un problème d'estimation par chaîne de Markov, il y a aussi un lien avec les problèmes de contrôle). Ceci devrait permettre à tout le monde de suivre la deuxième partie, dans laquelle j'expliquerai pourquoi l'algorithme proposé est bien une simulation exacte. Je donnerai aussi les résultats sur la complexité de l’algorithme. |
Résumé : |
Résumé : Résumé : Après une longue introduction consacrée aux intégrales de Kaplan-Meier, on présentera une une adaptation de la méthode de rétro-ajustement de splines par noyau (spline backfitted kernel) lorsque la variable réponse est censurée. On commencera par décrire la procédure dans le cas non censuré, puis son utilisation sur des données synthétiques pour gérer la censure. On mettra notamment en évidence l'utilisation des intégrales de Kaplan-Meier dans la démonstration de certains résultats. |
Résumé : On considère le problème d'estimer la position et l'intensité de sources ponctuelles réparties en $L$ groupes, ou "spike trains" et dont chacun est convolué par une "point spread function" $g(\dots/\mu_l)$, $l=1,\ldot,L$. Dans de multiples applications, seule la somme de ces spike trains convolués, appelée "mélange", est accessible à l'observation. Ce problème est une géneralisation du problème de super-résolution, qui correspond au cas $L = 1$, et qui a été l'objet d'une récente et intense activité de recherche, sous l'impulsion de Azais, de Castro, Gamboa, Cand\`es, Fernandes-Granda, Recht, Schiebinger, Bandari, Moitra, etc. Nous démontrons dans ce travail qu'en choisissant des échantillons de la transformée de Fourier du mélange de manière adéquate, l'application successive d'un algorithme proposé récemment par Moitra permet d'estimer la position des sources dans chaque groupe avec des garanties non asymptotiques précises. Ces résultats seront appuyés par des illustrations numériques. » Voir https://arxiv.org/pdf/1807.02862.pdf |
Résumé : Laurent Modolo de 9h à 10h Analyse de données génomiques au Laboratoire de Biologie et Modélisation de la Cellule Laurent Jacob de 10h à 11h Using connected subgraphs of the De Bruijn graph as variants in bacterial GWAS
https://univ-lyon1.webex.com/univ-lyon1/j.php?MTID=mb77a1b17386db8ce8e69a948c755a595 |
Résumé : L’objectif de cet exposé à 4 mains est d’introduire la problématique d’évaluation de risques extrêmes dans un contexte environnemental. Partie 1 : Anne-Laure Fougères (15h15 - 15h50~) Pas de pause (exposés courts) Partie 2 : Pierre Ribereau (15h55 - 16h15~) |
Résumé : Résumé : Dans de nombreuses applications (neurosciences, finance, géophysique), les données se présentent sous la forme de séries temporelles multivariées. Par exemple, en neurosciences, des signaux mesurant l'activité cérébrale sont associés à différentes zones du cerveau et donc modélisés par des séries temporelles multivariées [1]. Dans ce contexte, le but va être de comprendre la structure des données. Ceci permet en particulier de mettre en évidence les différentes caractéristiques des séries d'intérêt, mais aussi de répondre de manière plus pertinente à un certain nombre de questions statistiques : prédiction, classification, détection de rupture.... |
Résumé : Models for spatial extremes must account appropriately for asymptotic dependence, and this motivates the use of max-stable processes, which are the only non-trivial limits of properly rescaled pointwise maxima of random functions. The Brown-Resnick max-stable process has proven to be well-suited for modeling extremes of complex environmental processes, but in many applications its likelihood function is unobtainable and inference must be based on a composite likelihood, thereby preventing the use of classical Bayesian techniques. In this talk I will describe a new approach to full likelihood inference for max-stable processes, using componentwise maxima and their partitions in terms of individual events. This approach will be illustrated by the construction of a Bayesian hierarchical model for extreme low temperatures in northern Finland. |
Résumé : |
Résumé : - Part 1: A tour on Bayesian nonparametric models, from the Dirichlet process to some of its extensions
- Part 2: Bayesian nonparametric inference for discovery probabilities
The longstanding problem of discovery probabilities dates back to World War II with Alan Turing codebreaking the Axis forces Enigma machine at Bletchley Park. The problem can be simply sketched as follows. An experimenter sampling units (say animals) from a population and recording their type (say species) asks: What is the probability that the next sampled animal coincides with a species already observed a given number of times? or that it is a newly discovered species? Applications are not limited to ecology but span bioinformatics, genetics, machine learning, multi-armed bandits, and so on.
In this talk I describe a Bayesian nonparametric (BNP) approach to the problem and compare it to the original and highly popular estimators known as Good-Turing estimators. More specifically, I start by recalling some basics about the Dirichlet process which is the cornerstone of the BNP paradigm. Then I present a closed form expression for the posterior distribution of discovery probabilities which naturally leads to simple credible intervals. Next I describe asymptotic approximations of the BNP estimators for large sample size, and conclude by illustrating the proposed results through a benchmark genomic dataset of Expressed Sequence Tags. (Joint work with Stefano Favaro (University of Torino); Bernardo Nipoti (Trinity College, Dublin); Yee Whye Teh (University of Oxford)). Manuscript available at https://arxiv.org/abs/1506.04915 |
Résumé : La théorie des valeurs extrêmes spatiales propose des outils statistiques pour caractériser, modéliser et prédire la fréquence et l'ampleur de phénomènes extrêmes tels que les tempêtes de vent, les pluies torrentielles ou les vagues de chaleur ou de froid. Je rappellerai brièvement cette théorie et les lois asymptotiques qui en découlent. En particulier, les processus limites max-stables, obtenus pour des observations de maxima, sont des modèles bien adaptés à capter la dépendance asymptotique, caractérisée par la co-occurrence de très fortes valeurs sur les sites proches en cas d'un événement extrême.
Or, dans beaucoup de cas, l'exploration empirique de la dépendance spatiale extrémale des variables climatiques suggère que l'hypothèse de dépendance asymptotique est pour le moins contestable. Cette observation se manifeste dans une étendue spatiale des valeurs les plus fortes qui devient de plus en plus confinée pour les phénomènes les plus rares. C'est sur ce fond que nous explorerons ici des modèles de type mélange d’échelle gaussien („Gaussian scale mixtures“), capables de mieux capter l'indépendance asymptotique que les modèles asymptotiques classiques. En emboîtant une variable aléatoire positive pour la variance d’un champs gaussien, il est possible d'obtenir les deux régimes de dépendance asymptotique et d’indépendance asymptotique. Je présenterai un nouveau modèle de copule spatiale basé sur une loi pour la variance aléatoire dont les deux paramètres caractérisent la force de dépendance extrémale. Ensuite, j’expliquerai l’ajustement de ce modèle aux dépassements d'un seuil élevé fixé par une approche de maximum de vraisemblance censurée. Un exemple d’utilisation de ce modèle sera présenté pour un jeu de données de vitesses du vent mesurées dans le Pacifique Nord-Ouest, USA. |
Résumé : First Part Clusters Everywhere: A tour of cluster analysis and its application This talk will give an overview of cluster analysis, including some history of the development of clustering, approaches taken and examples of its application in science, medicine and social science. Second Part Model-based Clustering with Sparse Covariance Matrices Finite Gaussian mixture models are widely used for model-based clustering of continuous data. Nevertheless, since the number of model parameters scales quadratically with the number of variables, these models can be easily over-parameterized. For this reason, parsimonious models have been developed via covariance matrix decompositions or assuming local independence. However, these remedies do not allow for direct estimation of sparse covariance matrices nor do they take into account that the structure of association among the variables can vary from one cluster to the other. To this end, we introduce mixtures of Gaussian covariance graph models for model-based clustering with sparse covariance matrices. A penalized likelihood approach is employed for estimation and a general penalty term on the graph configurations can be used to induce different levels of sparsity and incorporate prior knowledge. Model estimation is carried out using a structural-EM algorithm for parameters and graph structure estimation, where two alternative strategies based on a genetic algorithm and an efficient stepwise search are proposed for inference. With this approach, sparse component covariance matrices are directly obtained. The framework results in a parsimonious model-based clustering of the data via a flexible model for the within-group joint distribution of the variables. Extensive simulated data experiments and application to illustrative datasets show that the method attains good classification performance and model quality. This work was completed with Michael Fop and Luca Scrucca
|
Résumé : |
Résumé : Étudier la dépendance des extrêmes multivariés est l’un des enjeux majeurs de la théorie des valeurs extrêmes. Sous l’hypothèse de variation régulière, cette structure de dépendance est caractérisée par une mesure, appelée mesure spectrale, qui est définie sur l’orthant positif de la sphère unité. Cette mesure regroupe l’information sur la localisation des événements extrêmes. Son support est souvent parcimonieux puisque de tels événements n’apparaissent pas simultanément dans toutes les directions de l’espace. Cependant, elle est définie comme limite faible de probabilités ce qui rend difficile l’estimation d’un tel support. Dans cet exposé, nous introduisons la notion de variation régulière parcimonieuse qui permet de mieux identifier la structure parcimonieuse des extrêmes. d’un vecteur X. Nous utilisons ensuite ce concept dans un cadre statistique et proposons une procédure qui met en évidence des clusters de coordonnées extrêmes de X. Cette approche inclut aussi la sélection d’un seuil au-dessus duquel les valeurs prises par X sont considérées comme extrêmes. Nous proposons alors un algorithme appelé MUSCLE et nous l’illustrons sur des données simulées. Nous l’appliquons enfin à l’étude des vitesses de vent en Irlande. |
Résumé : De nombreux problèmes en science des données (régression, classification, clustering, etc.) conduisent à la la minimisation d'une certaine fonction de risque qui mesure l'adéquation entre un modèle et les données. Cependant, lorsque le nombre de paramètres du modèle devient grand et que la difficulté du problème augmente, la minimisation du risque devient plus difficile et la stabilité du modèle obtenu se dégrade.
https://univ-lyon1.webex.com/univ-lyon1/j.php?MTID=ma4c0dedcf0578be39b3809e492f94759
|
Résumé : Dans la plupart des études, le nombre de variables peut prendre des valeurs élevées ce qui rend leur analyse et leur visualisation assez difficile. Cependant, plusieurs méthodes statistiques ont été conçues pour réduire la complexité de ces données, en utilisant les coordonnées des individus ou bien les distances entre les individus, et permettant ainsi une meilleure compréhension des connaissances disponibles dans ces données. Dans cet exposé, je présenterai deux nouvelles méthodes d’analyse des données multivariées basées sur l’utilisation des distances entre les paires d’individus. |
Résumé : Cet exposé s'intéresse à l'estimation d'une mesure de probabilité discrète $\mu_0$ impliquée dans un modèle de mélange. Utilisant des résultats récents en régularisation l1 sur l'espace des mesures, nous considérerons un problème d'optimisation convexe pour l'estimation de $\mu_0$ sans faire appel à l'utilisation d'une grille. Le traitement de ce problème d'optimisation nécessite l'introduction d'un certificat dual. Nous discuterons ensuite les propriétés statistiques de l'estimateur obtenu en s'intéressant en particulier au cas gaussien. |
Résumé : Integral estimation in any dimension is an extensive topic, largely treated in the literature, with a broad range of applications. Monte-Carlo type methods arise naturally when one looks forward to quantifying/controlling the error. Many methods have already been developped: MCMC, Poisson disk sampling, QMC (and randomized versions), Bayesian quadrature, etc. In this talk, I’ll consider a different approach which consists in defining the quadrature nodes as the realization of a spatial point process. In particular I’ll show that a very specific class of determinantal point processes, a class of repulsive point patterns, has excellent properties and is able to estimate efficiently integrals for non-differentiable functions with an explicit and faster rate of convergence than current methods. |
Résumé :
|
Résumé : Many applications, such as recommendation systems or sports tournaments, involve pairwise comparisons within a collection of n items, the goal being to use this data in order to infer the latent strength and/or global ranking of the items. Existing results for this problem predominantly focus on the setting consisting of a single comparison graph G. However, there exist scenarios (e.g., sports tournaments) where the the pairwise comparison data evolves with time but theoretical results for this dynamic setting are relatively limited. Given a sequence of comparison graphs (G_t)_t on a regular grid, the aim is to recover the latent strength of each item i for each time t. We study an extension of the classic BTL (Bradley-Terry-Luce) model under a Lipschitz-type smoothness assumption, and the Translation Synchronization problem in this dynamic setting under a more global smoothness assumption. We discuss theoretical error bounds for each proposed estimators. Experiments on synthetic and real datasets complement these findings.
|
Résumé : La classification non-supervisée, ou clustering, consiste à regrouper des observations en K classes, ou clusters, et donne lieu à de nombreuses applications. L'approche statistique de ce problème consiste à supposer les observations issues d'un mélange probabiliste de K lois paramétriques dont les paramètres et proportions sont à estimer. Face à des données multivariées de différentes natures et de grande dimension, les défis liés à la sur-paramétrisation des modèles standards nécessite une attention particulière. Dans cet exposé, je présenterais deux modèles de mélanges respectivement pour les données continues et de comptage (discrètes) en grande dimension. Pour chacun de ces modèles, je détaillerais un algorithme de clustering et proposerais une illustration sur données réelles pour le débruitage d'image et le clustering de rapports médicaux. |
Résumé : Thierry Gonon - EC Lyon de 10h45 à 11h30 Régression par processus Gaussien dans des espaces emboîtés Hugues Van Assel - ENS Lyon de 11h45 à 12h30 A Probabilistic Graph Coupling View of Dimension Reduction Dimension reduction is a long-standing problem for which many algorithms have been proposed. Most popular approaches include spectral (PCA-like algorithms) and pairwise similarity coupling methods (tSNE-like). Deciphering which approach is best suited to a particular case is tedious as these cannot be easily compared. In this talk, we will show that they can be unified as instances of a latent graph coupling model. These graphs induce a Markov random field dependency structure among the observations in both input and latent spaces. Interestingly, what distinguish each method are the priors considered for the latent structuring graphs. Then we will show that methods relying on shift-invariant kernels (e.g. tSNE) suffer from a statistical deficiency that explains poor performances in preserving large scale dependencies and focus on mitigating this effect with a new initialization of the embeddings. |
Résumé : R packages are a great way to write and structure your R codes, to facilitate the use, re-use and evolution of your codes, for others but also for your future self. Through an R package, you can write and distribute R codes with documentation, examples, automatic tests, etc., and it gives you a framework to follow development and coding good practices. |
Résumé : Depuis quelques années, les questions et méthodes de traitement de signal et des images ont été développées pour pouvoir aborder des problèmes d'analyse de données déployées sur des réseaux ou graphes. Ont ainsi été proposées des équivalents de transformées de Fourier de données (ou signaux) sur graphes, des décompositions multi-échelles de type ondelettes, des bancs de filtres, des résultats d'échantillonnage sur graphes,... Dans cet exposé, nous aborderons les éléments qui fondent ces travaux de traitement des signaux sur graphes, en présentant des concepts de base, des résultats simples de ces travaux et nous verrons quelques travaux et développement récents dans ce domaine. Des exemples d'utilisation et d'application, par exemple pour de la compression de données sur graphes ou de la classification (dans un contexte d'apprentissage statistique ou de recherche de communautés dans des réseaux complexes) seront discutés. |
Résumé : The statistical analysis of Next-Generation Sequencing (NGS) data has raised many computational challenges regarding modeling and inference. High-throughput technologies now allow to monitor the expression of thousands of genes while considering a growing number of individuals, such as hundreds of individual cells. Despite the increasing number of observations, genomic data remain characterized by their high-dimensionality. Analyzing such data requires the use of dimension reduction approaches, in particular for data exploration. In this context, we will focus on unsupervised compression methods, i.e. representation of the data into a lower dimensional space. We will consider the framework of matrix factorization for count data. We propose a model-based approach that is very flexible, and that accounts for over-dispersion as well as zero-inflation (both characteristic of single-cell data). Our matrix factorization method relies on a Gamma-Poisson hierarchical model for which we derive an estimation procedure based on variational inference. In this scheme, we consider variable selection based on a spike-and-slab model suitable for count data. The interest of our procedure for data reconstruction, visualization and clustering is illustrated in simulation experiments and by preliminary results of an on-going analysis of single-cell data. |
Résumé : Members of the well-known family of bivariate Galambos copulas can be expressed in a closed form in terms of the univariate Fr ́echet distribution. This formula extends to any dimension and can be used to define a whole new class of tractable multivariate copulas that are generated by suitable univariate distributions. In this presentation, I will derive the necessary and sufficient conditions on the underlying uni- variate distribution that ensure that the resulting copula indeed exists. I will also show that these new copulas are in fact dependence structures of certain max-id distributions with l1-norm symmetric exponent measure. Basic dependence properties of this new class will be investigated along with an efficient algorithm for random number generation. This is joint work with Christian Genest and Louis-Paul Rivest. |
Résumé : Dans de grandes masses de données en grande dimension, la détection automatique de points atypiques est souvent délicate. Ces points, même s’ils sont peu nombreux, peuvent fortement perturber des indicateurs simples tels que la moyenne ou la covariance. Cet exposé se concentre sur des estimateurs robustes, qui ne sont pas trop sensibles aux données atypiques, de la médiane géométrique. Plus précisément, il est question d’un algorithme de Robbins-Monro ainsi que sa version moyennisée. Ces algorithmes ont l’avantage de ne pas nécessiter un stockage de toutes les données et de mettre à jour facilement les estimations. Nous présenterons les propriétés asymptotiques de ces estimateurs, des inégalités de concentration et des boules de confiance pour la médiane.
Travail fait en collaboration avec Hervé Cardot et Antoine Godichon-Baggioni. |
Résumé : How should one estimate a signal, given only access to noisy versions of the signal corrupted by unknown circular shifts? This simple problem has surprisingly broad applications, in fields from structural biology to aircraft radar imaging. We describe how this model can be viewed as a multivariate Gaussian mixture model whose centers belong to an orbit of a group of orthogonal transformations. This enables us to derive matching lower and upper bounds for the optimal rate of statistical estimation for the underlying signal. These bounds show a striking dependence on the signal-to-noise ratio of the problem.
Joint work with Afonso Bandeira and Philippe Rigollet |
Résumé : Le lemme de Fano est un outil clé pour déterminer des bornes inférieures sur le risque minimax, et ainsi quantifier la difficulté intrinsèque du problème statistique sous-jacent. Dans cet exposé, nous présenterons une preuve simple du (d'un) lemme de Fano, dans le cas d'un nombre fini d'hypothèses. Nous expliquerons ensuite comme notre méthode permet d'obtenir différentes généralisations de ce résultat, notamment à un nombre continûment infini d'hypothèses et à une famille de variables aléatoires arbitraires dans [0,1]. Nous traiterons enfin un exemple d'application pour illustrer l'intérêt du lemme de Fano généralisé obtenu. Ce travail est en collaboration avec Pierre Ménard et Gilles Stoltz. |
Résumé : La prévision de la consommation et de la production électrique sont des enjeux importants pour la régulation et l’optimisation de la production énergétique. Dans cet exposé, nous nous intéresserons à présenter et étudier des modèles de prévision électrique pour la consommation française ainsi que pour la production de plusieurs parcs éoliens.
Partant de l’observation que les données de production éolienne et de consommation nationale ne se ressemblent pas du tout, des modèles statistiques très différents se sont naturellement imposés dans ces deux cas. Nous montrons qu’il est possible de proposer un modèle pertinent de prévision de la consommation électrique basé sur une agrégation de modèles de régression fonctionnelle sous contrainte de sparsité.
Dans le cadre de la production éolienne, un ensemble de modèles de "machine learning", comparés à des modèles issus de la physique est introduit pour une prévision très court terme.
Mougeot M., Picard D., Lefieux V., Maillard-Teyssier L. (2015) Modeling and Stochastic Learning for Forecasting in High Dimension. Springer Lecture Notes in Statistics, p 161-182.
Fischer L. , Montuelle A. , Mougeot M. , and Picard D. Statistical learning for wind power : a modeling and stability study towards forecasting. Submitted, 2016. |
Résumé : L’analyse de sensibilité a pour objectif principal d’examiner comment une sortie d’un modèle numérique réagit à des variations des entrées du modèle. Parmi le large panel de méthodes permettant de mettre en place une telle analyse, les méthodes basées sur la décomposition de la variance reposent sur le calcul des mesures de sensibilité appelées indices de Sobol’. Les indices de Sobol’ sont des grandeurs scalaires variant entre zéro et un déterminant quelle proportion de la variance de la sortie du modèle est due à telle entrée ou tel groupe d’entrées.
En pratique, ces indices sont très souvent estimés par le biais d’approches Monte Carlo ou quasi-Monte Carlo. Un problème inhérent à ces approches porte sur la quantification du nombre d’appels au modèle nécessaire pour garantir une précision souhaitée sur les estimations.
L’approche novatrice présentée ici adresse ce problème en construisant une borne d’erreur fiable pour l’estimation des indices de Sobol’. En s’appuyant sur la formule intégrale de l’indice, la borne d’erreur est définie à partir des coefficients de Walsh discrets des différentes intégrandes. Une estimation séquentielle des indices peut alors être mise en place, avec pour critère d’arrêt cette borne d’erreur. |
Résumé : Dans cet exposé, nous commencerons par une introduction à la problématique des tests multiples. Nous considérerons ensuite le cas particulier des tests de corrélations. Nous montrons comment la prise en compte de la structure spécifique de dépendance entre les corrélations permet d'obtenir des procédures de tests multiples contrôlant l'erreur globale. Ce travail est motivé par une application en neuro-imagerie, à savoir l'estimation des réseaux de connectivités cérébrales à partir de données d'IRM fonctionnelle. |
Résumé : Bonus-Malus (BM) systems are common merit rating schemes serving auto-mobile insurance companies. Basically, such systems impose certain rules to set premium levels based on one's historical claims with the purpose of providing a fair share of risks. Incorporating the features of a BM system, we have attempted to model pricing strategies as well as the risk surplus process for an insurer. Bayesian adjustment acts as the main tool to characterise a BM system so that premiums are adjusted posteriorly. Other than that, bearing the no-claim-discount (NCD) property into a risk surplus process, we have built modied risk models and found the associated ruin probabilities. Several premium-adjusted models have been proposed. One of them directly applies Bayesian adjustment on premium rates. We also transfer the change of premium rates to alterations in inter-arrival times so that a Markov Additive process could be identified. In addition, letting premium rates depend on the increments over the previous n random observed periods, we are able to obtain ruin related quantities by Gerber-Shiu functions. Analytical results of these studies will be demonstrated in this talk together with a few numerical examples. |
Résumé : Generalized Pareto regression trees for extreme event analysis
A distance : https://univ-lyon1.webex.com/univ-lyon1/j.php?MTID=m5d77c11315452ecb58aa3988d4b08a98 |
Résumé : Le jugement majoritaire (JM) est un nouveau mode de scrutin qui demande aux électeurs de juger chacun des candidats sur une échelle commune de mentions telle que: Excellent, Très Bien, Bien, Assez Bien, Passable, Insuffisant, à Rejeter. On collecte pour chaque candidat son profil de mérite (combien il a reçu de mentions Excellent, Très bien, ...), puis on départage chaque deux candidats, itérativement, selon la mention médiane. Certains exemples assez convaincants mettent en doute le JM ou sa règle de départage. Bien que les exemples ne puissent pas être la base pour juger un mode de scrutin, je vais utiliser des exemples simples pour contrer les doutes. Le but de l'exercice est de montrer que chaque mode de scrutin a ses contre exemples et que chaque exemple, aussi simple soit-il, peut contenir des subtilités insoupçonnables. Nous illustrons aussi, à travers des exemples, quelques propriétés remarquables que seul le JM satisfait.
|
Résumé : Dans une première partie, je ferai un survol de résultats obtenus ces dernières années pour les lois a posteriori bayésiennes, dans des modèles non-paramétriques et semi-paramétriques. Je présenterai des résultats de concentration de loi a posteriori suivant l'approche de Ghosal, Ghosh et van der Vaart (2000), ainsi que des résultats plus récents de forme limite de lois a posteriori, tout en examinant les conséquences possibles sur la quantification de l'incertitude et l'obtention de régions de confiance.
Dans une deuxième partie, je montrerai comment utiliser les idées précédentes dans le cadre de l'inférence pour les modèles parcimonieux. Je présenterai des résultats de travaux récents sur le sujet pour la classe d'a priori dits 'spike-and-slab', où la régularité de la loi a priori est calibrée par une méthode hiérarchique ou empirique. Il ressortira notamment que les détails du choix de la loi a priori dans ce cadre sont particulièrement importants en vue de l'obtention de résultats de concentration ou de régions de confiance optimaux. |
Résumé : In the first part of this talk, I will present the problem of sequential allocations called « multi-armed bandit ». Given several i.i.d. processes, the objective is to sample them sequentially (and thus get a sequence of random rewards) in order to maximize the expected cumulative reward. This framework simultaneously encompasses issues of estimation and optimization (the so-called « exploration vs exploitation » dilemma). A recent successful example of applications is the ad placement on web sites.
In the second part, I will focus on how to handle the real constraints of some practical exploration-exploitation problems, namely random clinical trials and repeated auctions. The first ones usually consist of a small number of phases (typically three or four). The first phase is a pilot study and treatment can be allocated at random. In the following phases, treatments are re-allocated depending on the result of the pilot study (and the subsequent phases). We will show how to theoretically choose the sizes of these phases and we shall look whether having more phases leads to significant improvements.
In repeated auctions, the optimal strategy is more or less clear if the valuations of the goods sold are known. Unfortunately, this is not the case in most of internet induced problems. The objectives are to construct non-trivial bidding and learning strategies; the crucial difficulty being that the bidding space is continuous and reward functions typically non-continuous. |
Résumé : La détermination de la composition minéralogique et de la proportion des fluides au sein d’une formation géologique est un objectif essentiel du pétrophysicien. Pour atteindre cet objectif, ce dernier dispose de mesures physiques réalisées tout au long du forage d’un puits à intervalles réguliers. Le nombre de minéraux potentiellement présents dans une formation est souvent plus grand que le nombre de mesures. Le pétrophysicien est confronté à un problème dans lequel il y a plus d’inconnues que d´équations. Les méthodes classiques actuelles sont basées sur des choix d’experts consistant à sélectionner une combinaison de minéraux pour une strate donnée. Dans cet exposé, on s’intéressera à l’automatisation de ces processus : la détermination des différentes strates et la sélection des minéraux sur ces dernières.
L’identification des strates géologiques au sein d’un puits s’effectue grâce à la segmentation des mesures physiques assimilables à des séries temporelles multivariées. La corrélation des strates de différents puits d’un même champ pétrolier est plus problématique. Si des méthodes de classification non-supervisée basées sur la densité donnent de bons résultats, le regroupement des strates ne respecte pas forcément l’ordre géologique. C’est pourquoi l’on s’intéresse à des méthodes de corrélations de séries temporelles : la déformation temporelle dynamique ou l’alignement de séquences. L’alignement de séquences d’ADN et la stratigraphie (étude des couches géologiques) ont des racines communes avec les travaux de Smith et de Waterman. Une fois la strate identifiée, une approche bayésienne permet de déterminer la composition minéralogique de la couche géologique. |
Résumé : Au départ, un constat : de nombreuses expérimentations, notamment en biologie, donnent lieu à des mesures qui prennent la forme d'arborescences. Il peut s'agir de réseaux sanguins ou de la structure d'une plante. Le premier réflexe pour analyser ces données est de tenter de résumer leur structure combinatoire par un vecteur de descripteurs. Cette technique permet parfois de répondre aux questions posées, mais la perte d'information qu'elle engendre peut être rédhibitoire. Il est donc nécessaire de proposer de nouvelles méthodes. Mon exposé sera scindé en deux parties. Dans la première, je présenterai sous la forme d'un groupe de travail des techniques d'approximation des arbres non-ordonnés inspirées d'algorithmes de compression sans perte. Je montrerai l'intérêt de ces méthodes dans des problèmes de clustering. La seconde partie sera dédiée à des problèmes d'estimation pour des modèles de Galton-Watson conditionnés (par la taille ou la hauteur) via leur limite locale. Le tout sera illustré par des simulations et des applications à des données réelles. |
Résumé : La théorie des valeurs extrêmes univariée classique étudie la queue distribution pour des observations indépendamment et identiquement distribuées. Dans notre travail, on s’intéresse au cas où les observations sont indépendantes mais non identiquement distribuées. Cette variation dans la distribution est quantifiée en utilisant une fonction dite ‘’skedasis function’’ notée c qui représente la fréquence des extrêmes. Ce modèle a été introduit par Einmahl et al. dans le papier « Statistics of heteroscedastic extremes » (JRSSB 2016) où les auteurs donnent une estimation non paramétrique de la fonction primitive de c basée sur les k plus grandes valeurs de la série d’observations. On présentera plusieurs modèles paramétriques pour c (log-linéaire, linéaire, log-linéaire discret) ainsi que les résultats de consistance et de normalité asymptotique du paramètre θ représentant la tendance. Le test θ=0 versus θ ≠0 est interprété alors comme un test de détection de tendance dans les extrêmes. Nos résultats seront illustrés dans une étude par simulation. Enfin, les simulations montrent que les tests paramétriques sont en général plus puissants que les tests non paramétriques pour la détection de la tendance, d’où l’utilité de notre travail. |
Résumé : Nous verrons en particulier deux inégalités fonctionnelles : l’inégalité de Sobolev logarithmique qui est un contrôle de l’entropie par l’information de Fisher et l’inégalité de transport de Talagrand qui compare la distance de Wasserstein avec l'entropie. Ces deux inégalités sont très proches, elles permettent en particulier de montrer des phénomènes de concentration Gaussienne (la queue de distribution est majorée par celle de la mesure gaussienne). Ces propriétés sont utilisées par exemple dans le livre de Massart, Concentration Inequalities and Model Selection. |
Résumé : We consider a linear model where the coefficients - intercept and slopes - are random and independent from regressors which support is a proper (strict) subset. In this case the joint density of random coefficients is not identified. However, if we further assume that it has finite properly weighted L2 norm, it becomes identified. This is because certain partial Fourier transforms are analytic or quasi-analytic. Lower bounds on the supremum risk for the estimation of the density are derived for this model and a related white noise model. We present an estimator which involves: series based estimation of the partial Fourier transform of the density with respect to the intercept, interpolation around zero, and partial Fourier inversion.
We give its rates of convergence and data-driven rules which deliver adaptive estimators. |
Résumé : Au départ, un constat : de nombreuses expérimentations, notamment en biologie, donnent lieu à des mesures qui prennent la forme d'arborescences. Il peut s'agir de réseaux sanguins ou de la structure d'une plante. Le premier réflexe pour analyser ces données est de tenter de résumer leur structure combinatoire par un vecteur de descripteurs. Cette technique permet parfois de répondre aux questions posées, mais la perte d'information qu'elle engendre peut être rédhibitoire. Il est donc nécessaire de proposer de nouvelles méthodes. Mon exposé est scindé en deux parties. Dans la première (exposé du 30 mars), j'ai présenté des techniques d'approximation des arbres non-ordonnés inspirées d'algorithmes de compression sans perte, en montrant l'intérêt de ces méthodes dans des problèmes de clustering. La seconde partie sera dédiée à des problèmes d'estimation pour des modèles de Galton-Watson conditionnés (par la taille ou la hauteur) via leur limite locale. Le tout sera illustré par des simulations et des applications à des données réelles. |
Résumé : Les nouvelles technologies de séquençage permettent désormais d’étudier le fonctionnement des génomes à une résolution jamais atteinte. La disponibilité des génomes complets a notamment permis la localisation d’éléments régulateurs du génome : cette information spatiale s’avère fondamentale pour étudier des processus intrinsèquement spatiaux comme la réplication du génome. Un des principaux défis réside désormais dans le traitement de ces données en masse, afin d’en extraire les connaissances permettant de mieux comprendre le fonctionnement global de la régulation des génomes. L’objectif est de développer un cadre statistique permettant de modéliser les interactions spatiales entre éléments localisés sur le génome.
Le cadre que nous proposons repose sur les modèles de processus ponctuels, et plus précisément sur le modèle de Hawkes multivarié. Chaque processus ponctuel modélise les occurrences d’éléments potentiellement régulateurs du génome, dont l’intensité est définie en fonction des occurrences des autres processus du modèle à l’aide de fonctions d’interactions à estimer. La modélisation par processus ponctuels pour les données de génomique est originale et a peu été étudiée pour analyser des données de séquençage. Je présenterai l'avantage de cette modélisation et les résultats obtenus pour différentes applications en génomique. |
Résumé : Tests of randomness are generally used to verifies if a sequence is truly random. Traditionally, the main use of these tests is in checking the quality of random number generators. The first part of talk starts by introducing the most common randomness tests. It will also illustrate their use in the context of random number generators. The second part targets the application of randomness tests in the context of innovation of time series/regression models. We start by reviewing recent developments and limitations. We then then concentrate on a class of randomness tests targeting serial independence and discuss their applications in different contexts of time series models. |
Résumé : |
Résumé : |
Résumé : Conditional Kendall’s tau is a measure of dependence between two random variables, conditionally on some covariates. We study three different approaches for the estimation of this conditional dependence parameter : kernel techniques, regression-type models and classification algorithms. In the first part, we give analogs of usual statistical results (exponential bounds in probability, consistency, asymptotic normality) for the kernel-based estimator. Then, we assume a regression-type relationship between conditional Kendall’s tau and some covariates, in a parametric setting with a large number of transformations of a small number of regressors. This model may be sparse, and the underlying parameter is estimated through a penalized criterion. We prove non-asymptotic bounds with explicit constants that hold with high probabilities. We derive the consistency of a two-step estimator, its asymptotic law and some oracle properties. In the third part, we show how the problem of estimating conditional Kendall’s tau can be rewritten as a classification task. The goal is to predict whether the pair is concordant (value of 1) or discordant (value of -1) conditionally on some covariates. The consistency and the asymptotic normality of a family of penalized approximate maximum likelihood estimators is proven, including the equivalent of the logit and probit regressions in our framework. We detail specific algorithms, adapting usual machine learning techniques including nearest neighbors, decision trees, random forests and neural networks, to the setting of the estimation of conditional Kendall’s tau. Finite sample properties of all of these estimators and their sensitivities to each component of the data-generating process are assessed in a simulation study. Finally, these estimators are applied to a dataset of European stock indices during and after the European debt crisis. |
Résumé : L'obtention de classements à partir d'informations disponibles sur plusieurs variables (ou critères) consiste généralement à calculer un score global pour chaque individu puis à classer les individus à partir de ces scores. Les scores sont obtenus à partir d'une fonction d'agrégation (typiquement une moyenne pondérée). Le choix de la fonction d'agrégation, ainsi que les choix des paramètres de la fonction (par exemple les poids des variables dans le cas d'une moyenne pondérée) a évidemment une influence sur les scores obtenus par les individus, et donc sur leurs rangs. Cependant cette influence dépend aussi de l'ensemble des individus que l'on essaie de classer. Typiquement, dans le classement de Shangaï, un changement de poids dans la moyenne des critères peut éventuellement inverser l'ordre des deux premiers, mais aucun jeu de poids ne mettra jamais l'université de Lyon devant le MIT... Nous proposons un indice pour quantifier cette sensibilité du classement aux changements de poids. Un tel indice doit pouvoir permettre de contribuer à l'analyse des classements obtenus par ce type de méthodes. Travail réalisé en collaboration avec Jairo Cugliari (ERIC, Lyon 2). |
Résumé : In my thesis project, I explored some of the problematics raised by the practical application of causal inference in cancer epidemiology. I will quickly present the four distinct projects I have been working on, and will then detail two of them. In the first one, we will investigate conditions ensuring that estimates derived under over-simplified causal models, where the longitudinal nature of the variables have been neglected, relate to causal quantities of interest under the true longitudinal causal model. We will then focus on the probabilistic formulation of partial least squares proposed by el Bouhaddani et al. (2018), to describe a limitation we have identified in several models proposing probabilistic formulations of dimension-reduction techniques. We will further illustrate the limitation through simulated examples. |
Résumé : |
Source : Indico - Math évènementiel - GDS Mathrice |