Rencontres Statistiques Lyonnaises



L'objectif des Rencontres Statistiques Lyonnaises est, comme son nom l'indique, de permettre aux personnes intéressées par la recherche en Statistique à Lyon de se rencontrer et de mieux connaître ce qui est fait dans les différentes institutions lyonnaises.  Ces rencontres ont débuté en octobre 2009, et ont lieu sur la base d'environ une rencontre par mois. Les premiers exposés ont été d'ordre introductif, accessibles à tous. Il n'y a jusqu'à ce jour pas de créneau fixe, mais chaque rencontre est fixée après consultation des membres de la liste de diffusion.
Si vous souhaitez adhérer à cette liste de diffusion, merci d'écrire à fougeresATmath.univ-lyon1.fr (remplacer 'AT' par @).

Résumé : L’exposé est prévu en deux parties :  une première au cours de laquelle les liens entre apprentissage statistique et extrêmes seront discutés, c.à.d. comment des résultats sur les extrêmes peuvent être obtenus en manipulant des bornes de concentration à la Vapnik. Les garanties que cela peut fournir sur des problèmes d'estimation de support ou de classification seront aussi abordées. Dans une seconde partie, le travail joint avec Hamid Jalalzai et Stephan Clémençon sera présenté, dont voici un résumé : In a wide variety of applications involving anomaly detection (e.g. buzzes in social network data, frauds, system failures), extreme observations play a key role  because anomalies often correspond to large observations. The key issue is then to distinguish between large observation from the normal class and large observations from the anomaly class. This task can thus be formulated as a binary classification problem in extreme regions.  However, extreme observations generally contribute in a negligible manner to the (empirical) error, simply because of their rarity. As a consequence, empirical risk minimizers generally perform very poorly in extreme regions. This paper develops a general framework for classification of extreme values.  Precisely, under non-parametric heavy-tail assumptions, we propose a natural and asymptotic notion of risk accounting for predictive performance in extreme regions.   We prove  that minimizers of an empirical version of   this dedicated risk lead to classification rules with good generalization capacity, by means of maximal deviation inequalities in low probability regions. Numerical experiments illustrate the relevance of the approach developed.On considère le problème d'estimer la position et l'intensité de sources ponctuelles réparties en $L$ groupes, ou "spike trains" et dont chacun est convolué par une "point spread function"  $g(\dots/\mu_l)$, $l=1,\ldot,L$. Dans de multiples applications, seule la somme de ces spike trains convolués, appelée "mélange", est accessible à l'observation. Ce problème est une géneralisation du problème de super-résolution, qui correspond au cas $L = 1$, et qui a été l'objet d'une récente et intense activité de recherche, sous l'impulsion de Azais, de Castro, Gamboa, Cand\`es, Fernandes-Granda, Recht, Schiebinger, Bandari, Moitra, etc. Nous démontrons dans ce travail qu'en choisissant des échantillons de la transformée de Fourier du mélange de manière adéquate, l'application successive d'un algorithme proposé récemment par Moitra permet d'estimer la position des sources dans chaque groupe avec des garanties non asymptotiques précises. Ces résultats seront appuyés par des illustrations numériques. » Voir https://arxiv.org/pdf/1807.02862.pdf     

Résumé : Nous nous intéressons ici à la simulation exacte de trajectoires conditionnées par un potentiel (que l'on peut voir comme une mesure de Gibbs ou une déformation de la mesure d'un processus aléatoire). Dans la première partie de l'exposé, je rappellerai des notions de probabilités utiles et amusantes (algorithme de Metropolis, couplage depuis le passé) et je motiverai ces recherches (à la base, c'est un problème d'estimation par chaîne de Markov, il y a aussi un lien avec les problèmes de contrôle). Ceci devrait permettre à tout le monde de suivre la deuxième partie, dans laquelle j'expliquerai pourquoi l'algorithme proposé est bien une simulation exacte. Je donnerai aussi les résultats sur la complexité de l’algorithme.