SEME 2011
2011-11-28 - 2011-12-02
Université Claude Bernard Lyon 1 - 43, bd du 11 novembre 1918 - 69622 Villeurbanne
PICVIZ LABS
"Analyse de grands volumes de données en grande dimension"
Le sujet sera présenté par Philippe Saadé, directeur général et fondateur de Picviz Labs
L'observation des réseaux informatiques de grande taille (centaines de milliers d'utilisateurs, dizaines de milliers de serveurs, etc) se traduit généralement par la collecte d'un grand nombre de "journaux d'événements" ("Logs" en anglais) qui sont, la plupart du temps, des fichiers texte assez structurés.
Sur de tels réseaux, la production quotidienne dépasse vite le To de données, avec des pointes à 1 To par seconde...
Le stockage de ces données posent un grand nombre de questions (écologiques entre autre) et leur analyse est un sujet presque inexploré à ce niveau de volumétrie.
Le problème qui est posé est donc celui de la méthodologie d'exploitation de ces données, en des temps raisonnables et sur des équipements réalistes.
Plus précisément, on peut découper l'approche de ce problème en deux parties complémentaires :
-- la création de nouveaux indicateurs pertinents pour décrire le contenu de l'univers d'information des "logs", les états et sous-états possibles, les évolutions, les composantes parasites ou anormales, etc.
-- la conception de systèmes de calcul distribués (sur cluster d'ordinateurs, d'automates ou toute autre structure...) permettant de répartir la charge de calcul ;
Chacune de ces deux questions doit, bien entendu, être traitée en ayant la seconde en tête, sous peine de rendre la solution globale inefficace.
L'objectif de ce sujet est de pouvoir identifier des méthodes mathématiques capables de traiter de tels volumes de données et qui apportent une réelle information. Il ne s'agit pas de résoudre le problème de façon définitive mais de détecter des approches effectives utiles.
L'exploration de méthodes homologiques et/ou de description de singularités dans les systèmes d'apprentissages statistiques serait bienvenue, mais n'est en rien imposée ou exclusive d'autres explorations.