3 Propriétés différentielles des fonctions convexes.
3.1 Rappel sur la différentiabilité (au sens de Fréchet)
On rappelle que pour des e.v.n. l’ensemble des applications linéaires continues est un e.v.n. avec la norme d’opérateur (dite aussi norme subordonnée)
Définition 3.4.
Soit des e.v.n., un ouvert, est différentiable (au sens de Fréchet) en x si il existe notée telle que
est (ou continuement différentiable) sur si est différentiable en tout et est continue. On note aussi
est si est et est aussi . On note
On rappelle que si sont différentiables, alors aussi et De plus si et a un minimum local en avec ouvert, alors
Remarque 3.2.
Il est important de noter que est une application linéaire, donc est linéaire en , mais pas forcément en . Pour insister sur ce point, on note parfois de façon équivalente:
Dans le cas le plus fréquent pour nous où , si est différentiable, alors elle admet des dérivées partielles, le gradient de en est noté . Alors, on a :
3.2 Caractérisations différentielles des fonctions convexes
Le théorème suivant résume les 3 caractérisations principales de la convexité en terme de différentiabilité, par la position relative des plans tangents et du graphe, par la monotonie de la dérivée première ou par la positivité de la dérivée seconde (le résultat n’est pas optimal, il suffit en fait d’une dérivabilité directionnelle appelée dérivée au sens de Gâteaux):
Théorème 3.12.
Soit un e.v.n. et un ouvert convexe, une fonction différentiable en tout point de .
-
14.
est convexe ssi pour tout
-
15.
est convexe ssi pour tout
-
16.
Si est en plus , f est convexe ssi est positive pour tout au sens où pour tout De plus, si avec la norme euclidienne, ou plus généralement si est préhilbertien (cf. chapitre 5), si est définie positive, pour tout (c’est-à-dire pour tout , ) alors est strictement convexe.
Remarque 3.3.
(Rappel d’algèbre linéaire) Si , alors est positive si et seulement si la matrice hessienne est positive (rappel ). Comme elle est toujours symétrique et donc diagonalisable en base orthonormale, cela équivaut à ce que ces valeurs propres soient toutes positives. Dans le cas (c’est à dire on prend les notations de Monge ) alors est positive si et seulement si et 11 1 En effet si , avec le polynôme de second degré de discriminant . Si pas de racine et selon le signe de , P est soit toujours positif (cas définie positive) soit toujours négative ( définie négative). Si , il y a une racine double et on a la même conclusion sur la positivité. Si , alors n’est positive que si car sinon en , on a la valeur strictement négative et c’est aussi le seule cas ou le déterminant est positif pour ). Si on a 2 racines réelles et prend à la fois des valeurs positives et négatives.
Remarque 3.4.
Un cas particulier du (3) est le cas où il existe telle que pour tout . Le cas de stricte convexité se déduit donc en décomposant . L’inégalité donne que est positive donc convexe et on verra au dernier chapitre que l’identité du parallélogramme implique que est strictement convexe, donc par somme est strictement convexe (de façon très uniforme). C’est une situation intéressante pour les problèmes de minimisation qui permet d’obtenir la convergence de suites minimisantes et des stratégies algorithmiques de minimisation (cf. cours de recherche opérationnelle au S6).
Démonstration :
(1) Si convexe, l’inégalité vient du corollaire 3.5 en comparant l’infimum à la valeur en pour :
Réciproquement on applique l’inégalité en par convexité de pour d’où :
et donne
ce qui donne l’inégalité de convexité.
(2) Si convexe, on utilise de même les inégalités du corollaire 3.5:
En sommant, on obtient l’inégalité . Réciproquement, on utilise qui par composition est dérivable de dérivée . Or si
Donc est croissante et par un résultat à 1 variable (proposition 3.12) est convexe.
(3)Si est , on dérive en la relation du (2) avec , une fois divisée par et on obtient . Réciproquement, en dérivant en , la fonction définie par (qui est car est ) et en appliquant le théorème fondamental du calcul :
et on retrouve le critère du (2).
Pour la stricte convexité, commençons par le cas , donc un intervalle ouvert. Soit il suffit de voir strictement convexe sur . On fixe
On suppose dans ce cas pour tout et continue (vue de classe ). Donc atteint son minimum sur en de sorte que pour tout . Donc comme à la remarque 3.4 implique avec donc convexe et donc strictement convexe sur .
On pose . Soit maintenant le cas général . Par définition, est strictement convexe si et seulement si pour tout segment est strictement convexe sur (ou sur en élargissant les intervalles comme avant). Or pour tout . On déduit donc du premier cas que est strictement convexe sur et donc aussi . Comme ouvert, on peut trouver avec .
Pour montrer Comme est continue bijective de si , est compact comme image direct du compact par une application continue.
est continue sur donc atteint son minimum en qui est donc . En appliquant à l’intervalle ouvert le premier cas, on déduit que est strictement convexe sur , donc aussi par restriction . Comme arbitraires, est aussi strictement convexe. □
Exercice 3.6.
Montrer que est strictement convexe sur mais que sa dérivée seconde n’est pas bornée inférieurement par .
3.3 Convexité, Critère d’extremum global
On retrouve d’abord un critère d’optimisation du premier ordre
Proposition 3.13.
Si est de classe sur un ouvert convexe et est convexe, alors tout point est un minimum global de si et seulement si c’est un point critique de (c’est à dire un point tel que ).
Démonstration :
On sait déjà par le cours de L2 que si a un minimum local en alors . En effet, rappelons la preuve, pour tout , il existe : (car ouvert) et pour tout . Donc, en divisant par on obtient:
donc pour tout ce qui veut dire
La nouveauté est la réciproque, on suppose convexe. Il suffit de noter par le théorème 3.12 que pour , donc et atteint l’infimum de sur . □
On a un critère d’optimisation plus général sur un convexe . On rappelle que .
Théorème 3.14.
Soit un convexe de avec un ouvert et une fonction de classe , convexe sur . Alors est un minimum global de sur si et seulement si c’est à dire si et seulement si
Démonstration :
On rappelle la définition ce qui donne la dernière reformulation. Si a est un minimum global pour vu que par convexité . En prenant la limite, on obtient
Réciproquement, si l’inégalité est vérifiée donc on peut utiliser le théorème 3.12 (dont la preuve du 1 s’applique même si n’est pas ouvert) et on obtient :
donc pour tout et donc est un minimum de sur . □
Exemple 3.4.
On prend le carré de la distance euclidienne à . Alors et donc on obtient que minimise la distance de à si et seulement si:
Ce sera le critère du théorème de projection sur un convexe fermé où l’on verra l’existence d’un tel point au dernier chapitre. Dans on peut aussi voir l’existence par compacité de pour une boule fermée assez grande pour qu’une inégalité grossière permette d’assurer que tout minimum doive s’y trouver. On obtient ainsi le résultat suivant.
Théorème 3.15 (théorème de projection sur un convexe fermé de ).
Soit un convexe fermé non-vide et la norme euclidienne. Pour tout , il existe un unique tel que
De plus, c’est l’unique vecteur tel que:
De plus, pour tout , et forment une partition de .
La preuve suivante par compacité ne fonctionnera pas en dimension infinie, mais le résultat sera encore vrai dans un espace de Hilbert (cf. chapitre 5).
Démonstration :
Comme non vide Soit . Comme la boule fermé est un convexe fermé, est un convexe fermé comme intersection de convexes fermés, et il est aussi borné par définition, donc c’est un compact de . De plus, , donc par définition de l’infimum. Mais soit et tel que alors par définition et donc . Donc en passant à la limite , on a obtenu:
Or est continue sur le compact , donc atteint son infimum en . Par croissance du carré, c’est aussi le point où atteint son infimum. La hessienne de est l’identité, donc cette application est strictement convexe, elle a donc un unique minimum . La caractérisation du minimum a été vue à l’exemple précédent. Enfin cette caractérisation donne (en retraduisant avec la définition de
Le fait que est une application surjective (vu que pour ) implique le résultat sur la partition. □