3 Propriétés différentielles des fonctions convexes.

3.1 Rappel sur la différentiabilité (au sens de Fréchet)

On rappelle que pour E,F des e.v.n. l’ensemble des applications linéaires continues L(E,F) est un e.v.n. avec la norme d’opérateur (dite aussi norme subordonnée) |f|=supxE1f(x)F.

Définition 3.4.

Soit E,F des e.v.n., UE un ouvert, f:UF est différentiable (au sens de Fréchet) en x si il existe TL(E,F) notée df(x) telle que

f(x+h)f(x)df(x)(h)=o(h),sih0.

f est C1 (ou continuement différentiable) sur U si f est différentiable en tout xU et df:UL(E,F) est continue. On note aussi Dhf(x)=df(x)(h)

f est C2 si f est C1 et df est aussi C1. On note d2f(x)(h,k)=Dk(Dhf)(x).

On rappelle que si g:UVF,f:VZ sont différentiables, alors fg aussi et d(fg)(x)=df(g(x))dg(x). De plus si Z= et f a un minimum local en xV avec V ouvert, alors df(x)=0.

Remarque 3.2.

Il est important de noter que df(x) est une application linéaire, donc df(x)(h) est linéaire en h, mais pas forcément en x. Pour insister sur ce point, on note parfois de façon équivalente:

df(x)(h)df(x).hdf(x).[h]

Dans le cas le plus fréquent pour nous où E=n,F=, si f est différentiable, alors elle admet des dérivées partielles, le gradient de f en a est noté f(a)=(fx1(a),,fxn(a)). Alors, on a :

df(a)(h)=f(a),h=j=1nfxj(a)hj.

3.2 Caractérisations différentielles des fonctions convexes

Le théorème suivant résume les 3 caractérisations principales de la convexité en terme de différentiabilité, par la position relative des plans tangents et du graphe, par la monotonie de la dérivée première ou par la positivité de la dérivée seconde (le résultat n’est pas optimal, il suffit en fait d’une dérivabilité directionnelle appelée dérivée au sens de Gâteaux):

Théorème 3.12.

Soit E un e.v.n. et U un ouvert convexe, f:U une fonction différentiable en tout point de U.

  1. 14.

    f est convexe ssi pour tout u,vU:

    f(u)f(v)df(v).[uv]
  2. 15.

    f est convexe ssi pour tout u,vU:

    [df(u)df(v)].[uv]0
  3. 16.

    Si f est en plus C2, f est convexe ssi d2f(x) est positive pour tout xU au sens où d2f(x)(h,h)0 pour tout xU,hE. De plus, si E=n avec la norme euclidienne, ou plus généralement si E est préhilbertien (cf. chapitre 5), si d2f(x) est définie positive, pour tout xU (c’est-à-dire pour tout h0, d2f(x)(h,h)>0) alors f est strictement convexe.

Remarque 3.3.

(Rappel d’algèbre linéaire) Si E=n, alors d2f(x) est positive si et seulement si la matrice hessienne Hf(x) est positive (rappel (Hf(x))ij=(2fxixj(x))). Comme elle est toujours symétrique et donc diagonalisable en base orthonormale, cela équivaut à ce que ces valeurs propres soient toutes positives. Dans le cas n=2 H(f)(x)=(rsst) (c’est à dire on prend les notations de Monge r=2fx2(x),s=2fxy(x),t=2fy2(x)) alors H(f)(x) est positive si et seulement si rts20 et r0.11 1 En effet D2f(x)((h1,h2),(h1,h2))=rh12+2sh1h2+th22=(h12)P(h2/h1) si h10, avec P(λ)=r+2sλ+tλ2 le polynôme de second degré de discriminant Δ=4s24rt. Si Δ<0 pas de racine et selon le signe de r, P est soit toujours positif (cas D2f(a) définie positive) soit toujours négative (D2f(a) définie négative). Si Δ=0, il y a une racine double et on a la même conclusion sur la positivité. Si h1=0, alors D2f(x)((h1,h2),(h1,h2)))=2sh1h2 n’est positive que si s=0 car sinon en (h1,h2)=(s,1), on a la valeur strictement négative 2s2 et c’est aussi le seule cas ou le déterminant rts2 est positif pour r=0). Si Δ>0 on a 2 racines réelles et P prend à la fois des valeurs positives et négatives.

Remarque 3.4.

Un cas particulier du (3) est le cas où il existe c>0 telle que d2f(x)(h,h)ch2 pour tout xU,hE=n. Le cas de stricte convexité se déduit donc en décomposant f=g+c2x2. L’inégalité donne que d2g=d2fc est positive donc g convexe et on verra au dernier chapitre que l’identité du parallélogramme implique que c2x2 est strictement convexe, donc par somme f est strictement convexe (de façon très uniforme). C’est une situation intéressante pour les problèmes de minimisation qui permet d’obtenir la convergence de suites minimisantes et des stratégies algorithmiques de minimisation (cf. cours de recherche opérationnelle au S6).

Démonstration : 

(1) Si f convexe, l’inégalité vient du corollaire 3.5 en comparant l’infimum à la valeur en t=1 pour h=uv:

df(v).[uv]=inft>0f(v+th)f(v)tf(u+h)f(u)=f(u)f(v).

Réciproquement on applique l’inégalité en z=tx+(1t)yU par convexité de U pour x,yU d’où :

(A)f(x)f(z)df(z)[xz],(B)f(y)f(z)df(z)[yz],

et t(A)+(1t)(B) donne

tf(x)+(1t)f(y)f(z)df(z)[t(xz)+(1t)(yz)]=df(z)(0)=0

ce qui donne l’inégalité de convexité.

(2) Si f convexe, on utilise de même les inégalités du corollaire 3.5:

df(u)(vu)f(v)f(u),df(v)(uv)f(u)f(v)

En sommant, on obtient l’inégalité (df(u)df(v))(vu)0. Réciproquement, on utilise ϕ(t)=f(tx+(1t)y) qui par composition est dérivable de dérivée ϕ(t)=df(tx+(1t)y)(xy). Or si t<s

ϕ(s)ϕ(t)=[df(y+s(xy))df(y+t(xy))](xy)=1st[df(y+s(xy))df(y+t(xy))](y+s(xy)(y+t(xy)))0

Donc ϕ est croissante et par un résultat à 1 variable (proposition 3.12) ϕ est convexe.

(3)Si f est C2, on dérive en t la relation du (2) avec v=x, u=x+th une fois divisée par t2 et on obtient d2f(x)(h,h)0. Réciproquement, en dérivant en t, la fonction g définie par g(t)=df(v+t(uv))(uv) (qui est C1 car df est C1) et en appliquant le théorème fondamental du calcul :

[df(u)df(v)][uv]=g(1)g(0)=01𝑑t𝑑f(v+t(uv))(uv,uv)0

et on retrouve le critère du (2).

Pour la stricte convexité, commençons par le cas E=, donc U=I un intervalle ouvert. Soit [a,b]I il suffit de voir f strictement convexe sur [a,b]. On fixe [a,b]]a,b[[a,b]I

On suppose dans ce cas f′′(x)>0 pour tout xI et f′′ continue (vue f de classe C2). Donc f′′ atteint son minimum sur [a,b] en x0 de sorte que f′′(x)c=f′′(x0)>0 pour tout x]a,b[[a,b]. Donc comme à la remarque 3.4 implique f=g+cx22 avec g′′0 donc g convexe et donc f strictement convexe sur ]a,b[.

On pose ga,b(t)=ta+(1t)b. Soit maintenant le cas général E=n. Par définition, f est strictement convexe si et seulement si pour tout segment [a,b]U,ab,ha,b=fga,b est strictement convexe sur [0,1] (ou sur ]0,1[ en élargissant les intervalles comme avant). Or ha,b′′(t)=df2(ga,b(t))(ab,ab)>0 pour tout t]0,1[. On déduit donc du premier cas que ha,b est strictement convexe sur ]0,1[ et donc aussi f. Comme U ouvert, on peut trouver a,bU avec [a,b][a,b]{a,b},[a,b]U.

Pour montrer Comme ga,b est continue bijective de [0,1][a,b] si ab, [a,b] est compact comme image direct du compact [0,1] par une application continue.

tha,b′′(at+(1t)(ba))=d2f(at+(1t)(ba))(ba,ba) est continue sur [a,b] donc atteint son minimum en x0[a,b] qui est donc ha,b′′(x)=d2f(x0)(ba,ba)cx0(ba,ba). En appliquant à l’intervalle ouvert ]a,b[ le premier cas, on déduit que ha,b est strictement convexe sur ]a,b[, donc aussi par restriction ha,b. Comme abU arbitraires, f est aussi strictement convexe.  □

Exercice 3.6.

Montrer que f(x)=x4 est strictement convexe sur mais que sa dérivée seconde n’est pas bornée inférieurement par c>0.

3.3 Convexité, Critère d’extremum global

On retrouve d’abord un critère d’optimisation du premier ordre

Proposition 3.13.

Si f est de classe 𝒞1 sur un ouvert convexe U et f est convexe, alors tout point aU est un minimum global de f si et seulement si c’est un point critique de f (c’est à dire un point a tel que df(a)=0).

Démonstration : 

On sait déjà par le cours de L2 que si f a un minimum local en a alors df(a)=0. En effet, rappelons la preuve, pour tout hE, il existe ϵ>0: B(a,ϵh)U (car U ouvert) et f(a±th)f(a) pour tout t]ϵ,ϵ[. Donc, en divisant par t>0 on obtient:

f(a+th)f(a)tt0+df(a)(h)0
f(ath)f(a)tt0+df(a)(h)0

donc df(a)(h)=0 pour tout h ce qui veut dire df(a)=0.

La nouveauté est la réciproque, on suppose f convexe. Il suffit de noter par le théorème 3.12 que pour cC, f(c)f(a)df(a)(ca)=0 donc f(a)=infcCf(c) et a atteint l’infimum de f sur C.   □

On a un critère d’optimisation plus général sur un convexe Cn. On rappelle que f(a)=(fx1(a),,fxn(a)).

Théorème 3.14.

Soit C un convexe de n avec CU un ouvert et f:U une fonction de classe 𝒞1, convexe sur C. Alors a est un minimum global de f sur C si et seulement si f(a)NC(a) c’est à dire si et seulement si

cC,f(a),ca0.
Démonstration : 

On rappelle la définition NC(a)={fE:cS,f,ca0} ce qui donne la dernière reformulation. Si a est un minimum global f(a)f(tc+(1t)a) pour cC,t]0,1[ vu que par convexité tc+(1t)aC. En prenant la limite, on obtient

f(a),ca=limt0+f(t(ca)+a)f(a)t0

Réciproquement, si l’inégalité est vérifiée donc on peut utiliser le théorème 3.12 (dont la preuve du 1 s’applique même si C n’est pas ouvert) et on obtient :

0f(a),ca=df(a)(ca)f(c)f(a).

donc f(c)f(a) pour tout cC et donc a est un minimum de f sur C.   □

Exemple 3.4.

On prend g(c)=fc22 le carré de la distance euclidienne à fE. Alors g(a)=2(fa) et donc on obtient que aC minimise la distance de x à C si et seulement si:

cC,xa,ca0.

Ce sera le critère du théorème de projection sur un convexe fermé C où l’on verra l’existence d’un tel point a au dernier chapitre. Dans n on peut aussi voir l’existence par compacité de CB pour une boule fermée B assez grande pour qu’une inégalité grossière permette d’assurer que tout minimum doive s’y trouver. On obtient ainsi le résultat suivant.

Théorème 3.15 (théorème de projection sur un convexe fermé de n).

Soit Cn=E un convexe fermé non-vide et ||.||2 la norme euclidienne. Pour tout fn, il existe un unique u=PC(f) tel que

fu2=infvCfv2.

De plus, c’est l’unique vecteur uC tel que:

vC,fu,vu0.

De plus, pour tout cC, c+NC(c)=PC1({c}) et forment une partition de n.

La preuve suivante par compacité ne fonctionnera pas en dimension infinie, mais le résultat sera encore vrai dans un espace de Hilbert (cf. chapitre 5).

Démonstration : 

Comme C non vide r=infvCfv2<. Soit D=CB(f,r+1)¯. Comme la boule fermé est un convexe fermé, D est un convexe fermé comme intersection de convexes fermés, et il est aussi borné par définition, donc c’est un compact de n. De plus, DC, donc infvCfv2infvDfv2 par définition de l’infimum. Mais soit 1>ϵ>0 et vC tel que fv2r+ϵ alors par définition vD et donc infdDfd2fv2r+ϵ. Donc en passant à la limite ϵ0, on a obtenu:

infvDfv2r=infvCfv2infvDfv2.

Or vfv2 est continue sur le compact D, donc atteint son infimum en uDC. Par croissance du carré, c’est aussi le point où fv22 atteint son infimum. La hessienne de vfv22 est l’identité, donc cette application est strictement convexe, elle a donc un unique minimum PC(f). La caractérisation du minimum a été vue à l’exemple précédent. Enfin cette caractérisation donne (en retraduisant avec la définition de NC(c)

PC1({c})={fE:vC,fc,vc0}={fE:fcNC(c)}=c+NC(c).

Le fait que PC:EC est une application surjective (vu que PC(c)=c pour cC) implique le résultat sur la partition.   □