2 Une Inégalité de convexité: l’Inégalité de Jensen

La convexité (ou la concavité) est souvent utilisée pour établir des inégalités.22 2 Cette partie reprend le cours de 2018-2019 de T. Blossier, M. Carrizosa et J. Melleray.

Voyons maintenant l’inégalité de convexité la plus importante de notre cours.

Théorème 5.5 (Inégalité de Jensen).

Soit (X,𝒜,μ) un espace de probabilité, g une fonction μ-intégrable à valeurs dans un intervalle I, et φ:I une fonction convexe. Alors on a

φ(Xg𝑑μ)Xφg𝑑μ

(l’intégrale de droite peut être égale à +!).

Démonstration : 

D’abord, par le théorème 3.9, φ est dérivable à droite et à gauche, donc continue sur l’intérieur de I, donc borélienne sur I (exo) donc la composée φg est bien mesurable. Posons m=Xg𝑑μ. Notons que mI. En effet I est définie par une ou deux inégalités, I=I1I2 avec (I1={x:xa} ou I1={x:x>a} ou I1=) et de même (I2={x:xb} ou I2={x:x<b} ou I2=). Expliquons d’abord que si g est à valeur dans I1={x:xa}, alors comme l’intégrale préserve les inégalités larges Xg𝑑μXa𝑑μ=a car μ(X)=1 et donc mI1. De même si I1={x:x>a} si on n’avait pas Xg𝑑μ>a, on aurait donc Xg𝑑μ=a=Xa𝑑μ donc X(ga)𝑑μ=0 mais alors ga serait nulle μ-presque partout, donc {xX:g(x)>a}=X serait de mesure nulle, contredisant l’hypothèse que X est un espace de probabilité. On conclut donc aussi dans ce cas Xg𝑑μI1. On raisonne pareil pour I2 (ou on applique le premier cas à g pour changer le sens des inégalités).

Maintenant qu’on a vu que mI, on distingue 3 cas. Si jamais m est le minimum de I (s’il existe!) alors on a X(gm)𝑑μ=0 et gm0, donc gm est nulle presque partout, par conséquent on a

Xφg𝑑μ=Xφ(m)𝑑μ=φ(m)=φ(Xg𝑑μ).

On traite de même le cas où m est le maximum de I; finalement, le cas qui nous reste est celui où m appartient à l’intérieur de I.

Alors, on sait que φg(m) existe et en posant α=φg(m), le théorème 3.9 donne que

tIφ(t)φ(m)α(tm).

En particulier, pour tout xX on a φ(g(x))φ(m)+α(g(x)m). Comme g est intégrable et les fonctions constantes sont intégrables (car μ est finie), donc la borne inférieure est intégrable, et on en déduit que la partie négative de φg est d’intégrale finie; et en intégrant cette inégalité, on obtient aussi que

Xφg𝑑μXφ(m)𝑑μ+αX(gm)𝑑μ=φ(m)+α(Xg𝑑μm)=φ(m).

Le corollaire suivant est un cas (très) particulier de l’inégalité de Jensen, qui peut se montrer élémentairement, sans théorie de la mesure.

Corollaire 5.6.

Soit I un intervalle de , α1,,αn des réels positifs tels que i=1nαi=1, et φ une fonction convexe sur I. Alors, pour tout x1,,xnI on a

φ(i=1nαixi)i=1nαiφ(xi).
Démonstration : 

On fixe x1,,xnI et on considère l’espace mesuré d’ensemble sous-jacent X={x1,,xn}, où toutes les parties sont mesurables et μ=i=1nαiδxi, où δxi désigne la mesure de Dirac en xi. Alors μ est une mesure de probabilité; de plus pour toute fonction g:X on a

Xg𝑑μ=i=1nαig(xi).

En considérant pour g la fonction identité, on a donc Xφg𝑑μ=i=1nαiφ(xi), et Xg𝑑μ=i=1nαixi. L’inégalité de Jensen nous donne donc comme attendu

φ(i=1nαixi)i=1nαiφ(xi).

Remarque 5.1.

Dans le corollaire ci-dessus, le cas n=2 correspond exactement à la définition de la convexité. En particulier, une application φ qui satisfait l’inégalité de Jensen pour toute fonction intégrable sur un espace de probabilité, est nécessairement convexe.