Clément Galopin février 2014
1
-
Le modèle de base de l’assurance : le réservoir d’eau
L’évolution du niveau d’eau en fonction du temps est un processus stochastique qui se laisse
représenter de façon exemplaire par le graphe suivant :
La compagnie d’assurance entame la première année avec des réserves
substantielles et ces
réserves augmentent en raison de l’afflux de primes. A la fin janvier, il faut payer un premier
dommage, ce qui cause une petite chute subite du niveau. Suivent quatre mois sans le moindre
sinistre puis une cascade de petits et moyens dommages (causés peut-être par un tremblement de
terre et provoquant un grand nombre de dégats auprès des assurés de la compagnie). Durant le reste
de l’année, le volume des primes est plus ou moins égal à celui des dommages à payer. Le résultat de
la première année : les réserves ont diminué de 75%. La première moitié de la deuxième année
semble prometteuse et pourtant, le résultat à la fin de la deuxième année est désastreux,
principalement en raison d’un sinistre exceptionnellement élevé en juillet. A cette occasion, le niveau
Clément Galopin février 2014
2
tombe en-dessous de zéro, ce qui signifie que la compagnie, n’étant momentanément plus capable
de s’acquitter des payements dus grâce aux seuls moyens financiers de la ligne d’assurance en
considération, est forcée de mobiliser d’autres moyens financiers. Dans ce cas de figure, on parle de
ruine actuarielle. Il ne s’agit néanmoins que d’une ruine technique et non pas d’une banqueroute de
la compagnie d’assurance. Durant le reste de l’année, trois autres sinistres sont à payer si bien qu’à la
fin de la deuxième année, toutes les réserves ont fondu, le processus stochastique finissant
légèrement dans la négative.
Il est clair que si les sinistres avaient eu lieu en d’autres moments, la courbe en zigzags aurait eu une
autre forme. En fait, celle-ci dépend des éléments suivants, dont deux sont de nature déterministe et
deux de nature stochastique :
- des réserves initiales
, qui définissent le point de départ du processus stochastique,
- de la prime annuelle P, qui détermine la pente des parties diagonales de la ligne en zigzags,
- de la suite des durées entre deux occurrences successives
,
,
, …,
dénote la durée
entre le début du processus et l’occurrence du premier sinistre, et ainsi de suite,
- de la suite des montants des dommages inividuels
,
,
, …, ceux-ci déterminant les
chutes verticales du niveau.
Si dénote le niveau d’argent dans le réservoir immédiatement suite à l’occurrence du n
ième
sinistre,
alors


Il est commode d’admettre que les variables aléatoires
et
sont indépendantes deux à deux
(dans toutes les combinaisons possibles impliquant soit un et un , soit deux ou soit deux ) et
identiquement distribuées on note cela i.i.d. et de loi exponentielle. On pose ainsi que
 est de loi exponentielle de paramètre  et
 est de loi
exponentielle de paramètre . Il s’agit du modèle dit d’Erlang
1
.
Il est à noter que lorsque le temps entre deux occurrences suit une distribution exponentielle, le
nombre d’occurrence suit quant à lui une loi de Poisson, avec laquelle il est facile de calculer. Le
modèle d’Erlang est donc un modèle privilégié dans les assurances
2
.
Il est intellectuellement satisfaisant de savoir que ce modèle du réservoir s’applique à d’autres
domaines que celui de l’assurance. La gestion des stocks de la Migros par exemple se laisse modéliser
de la même façon : Pour chacun des centaines de produits en vente, le stock de marchandise doit
être évalué au plus proche de l’espérance de vente, sans quoi on court le risque de rupture de stock
ou au contraire de frais de stockage inutilement élevés. Le stock (grandeur à déterminer) correspond
à la prime, l’achat d’un client correspond à un sinistre. Enfin, on peut remarquer qu’en politique
énergétique, la gestion du niveau d’eau d’un barrage est un problème dual à celui de l’assurance.
Dual dans le sens où ce sont les entrées d’eau dans le réservoir qui sont de nature aléatoire et c’est la
1
Erlang est un mathématicien danois qui a développé un modèle stochastique prenant en compte à la fois la
durée d’un appel téléphonique et le temps entre deux appels successifs. Le modèle d’Erlang sert entre autres à
la description de processus comme celui d’une file d’attente à un guichet.
2
Et lorsque la loi de Poisson décrit le nombre de sinistres de façon insatisfaisante, on a recours à la loi
binomiale négative.
Clément Galopin février 2014
3
sortie d’eau qui est déterministe, les turbines tournant à régime constant (selon les saisons) pour une
production électrique régulière.
Quelques connaissances utiles
3
en calcul des probabilités
Que la variable aléatoire soit de loi exponentielle de paramètre  signifie que sa densité est
󰇛

󰇜

Pour s’en convaincre, il faut faire le petit calcul de l’intégrale de à , devant valoir 1, afin de
répondre à la question qu’on ne manque de se poser, à savoir s’il ne manquerait pas un signe négatif
à cette densité (mais bon, une densité devrait être positive...) et on constate après calcul que non.
Cette réflexion est bien sûr à refaire après chaque longue période passée sans avoir touché de loi
exponentielle.
Quant à la fonction génératrice des moments de , elle est donnée par
󰇛
󰇜
󰇟

󰇠


󰇛
󰇜



pour
Ici, même chose : si on n’a plus touché de fonctions génératrices depuis longtemps, il faut se
convaincre à nouveau qu’une fonction qu’il suffit de dériver une fois en pour obtenir
l’espérance, deux fois pour obtenir la variance, trois fois pour… quoi déjà ? La dissymétrie, c’est bien
cela ? Et ça continue comment déjà ? il faut se convaincre qu’une telle fonction, c’est bien pratique.
Et probablement que, la genèse de cette notion de fonction génératrice restant mystérieuse, on
peine à l’intégrer dans sa boîte à outils mathématiques.
En sus de ce qu’on a exigé de X, on veut que le nombre de sinistres soit une variable aléatoire de
loi de Poisson de paramètre . La variable aléatoire qui est la plus intéressante pour la compagnie
d’assurance est en effet le montant total à payer et celui-ci est

c’est-à-dire une somme de variables aléatoires dont la borne supérieure de sommation est elle-
même une variable aléatoire. Grâce à des considérations sur les fonctions génératrices des moments,
on exprime la fonction génératrice de a priori compliquée comme une composition des
fonctions génératrices de et de .
3
Le choix que je propose n’est bien sûr pas exhaustif. Il est cependant en rapport avec les thématiques
présentées dans ce petit document et il correspond surtout aux quelques questions que je me pose, comme un
rituel de mise en route, à chaque fois qu’il m’arrive de me replonger dans la théorie des probabilités après
l’avoir laissée longtemps de côté. Notion de rituel de réactivation de connaissances.
Clément Galopin février 2014
4
Répétons-le : la première dérivée d’une fonction génératrice des moments évaluée en 0 est égale à
l’espérance (on dit aussi le premier moment) de la variable aléatoire et la seconde dérivée évaluée
en 0 est égale à sa variance (on dit aussi son deuxième moment centré). On reconnaît le grand
intérêt à la fois pratique et théorique des fonctions génératrices : celui de générer les moments. Il est
à noter que certains calculs importants trouvent une expression plus simple si l’on considère le
logarithme de la fonction génératrice, appelé la fonction log-génératrice. Si l’on note
󰇛
󰇜

󰇛
󰇜
, alors on a le résultat central du modèle d’Erlang :
󰇛
󰇜
󰇛
󰇜
Ce résultat reste vrai quelle que soit la loi de et tant que est de loi de Poisson; on dit que suit
une loi de Poisson composée.
Pour comprendre cela, il faut avoir auparavant compris que pour deux variables i.i.d.
et
,

󰇛
󰇜
󰇡
󰇛
󰇜
󰇢
De fil en aiguille, on en vient invariablement à se demander une n
ième
fois comment on fait pour
montrer la loi de la somme , et en quoi la loi de la différence de deux variables s’en
différencie.
Il est à noter que jamais on n’a l’occasion de faire cette réflexion en partant de zéro. Celle-ci est en
effet provoquée par la rencontre, au hasard de la n
ième
lecture du même texte mathématique de
référence, d’une certaine formule dont la substance est la suivante (les minuscules sont des
constantes) et qui, puisqu’elle n’est jamais déduite mais toujours donnée comme préalable à la
réflexion, conserve une légère odeur de mystère
4
:

󰇛

󰇜
󰇛
󰇜
󰇝

󰇞

󰇝

󰇞
󰇝
󰇞
󰇛

󰇜
󰇛

󰇜
󰇛
󰇜
La première ligne est l’énoncé en formalisme logique, la deuxième est sa traduction ensembliste et la
troisième en est la traduction probabiliste, en supposant l’indépendance stochastique entre et .
Ce partitionnement est vrai pour tous nombres  et . C’est alors qu’invariablement, on se demande
comment on fait pour passer de cette formule-ci à la densité de convolution de et .
On veut en fait pouvoir employer le calcul intégral et pour cela, il faut remplacer les inégalités par
autant de sommes d’égalités (l’intégration discrète, c’est cela, non ?). Dans le cas continu, on veut
sommer des tranches
5
de la forme
󰇛

󰇜
(ici, est fixé), dont on sait que chacune de
ces tranches, notées par exemple 󰇛󰇜, est égale à 󰇛󰇜,
󰇛
󰇜
󰇛󰇜 est la densité de
probabilité de au point .
4
Parfois il faut avoir obtenu soi-même un sultat pour pouvoir l’accepter totalement. Sinon, la question
demeure « Mais comment en arrive-t-on à poser ceci et cela ? Y serais-je arrivé par moi-même ?».
5
Le recours à des éléments infinitésimaux est en réalité une approche mathématique peu formelle et en toute
rigueur on devrait avoir recours à la théorie de la mesure. Le dans l’expression 󰇛󰇜 est alors la mesure-
image par de l’ensemble des valeurs que peut prendre (ici, ). Soit en effet une variable aléatoire
; alors
󰇛󰇜
󰇛

󰇛󰇜
󰇜
est une mesure qui associe à chaque partie de la mesure de sa
préimage par .
Clément Galopin février 2014
5
Remplacer les deux facteurs du membre de droite de l’équation conduit à considérer le produit de
deux intégrales. Or il n’y a pas de théorème permettant de transformer un produit d’intégrales en
une seule intégrale (on aurait alors la densité de la somme ). Fubini ne parle pas de produit
d’intégrales, ni Cavalieri d’ailleurs, et on cherchera en vain.
Remplacer le membre de gauche de l’équation semble plus prometteur. On se met à considérer que
󰇛

󰇜
󰇛

󰇜

en réfléchissant bien évidemment sur le cas discret
󰇛

󰇜
󰇛 󰇜

A ce stade, on a probablement le sentiment d’avoir compris car on fait désormais le lien avec la
convolution à partir du cas discret. De
󰇛
󰇜
󰇛
󰇜
on tire que
󰇛
󰇜
󰇛
󰇜
󰇛
󰇜
󰇛
󰇜
󰇛
󰇜

et donc que
󰇛

󰇜
󰇛
󰇜
󰇛
󰇜

Il reste à effectuer le passage du cas discret au cas continu. Il convient à ce point d’être au clair avec
ce qu’on entend par un tel passage, sans quoi on risque effectivement d’écrire n’importe quoi, et ceci
d’autant plus que l’écriture adoptée par le livre de Straub (livre de référence, voir bibliographie) et
qui est reprise dans ce texte est malheureuse du point de vue de sa maniabilité mathématique.
De façon générale, on fait passer du discret au continu une expression de la forme
󰇛󰇜

,
pour une partie
6
de , en premier lieu en linéarisant la fonction de répartition cumulative
7
de la
variable aléatoire discrète . C’est en effet la notion de fonction de répartition (cumulative) qui
permet de faire le lien entre les variables aléatoires discrètes et continues.
Par linéarisation, on entend ici le remplacement d’une fonction en escaliers, discontinue à chaque
saut, par une fonction affine par morceaux continue partout, de la même façon dont on procède en
statistique descriptive pour obtenir graphiquement les quartiles associés à une fonction de
répartition cumulative empirique.
6
Exiger ceci de n’est pas une restriction à la généralité mais une simplification bienvenue. On peut en effet,
si est un ensemble discret quelconque, indicer ses éléments et dire que ce sont les indices de ces éléments
qui sont pris dans une partie de et non les éléments de eux-mêmes.
7
On précise ici qu’elle est cumulative parce que dans le cas discret, il est possible de donner une fonction de
répartition non cumulative qui, dans le cas continu, correspond à la densité.
Clément Galopin février 2014
6
En deuxième lieu, on écrit
󰇛󰇜

comme
󰇛
󰇜
󰇛 󰇜

,
est la fonction de
répartition cumulative linéarisée de .
En troisième lieu, on suppose qu’un partitionnement plus fin de l’ensemble  fait sens (on
s’imagine pour cela qu’on le complète par des éléments de ) et on écrit le partitionnement
8
suivant
(l’expression ci-dessous est en fait une nouvelle définition de pour chaque choix d’un nombre réel
positif
),
󰇝


󰇞
󰇌
󰇠

󰇛 󰇜

󰇠


dont on attend qu’il fasse sens pour tout
suffisamment petit, de façon à ce que l’on puisse en
prendre la limite lorsque
. C’est-à-dire qu’on veut pouvoir considérer comme un intervalle
d’un seul tenant
󰇟



󰇠
.
En dernier lieu, on écrit
󰇛󰇜

comme


󰇛

󰇜
󰇛

󰇛 󰇜
󰇜

󰆒
󰇛
󰇜

󰇛
󰇜

L’entier

étant la borne supérieure de , on a que
󰇛󰇜

󰇛


󰇜
et donc que
󰇛
󰇜



󰇛
󰇜

si bien que, en vertu du théorème fondamental du calcul intégral, la densité s’obtient par
󰇛

󰇜


󰇛


󰇜
Cette digression étant terminée, il s’agit à présent de trouver le pendant continu de l’équation
suivante :
󰇛

󰇜
󰇛
󰇜
󰇛
󰇜

Le membre de gauche de cette équation devient
8
Par le partitionnement d’un ensemble, on entend son expression comme réunion disjointe.
Clément Galopin février 2014
7
󰇛

󰇜


󰇛󰇜


󰇛
󰇜


Quant au membre de droite, il devient
󰇛
󰇜
󰇛
󰇜
󰆄
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆅
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆈
󰆆
󰇛󰇜
󰇡
󰇛
󰇜
󰇢
󰆄
󰆈
󰆈
󰆅
󰆈
󰆈
󰆆
󰇛󰇜


On remarque que la borne supérieure de l’une des sommes est l’indice de sommation de l’autre, ce
qui permet de ne pas se tromper dans l’ordre de prise de limites. L’expression ci-dessus est ainsi
égale à




󰇛
󰇜

󰇛
󰇜
󰇛
󰇜
󰆒
󰇛
󰇜



󰆒
󰇛
󰇜

󰆒
󰇛
󰇜

󰆒
󰇛
󰇜




󰇛
󰇜
󰇛
󰇜




La densité de la somme de deux variables aléatoires indépendantes est donc la dérivée

de cette
dernière expression, à savoir (application du théorème fondamental du calcul intégral)

󰇛
󰇜
󰇛
󰇜

󰇛
󰇜

󰇛
󰇜

󰇛
󰇜

La dernière égalité venant du fait que
est nulle pour un argument négatif. On reconnaît bien la
convolution des densités de et de .
On voit que le passage du discret au continu n’est pas facile et qu’un vilain sentiment de confusion
peut persister si l’on se contente de comprendre les choses à peu près. Le passage des sommes aux
intégrales nécessite de savoir jongler entre les différentes écritures intégrales, puisqu’une fois le
«  » est l’expression d’une mesure (intégrale de Lebesgue) et une autre fois c’est un élément
infinitésimal. Par exemple, on peut se demander à quoi correspond le entre parenthèses dans
l’expression « 
󰇛
󰇜
», dès lors que celle-ci exprime un élément infinitésimal et non une fonction de
.
Question : Quelle est la loi de la différence de deux variables aléatoires indépendantes et ?
Clément Galopin février 2014
8
Comment calculer une prime à partir de données concrètes ?
Soit Z la variable aléatoire d’un risque financier pour lequel nous cherchons à déterminer une prime
d’assurance correcte (i.e. ni trop basse ni trop élevée). Celle-ci doit au moins valoir l’espérance de Z
(prime pure) sans quoi la ruine actuarielle est inévitable sur le long terme (voir chapitre suivant).
Une première façon d’envisager une telle prime P pour Z est de poser
󰇟
󰇠
󰇛
󰇜
est un petit pourcentage (disons 10%). Si l’écart-type de Z est grand, il est en effet normal de
demander une prime plus élevée que s’il est petit.
Une deuxième façon d’envisager une prime correcte pour Z est de poser
󰇟
󰇠

󰇛
󰇜

󰇛
󰇜

󰇟
󰇠

󰇛
󰇜
où W est le risque déjà assuré et pour lequel une prime existe déjà. Cette formule est en substance la
même que la précédente sauf que l’espérance de Z est augmentée d’un pourcentage non pas de son
écart-type mais de sa variance, une considération sur l’éventuelle dépendance entre W et Z venant
ensuite s’ajouter à la précédente considération. Il est à noter que la question de savoir s’il faut
ajouter à 󰇟󰇠 un pourcentage de l’écart-type de Z ou au contraire de sa variance peut diviser les
esprits. En fait, il faut considérer que dans le cas où Z et W sont stochastiquement indépendantes, les
variances s’additionnent tandis que dans le cas Z et W sont totalement dépendantes leur
coefficient de corrélation valant alors 1 ce sont les écarts-types qui s’additionnent. A partir de là, on
peut choisir.
Le risque déjà assuré W n’est pas nécessairement stochastiquement indépendant du nouveau risque
Z que nous voulons ajouter à notre portefeuille de risques et pour lequel nous cherchons à
déterminer la prime P. Si l’un des risques de notre portefeuille est fortement corrélé à Z, le
coefficient de corrélation valant disons un peu moins de 1, alors la probabilité de leur occurrence
conjointe est, à peu de choses près, égale à Prob󰇛󰇜, alors que la somme des primes de Y et de Z est
pensée pour couvrir une occurrence conjointe de Prob󰇛󰇜 Prob󰇛󰇜Prob󰇛󰇜. Cette réflexion
explique pourquoi il faut majorer la prime de Z d’une grandeur qui dépend de la corrélation ou de la
covariance.
La détermination de la covariance promet par contre d’être difficile et on préférera dans la pratique
la première approche. la considération de la covariance fait par contre vraiment sens, c’est
dans la détermination d’une prime de réassurance, étant clair que les établissements de assurance
peuvent, au travers de montages pouvant être complexes, se réassurer indirectement plusieurs fois
sans que cela ne saute aux yeux.
Quoi qu’il en soit, il faut pouvoir déterminer, à partir des données à disposition sur les occurrences
passées de la variable aléatoire Z, son espérance 󰇟󰇠.
Clément Galopin février 2014
9
En pratique, nous avons à déterminer l’espérance de Z pour une catégorie de risque donnée. Pour
fixer un cadre, on se donne un indice qui court sur les années, l’année 0 se situant dans le futur
et étant l’année pour laquelle il faut calculer une prime et l’année 1 étant l’année actuelle et la
première pour laquelle des données statistiques sont disponibles. On se donne aussi un indice
qui court sur les catégories de risques. On dispose des données statistiques des occurrences de
chacune des variables aléatoire

et notre but est de déterminer 󰇟

󰇠, la moyenne espérée sur
plusieurs années par catégorie de risque.
Comment estimer 󰇟

󰇠 ? La réponse semble pourtant aller de soi : le meilleur estimateur statistique
pour l’espérance
est la moyenne arithmétique



, chaque

est la moyenne
empirique des occurrences de la variable aléatoires

pour l’année et

est la somme
des nombres d’occurrences annuels. Y aurait-il ici matière à difficulté ?
En fait, on peut ici prendre une moyenne d’au moins deux façons qui font sens.
On peut d’une part et bien entendu estimer 󰇟

󰇠 avec

. Ce faisant, on considère implicitement
que les individus de deux catégories de risque différentes diffèrent du point de vue de leur profil de
risque de façon essentielle, dans le sens que cette différence serait inscrite dans leur nature (ou
essence) même. Les femmes seraient par nature plus ou moins personnes à risques que les hommes,
par exemple. En effet, cette façon de calculer l’estimateur 󰇟

󰇠 suppose que pour deux catégories
de risque
et
, la différence entre 󰇟

󰇠 et 󰇟

󰇠 ne relève pas du tout du hasard. Ce point est
important et justifie les développements ultérieurs, il convient donc de le méditer.
Y réfléchir conduit à interroger la pertinence du découpage d’une population en telles catégories de
risque plutôt que d’autres. Il existe d’ailleurs des algorithmes de clustering qui ont pour but d’obtenir
une répartition en classes d’une population qui soit optimale pour un critère donné, ce qui veut bien
dire qu’une partie du problème de l’actuaire consiste à compenser le fait de devoir travailler à partir
de catégories de risque fixées, par exemple par la loi.
On peut d’autre part considérer que toute différence entre classes de risques n’est que fortuite et
prendre




, avec
, comme estimateur de 󰇟

󰇠. Dans ce cas-là, on
suppose que toutes les classes tendent à se ressembler les unes aux autres à mesure que chacune
d’elle regroupe un nombre d’individus toujours plus grand.
La première façon de voir les choses est naïve du point de vue de la pure compréhension statistique
(c’est la pratique naïve habituelle) et pour le moins discriminatoire. La seconde façon de voir les
choses est naïve du point de vue de la vision sociale, trop prompte à niveler les différences.
Comme souvent, la vérité est ailleurs et voici comment il est possible de faire la part des choses.
Clément Galopin février 2014
10
Étape 1
Soit

le volume
9
correspondant à

. On considère la grandeur relative



, grandeur
qui correspond au loss ratio lorsque

est une quantité de numéraire et qu’on nomme dorénavant
ainsi dans tous les cas, par un abus de langage bien pratique. Le numérateur de ce loss ratio est une
variable aléatoire tandis que son dénominateur est un nombre.
Nous voulons dès à présent estimer non plus 󰇟

󰇠 mais

, étant clair que si l’on connaît celui-
ci, on revient facilement à celui-là.
Nous posons que chaque classe de risque est déterminée par un paramètre de risque
de façon que
Prob




c’est-à-dire de façon que la fonction de répartition du loss ratio ne dépende que de ce paramètre et
du volume

(le membre de droite de l’équation ci-dessus ne dit rien d’autre), avec, et c’est
l’important

󰇠
󰇛
󰇜
󰇛󰇜
et



󰇛
󰇜





󰇛
󰇜





󰇛
󰇜
󰇛󰇜
c’est-à-dire de façon que l’espérance de cette fonction de répartition ne dépende que de ce
paramètre (équation 󰇛󰇜) et de façon que la variance de

soit proportionnelle
10
au volume
(équation 󰇛󰇜).
Que la démarche soit ici claire : ces exigences qui concernent la fonction de répartition du loss ratio
portent en réalité sur sa dépendance par rapport au volume : on fait varier le volume et on se
demande comment doit varier cette fonction de répartition. Que la fonction de répartition du loss
ratio dépende d’un paramètre semble par contre tout à fait clair et exiger ceci relève davantage du
besoin de fixer les notations en termes d’espérance conditionnelle (dont l’utilité n’apparaîtra qu’à la
prochaine étape du développement) que d’une limitation particulière.
9
Qu’est-ce donc que ce volume ? Si

est le nombre de cas d’accidents (ou la somme déboursée par
l’assurance) durant l’année pour la catégorie de risque , alors le volume

est le nombre total de personnes
assurées (respectivement la somme totale assurée) dans la catégorie de risque durant l’année . De façon
analogue,

est le volume correspondant à

.
10
En effet, écrire que
󰇛󰇜
󰇛󰇜
constante ne dépendant pas de
signifie que a varie proportionnellement à b.
Clément Galopin février 2014
11
Exemple : Le nombre de cas d’accidents pour l’année et dans la catégorie est

. Son
espérance est
. Si l’on se met à faire varier le volume

, on modifie la variable aléatoire

puisqu’elle est définie pour un volume donné. Si par exemple on double le volume, l’espérance de la
variable ainsi modifiée est 
. C’est pourquoi nous choisissons de fixer que le nombre

de cas
d’accidents pour un volume unitaire est de loi
de façon à pouvoir ensuite affirmer que


. De là, on vérifie que l’espérance du loss ratio ne dépend pas du volume (condition
󰇛󰇜) puisque



et que la variance du nombre de cas d’accidents est
proportionnelle au volume (condition 󰇛󰇜). En effet,



󰇡



󰇢






les

sont deux à deux stochastiquement indépendantes
11
pour deux unités de volume u
différentes, chaque

,

, décrivant le nombre de cas d’accidents pour une unité de volume
et le nombre de cas d’accidents pour un volume

s’obtenant en sommant les

pour u allant de
l’unité de volume numérotée 1 jusqu’à celle numérotée

.
Étape 2
On considère que pour chaque catégorie de risque, le paramètre
n’est pas simplement un nombre
inconnu bien que déterminé mais est un nombre aléatoire, c’est-à-dire essentiellement indéterminé.
On pose ainsi que les
sont autant de variables aléatoires i.i.d. dont il faut déterminer la répartition
ou du moins l’espérance et la variance.
Ce qu’on a écrit ci-dessus concernant l’espérance du loss ratio :

󰇠
󰇛
󰇜
se fait modifier de la façon suivante. Le , qui était un nombre considéré comme fixé, devient une
variable aléatoire et alors que jusqu’ici on ne nécessitait pas le concept d’espérance conditionnelle,
celui-ci est à présent incontournable
12
:


󰇠
Puisque les
sont i.i.d., on peut fixer la classe de risque en posant , pour un nombre fixé.
Mais comment progresser dans le raisonnement, puisqu’on ignore à la fois

et
?
11
Lorsque deux variables aléatoires sont stochastiquement indépendantes, la variance de leur somme est égale
à la somme de leurs variances. C’est ce qui permet la deuxième égalité ci-dessus puisqu’ alors
 󰇡



󰇢



. L’exigence que la variance de

soit proportionnelle au volume est donc en
fait une exigence d’indépendance stochastique des risques individuels à l’intérieur de chaque catégorie de
risque.
12
Alors qu’une espérance est un nombre déterminé, une espérance conditionnelle est quant à elle une variable
aléatoire. Le lecteur doit ici s’efforcer d’être au clair avec cette notion qui revient sans cesse par la suite.
Clément Galopin février 2014
12
Dans pareil cas, la solution est d’exiger que l’objet mathématique recherché prenne une forme
particulière (on appelle cela faire un Ansatz) : on exige que l’estimateur de cette espérance
conditionnelle s’écrive sous la forme d’une combinaison linéaire



qui satisfasse la condition de carré minimum
󰇣
󰇛
󰇜
󰇤
mimimum
et qui soit non biaisée
󰇟
󰇠
󰇟
󰇛
󰇜
󰇠

On cherche les coefficients

qui satisfont à cette attente en formant l’expression suivante :





󰇛
󰇜
󰇭
󰇯



󰇰
󰇮
et en posant égales à zéros ses dérivées partielles par rapport à

et à .
Le coefficient  est ce qu’on appelle un multiplicateur de Lagrange. Le premier terme de cette
expression est une fonction dont on veut le minimum et le second terme, celui qui est un multiple de
c, est une fonction de contrainte. La méthode des multiplicateurs (ici au singulier) de Lagrange est
applicable puisque la fonction à minimiser et la fonction de contrainte sont toutes deux convexes.
Durant les calculs, pénibles, que l’on retrouve en détails dans E. Straub : Non-Life Insurance
Mathematics, Springer Verlag, on procède essentiellement de la façon suivante :
1) On fait à tout bout de champ usage de l’identité suivante :
󰇟
󰇟
󰇠
󰇠
󰇟
󰇠

2) On pose


et on déduit facilement que

.
3) On pose


et on applique le résultat du point 2) pour transformer l’égalité posée de
façon à obtenir .
4) On introduit la valeur obtenue pour  dans l’équation


et on obtient péniblement
les coefficients

. On connaît alors tous les coefficients et on a déjà virtuellement fini.
5) On exprime l’estimateur


à l’aide des coefficients obtenus et obtient ainsi
une expression indigeste qu’on s’attache à simplifier. Il faut pour cela avoir identifié une
certaine expression fractionnaire qui revient en plusieurs endroits dans l’expression
indigeste; alors on peut alors avoir l’idée de donner un nom de coefficient à cette expression
fractionnaire et réécrire le tout en plus compact.
Clément Galopin février 2014
13
L’estimateur
que l’on a ainsi obtenu donne la prime pure recherchée. Disposant de celle-ci, on
procède ensuite selon les explications données à la page 8 de ce document.
Remarques : La méthode décrite correspond au fameux modèle Bühlmann-Straub (󰇜 en
théorie de la crédibilité. Il y a tout de même eu nombre de développements théoriques depuis, un
point notamment pouvant être vu comme une limitation du modèle de Bühlmann-Straub étant que
celui-ci pose (Ansatz) que l’estimateur recherché
est une combinaison linéaire des

. C’est
pourtant cette limitation qui permet l’application de la méthode des multiplicateurs de Lagrange en
rendant la fonction de contrainte

󰇟
󰇠
linéaire et donc convexe.
Clément Galopin février 2014
14
La détermination de la probabilité de ruine
Soit
, de loi de Poisson composée, les frais accumulés dus aux sinistres qui sont arrivés durant
l’intervalle de temps 󰇟󰇠, soit
le volume de primes collecté durant cette période et les
réserves initiales. La ruine arrive lorsque il existe un moment  dans 󰇟󰇠 tel que
󰆓
󰆓

On définit donc la probabilité de ruine durant l’intervalle de temps de la façon suivante :
󰇛

󰇜
󰇛


󰇛
󰇜
󰇜
Selon la nature du temps que l’on considère, temps discret ou continu, à l’horizon borné ou temps
infini, on distingue différentes expressions de la probabilité de ruine. Exemple de temps discret
borné :
󰇝

󰇞
et exemple de temps continu infini : 󰇟󰇟.
Pour un temps continu et infini, on cherche une formule pour la probabilité de ruine
󰇛

󰇜
.
Puisque
suit une loi de Poisson composée, il existe un paramètre pour lequel le temps entre
chaque sinistre est une variable aléatoire de loi exponentielle de densité
󰇛
󰇜

. Quant à la
densité du montant d’un sinistre particulier, elle peut être quelconque et est dénotée 󰇛󰇜.
Soit l’instant et le montant du premier sinistre du processus stochastique
. Alors on peut
affirmer qu’on ne se trouve pas en état de ruine actuarielle lorsque les deux événements suivants
arrivent de façon conjointe :
et

La première condition stipule que la ruine n’arrive pas lors du premier sinistre et la seconde
condition, que la ruine n’arrive pas par après non plus. Or la densité de probabilité du premier de ces
deux événements est
󰇛

󰇜


󰇛
󰇜
c’est-à-dire une densidéfinie sur le produit cartésien 󰇟󰇠
du temps et de l’ensemble des
montants auxquels peut s’élever un sinistre seul.
Cette densité permet d’exprimer la probabilité que l’événement
󰇝

󰇞
se produise pour 
et . La probabilité du second événement est donnée quant à elle par
󰇠󰇟
󰇛

󰇜
En notant
󰇛
󰇜
󰇠󰇟
󰇛

󰇜
, la probabilité conjointe est donnée par le produit des
probabilités


󰇛
󰇜

󰇛

󰇜
En intégrant sur toutes les possibilités pour le premier sinistre :
Clément Galopin février 2014
15
󰇛
󰇜
󰇭

󰇛
󰇜

󰇛

󰇜


󰇮
󰇛
󰇜
donne la probabilité de ne jamais être ruiné durant le temps infini continu 󰇟󰇟 en fonction
des réserves initiales . Cependant cette intégrale ne se laisse pas du tout évaluer et il faut encore
déployer beaucoup d’ingéniosité pour lui donner une forme utilisable.
Un mot sur l’élégance du développement proposé : alors qu’on recherche une probabilité
󰇛

󰇜
dont on ignore tout, on arrive tout de même à obtenir une équation implicite non triviale ! Cela
passe par l’idée de « couper » l’événement inconnu en deux événements indépendants dont la
densité de l’un des deux est connue et dont la conjonction doit être vérifiée, ce dernier point
amenant à travailler avec la probabilité complémentaire
󰇛
󰇜
󰇛

󰇜
, puisqu’on ne peut le
faire directement avec
󰇛

󰇜
.
Le gros problème à résoudre à ce stade du développement est que l’équation ci-dessus ne donne la
fonction que de façon implicite, puisque celle-ci se retrouve de part et d’autre de l’égalité.
La dérivation en de part et d’autre de l’égalité fournit une nouvelle égalité. Afin de pouvoir dériver
en , il faut auparavant modifier la borne supérieure d’intégration du membre de droite de
l’équation. C’est pourquoi on fait le changement de variable suivant : .
Calculs intermédiaires :
󰇛
󰇜

et
󰆒
󰇛
󰇜
. Quant aux bornes d’intégration,

󰇛
󰇜
et

󰇛
󰇜
. Le changement de variable donne ainsi :
󰇛
󰇜
󰇭
󰇛󰇜

󰇛
󰇜
󰇛
󰇜

󰇮
Afin de calculer la dérivée en de cette expression, il faut tout d’abord en remarquer la (une)
structure. Ceci permet de décomposer le travail de dérivation et d’appliquer les bonnes règles dans
le bon ordre sans rien oublier.
Puisque dépend de , on doit commencer par repérer dans l’expression à dériver toutes les
occurrences de ces deux variables, et rien qu’elles. En procédant ainsi, on ne manque de remarquer
que se trouve à la borne inférieure de la première des deux intégrales. Or il se trouve quon ne sait
traiter que la situation se trouve à la borne supérieure d’intégration. On s’arrange donc pour
faire passer le de la borne inférieure à la borne supérieure :
󰇛
󰇜
󰇛
󰇜
󰇭
󰇮
󰇭
󰇮
On peut dériver le premier de ces deux termes. En le dénotant par
󰇛
󰇜
, cela donne :

󰇛
󰇜

󰇯
󰇭
󰇛

󰇜

󰇛
󰇜
󰇛
󰇜

󰇮
󰇰
Clément Galopin février 2014
16
On traite le fait que est à la fois borne supérieure d’intégration et variable sous l’intégrale en
exprimant comme la fonction composée suivante :
󰇛
󰇜
󰇣
󰇤

󰇛

󰇜
󰇭
󰇛

󰇜

󰇛
󰇜
󰇛
󰇜

󰇮

On dérive ainsi comme une fonction composée :
󰇛󰇜

󰇛󰇜


󰇣
󰇤

󰇛󰇜



󰇛󰇜


où, en définissant
󰇛

󰇜
󰇛󰇜

󰇛
󰇜
󰇛
󰇜

,

󰇛󰇜



󰇛󰇜
󰈑


󰇛

󰇜
󰇛󰇜
󰆄
󰆈
󰆈
󰆅
󰆈
󰆈
󰆆


󰇛
󰇜
󰇛
󰇜

et où

󰇛󰇜



󰇛󰇛󰇜󰇜

󰈑


On dérive en la fonction
:


󰇛
󰇜

󰇛󰇜

󰇛󰇜
󰆒
󰇛
󰇜

󰇛

󰇜

󰇛

󰇜
󰆒
󰇛
󰇜
Par suite, et en remarquant que la présence de la dérivée de la variable d’intégration ne pose pas
de problème puisque
󰆒
󰇛
󰇜
tient le rôle d’une constante (c’est  évalué en ) :

󰇛󰇜



󰇛

󰇜

󰇛

󰇜
󰆒
󰇛
󰇜

󰈑



󰇛

󰇜



󰇛

󰇜
󰆒
󰇛
󰇜

La fonction
est un produit de deux fonctions
󰇛

󰇜
󰇛

󰇜
󰇛
󰇜
avec
󰇛

󰇜
󰇛

󰇜
et
󰇛
󰇜

󰇛
󰇜
󰇛
󰇜

; on peut donc écrire :

󰇛

󰇜


󰇛

󰇜

󰇛
󰇜
Clément Galopin février 2014
17
et

󰇛

󰇜

󰇛

󰇜
󰇛
󰇜
󰇛

󰇜

󰇛
󰇜
Ainsi,

󰇛

󰇜

󰇛

󰇜

󰇛
󰇜
󰇛
󰇜

et

󰇛

󰇜
󰇛

󰇜

󰇛
󰇜
󰇛
󰇜

󰇛

󰇜


󰇛
󰇜
󰇛
󰇜

Bref, ces calculs sont compliqués. Au final, on doit obtenir
󰆒
󰇛
󰇜
󰇛
󰇜

󰇛
󰇜

󰇛
󰇜
On intègre cette expression sur l’intervalle 󰇠󰇟 :
󰇛
󰇜
󰇛
󰇜

󰇛
󰇜
󰇧
󰇛
󰇜

󰇨

On a l’identité suivante :

󰇧
󰇛
󰇜

󰇨


󰇧
󰇛
󰇜

󰇨

Ce qui est égal à
󰇟
󰇠
, c’est-à-dire au montant espéré pour un sinistre individuel.
On a que
󰇛

󰇜

indépendamment de la fonction de répartition
󰇛
󰇜

, ce qui signifie que lorsque les réserves
sont nulles (), la probabilité de ruine est la prime pure  divisée par la prime . Ceci signifie
que la ruine est certaine lorsque , c’est-à-dire lorsque la prime est inférieure aux coûts
attendus, ce qu’il fallait démontrer.
Source bibliographique : Erwin Straub : Non-Life Insurance Mathematics, réimpression 1997,
Springer Verlag (136 pages)