La présentation, la lisibilité, l'orthographe, la qualité de la rédaction, la clarté et la précision des raisonnements entreront pour une part importante dans l'appréciation des copies.
Les candidats sont invités à encadrer dans la mesure du possible les résultats de leurs calculs.
Ils ne doivent faire usage d'aucun document : l'utilisation de toute calculatrice et de tout matériel électronique est interdite. Seule l'utilisation d'une règle graduée est autorisée.
Si au cours de l'épreuve, un candidat repère ce qui lui semble être une erreur d'énoncé, il la signalera sur sa copie et poursuivra sa composition en expliquant les raisons des initiatives qu'il sera amené à prendre
Toutes les variables aléatoires qui interviennent dans ce problème sont réelles et définies sur un même espace probabilisé , où peut dépendre de paramètres réels inconnus etc ; elles admettent toutes une espérance et une variance : si désigne l'une de ces variables aléatoires, on note son espérance et sa variance.
Si et sont des variables aléatoires à densité, on admet alors l'existence de la covariance de et , notée , qui est définie par la formule : .
On admet que les covariances de variables aléatoires à densité vérifient les mêmes règles de calcul que celles des variables aléatoires discrètes.
Pour tout de , on note l'ensemble des matrices à lignes et colonnes à coefficients réels; on note l'ensemble des matrices carrées d'ordre .
On note la transposée d'une matrice .
Dans tout le problème, désigne un entier supérieur ou égal à 3 .
L'objet du problème est l'étude de quelques propriétés du modèle de régression linéaire élémentaire.
Partie I. Quelques résultats statistiques et algébriques
On considère une population d'individus statistiques dans laquelle on étudie deux caractères quantitatifs et . On extrait de cette population, un échantillon de individus sélectionnés selon des valeurs choisies du caractère et numérotés de 1 à .
Pour tout de , les réels et sont les observations respectives de et de pour l'individu de l'échantillon. On suppose que les réels ne sont pas tous égaux.
Soit et deux paramètres réels. On pose pour tout de
On note (resp. ) et (resp. ), la moyenne empirique et la variance empirique de la série statistique resp. ; on rappelle que : et .
a) Montrer que .
b) Établir les formules : et .
c) On pose pour tout de . Montrer que : et .
On pose: et .
Les relations (*) s'écrivent sous la forme matricielle suivante : .
a) Quel est le rang de la matrice ?
b) Calculer la matrice et justifier son inversibilité.
3. L'espace vectoriel est muni de sa structure euclidienne canonique. Soit le sous-espace vectoriel engendré par les vecteurs et de . On note la matrice du projecteur orthogonal de sur dans la base canonique de et , où désigne la matrice identité de .
a) On cherche les matrices de qui minimisent . Montrer que ce problème admet une unique solution et qu'elle vérifie la relation : .
b) Montrer que : et .
c) Exprimer en fonction de et .
d) Soit la matrice-colonne de de composantes définie par . Montrer que : .
e) En déduire les égalités : .
Partie II. Le modèle de régression linéaire
Le contexte et les notations sont ceux de la partie I. Dans cette partie, on cherche à modéliser les fluctuations aléatoires du caractère sur l'échantillon.
Les hypothèses du modèle de régression linéaire élémentaire sont les suivantes:
les réels et sont des paramètres inconnus ;
pour tout de , la valeur du caractère est connue et la valeur du caractère est la réalisation d'une variable aléatoire ;
pour tout de est la somme d'une composante déterministe , fonction affine de la valeur choisie , et d'une composante aléatoire ;
les variables aléatoires sont mutuellement indépendantes, de même loi, possèdent une densité, et pour tout de et , où le paramètre inconnu est strictement positif.
Le modèle de régression linéaire s'écrit alors : pour tout de (1).
L'objectif consiste à estimer les paramètres inconnus et du modèle (1).
On pose pour tout et .
On note et les deux variables aléatoires définies par : et , où le réel a été défini dans la question 1.c).
a) Montrer que et sont des estimateurs sans biais de et respectivement.
b) Établir les formules suivantes: et .
c) Calculer .
Dans cette question uniquement, l'entier n'est plus fixé. On suppose l'existence de et .
Montrer que les deux suites et convergent en probabilité vers et respectivement.
6.a) On pose pour tout de . Calculer .
b) Établir l'égalité : .
c) Calculer . En déduire un estimateur sans biais de .
Partie III. Hypothèse de normalité et prévision
Le contexte et les notations de cette partie sont ceux des parties I et II. De plus, on suppose dans cette partie que pour tout i de , la variable aléatoire suit une loi normale .
On pose : et . Le modèle (1) de la partie II s'écrit alors matriciellement : .
Soit variables aléatoires réelles définies sur ( ). On définit le vecteur aléatoire à valeurs dans , en associant à tout de le vecteur de .
On dit que le vecteur aléatoire est normal si pour tout -uplet de nombres réels, différent de , la variable aléatoire suit une loi normale de variance non nulle.
Dans le cas où le vecteur ( ) est normal, on admet que les variables aléatoires sont mutuellement indépendantes si et seulement si pour tout de avec .
7.a) Montrer que le vecteur aléatoire est normal mais que le vecteur ne l'est pas.
b) Déterminer la loi de chacune des variables aléatoires et . Le vecteur aléatoire ( ) est-il normal?
8. Soit une matrice inversible de . On note la matrice-colonne des composantes du vecteur aléatoire telle que .
a) Montrer que le vecteur est normal.
b) On suppose que la matrice est orthogonale. Montrer que sont mutuellement indépendantes.
9. Soit les variables aléatoires qui ont été définies dans la question 6.
On note la matrice-colonne de composantes définie par .
a) Montrer que , où la matrice a été définie dans la question 3 .
b) Justifier l'existence d'une matrice orthogonale de et d'une matrice diagonale de , telles que . Quels sont les éléments diagonaux de ?
c) Soit la matrice-colonne de composantes définie par . Quelle est la loi de ?
d) En déduire que la variable aléatoire suit la loi .
e) Soit un réel donné vérifiant . Établir l'existence d'un réel ne dépendant pas des paramètres inconnus et , tel que .
Dans les questions 10 et 11 , on suppose qu'une ( )-ième valeur de , notée , est choisie mais que la valeur correspondante de est inconnue. On suppose que est la réalisation d'une variable aléatoire qui vérifie , où les variables aléatoires sont mutuellement indépendantes et de même loi .
10. On pose pour tout -uplet de .
L'ensemble est l'ensemble des "prédicteurs linéaires" de .
a) Soit la fonction définie sur à valeurs réelles, telle que pour tout de , . On rappelle que pour tout de .
Montrer que la fonction admet un minimum absolu sous les contraintes et , atteint en l'unique point , où pour tout de .
b) Montrer que parmi les prédicteurs linéaires de , qui vérifient pour tout de est celui qui a la plus petite variance.
Vérifier que .
11.a) Déterminer la loi de la variable aléatoire .
b) On note la fonction de répartition de la loi . Soit un réel donné vérifiant . Justifier l'existence d'un réel , que l'on exprimera à l'aide de , ne dépendant pas de et , tel que .
c) En déduire, à l'aide de la question 9.e), un intervalle dont les bornes ne dépendent que des , des , de et , qui contienne avec une probabilité supérieure ou égale à . S'agit-il d'un intervalle de confiance au sens usuel du terme?