Le Manifeste | | | Le Dominion | | | Textes et Articles | | | Historique | | | Liens | | | ACCUEIL (FR) | | | HOME (EN) |
Questions de Méthode
par Didier Castille |
Résumé : Deux recherches statistiques menées sur des populations très différentes et mettant en oeuvre la même méthode aboutissent à des résultats assez similaires. Dès lors, une question se pose : ne sommes nous pas en présence d’un artefact ? Dans cet article, diverses phases de la méthode sont critiquées une à une, ce qui ne permet pas de repérer cet artefact soupçonné. Les conclusions établies par chacune des deux recherches demeurent inexpliquées.
Les données du problème
Nous avons observé l’ensemble des 6 498 320 mariages qui ont été enregistrés par les services de l’état civil français entre 1976 et 1997 (cf. Mariages aux Soleils ), ainsi que l’ensemble des 10 081 752 décès de personnes âgées de plus d’un an qui ont été enregistrés par ces mêmes services entre 1979 et 1997 (cf. Un Lien entre la Naissance et le Décès ).
Ces deux recherches se basent sur la même hypothèse nulle, à savoir l’indépendance de deux dates d’événement:
Dans ces deux études, une seule et même méthode a été mise en oeuvre pour confirmer ou infirmer la validité de l’hypothèse nulle :
- pour la première, la date de naissance de l’époux est indépendante de celle de l’épouse,
- pour la seconde, la date de décès est indépendante de la date de naissance de la personne décédée.
Trois types de contrôle, très candides, sont menés par la suite dans l’objectif de vérifier la cohérence des statistiques :
- dans un premier temps, la longitude zodiacale du Soleil à 12h00 G.M.T. est attribuée à chaque date ; les longitudes solaires sont agrégées en 12 classes (signes astrologiques),
- puis, les observations sont distribuées dans un tableau croisé de 144 cases (12 signes pour chaque date),
- une répartition théorique est ensuite calculée, comparée à la répartition effective et un test du Khi-deux est réalisé,
- pour chaque étude, la valeur du Khi-deux se révéle très forte et l’hypothèse nulle peut être rejetée avec un infime risque d’erreur,
- l’analyse des contributions au Khi-deux montre que, dans chaque étude, les combinaisons de mêmes signes sont significativement plus fréquentes qu’en théorie.
- le premier met en doute les répartitions effectives. Après tout, les populations utilisées sont très vastes et l’effet constaté, bien que significatif, est faible. Se pourrait-il que, par une bizarrerie des grands nombres, ce résultat soit inéluctable? On peut, pour s’en assurer, refaire l’expérience sur une population tout aussi nombreuse mais reconstituée aléatoirement.
- le deuxième met en doute le repérage des dates, à savoir la longitude zodiacale du Soleil. C’est le calendrier ordinaire qui est utilisé ici. Dans un premier temps, nous testons l’indépendance du mois de naissance et du mois de décès en tenant compte du nombre de jours qui caractérise chaque mois. Pour cela, chaque évènement est pondéré (par exemple, le décès en mai d’une personne née en juin est pondéré par (30/31)*(30/30)=0,968). Dans un deuxième temps, puisque la date anniversaire semble être liée à la date du décès, nous calculons le nombre de jours qui les séparent, à la fois sur la population réelle et sur la population reconstituée aléatoirement. Nous comparons ensuite les répartitions.
- le troisième met en doute la robustesse du test du Khi-deux, ce qui est légitime quand on travaille avec des populations aussi importantes. Ici, nous cherchons à savoir empiriquement si la taile de l’échantillon n’est pas seule responsable de la forte valeur du Khi-deux et, par voie de conséquence, de la significativité des résultats.
Premier contrôle : le cas des populations fictivesLes tableaux ci-dessous schématisent, pour chaque combinaison de signes, les écarts entre valeurs réelles et valeurs attendues pour l’ensemble des mariages et l’ensemble des décès (tableaux de gauche).
Les tableaux de droite représentent les écarts constatés sur des populations aléatoirement reconstituées. Celles-ci résultent du partage en deux parties des fichiers d’origine (les hommes d’un côté, les femmes de l’autre pour les mariages ; les dates de naissance d’une part, les dates de décès d’autre part dans l’autre cas) et d’une reconstitution aléatoire des couples de dates. L’objectif est de confronter les populations réelles à ces populations artificielles construites au hasard.
Les divergences entre tableaux de gauche et tableaux de droite sont nettes : non seulement les valeurs de la statistique du khi-deux sont sans comune mesure (295,1 contre 119,4 pour les mariages ; 229,7 contre 147,7 pour les décès) mais les diagonales de surreprésentation significative qui caratèrisent les tableaux de gauche sont inexistantes à droite.
Les mariages
Répartition de mariages effectifs Répartition de mariages aléaoirement constitués
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
N.B : le signe de l’époux est en ligne, le signe de l’épouse en colonne.
Lecture : les cellules colorées correspondent aux combinaisons de signes pour lesquelles le nombre effectif est supérieur au nombre théorique. Pour chaque cas, nous avons illustré l’importance de la contribution au Khi-deux par un indicateur qui s’interprète de la façon suivante :
l’indicateur est : il signifie que l'écart est : * * * significatif avec un risque au plus égal à 0,5% * * significatif avec un risque au plus égal à 1% * significatif avec un risque au plus égal à 5% non significatif Les décès
Répartition de décès effectifs Répartition de décès aléaoirement constitués
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
N.B : le signe de naissance est en ligne, le signe de décès en colonne.
La confrontation des tableaux de gauche et de droite conforte le rejet de l’hypothèse nulle.
Deuxième contrôle : le repère temporel
Le test d’indépendance du mois de naissance et du mois de décès est réalisé une première fois sur la population totale. La valeur du Khi-deux atteint 271,97 ce qui permet de rejeter l’hypothèse nulle avec un risque infime.
Une fois pondérée, la population se réduit à 9 801 490 décès. Le test du Khi-deux réalisé sur cette population atteint alors 265,42 ce qui confirme les résultats précédents.
Dans les deux cas, les combinaisons de même mois sont significativement surreprésentées.
Nous calculons maintenant le nombre de jours qui séparent la date de l’anniversaire et la date du décès. Puis nous répartissons l’ensemble des décès selon 73 classes de 5 jours. L’effectif de chaque classe est ensuite comparé à l’effectif moyen, ce que montre l’histogramme suivant (figure de gauche). La même opération a été réalisée sur l’ensemble des décès aléatoirement reconstitués (figure de droite).
La surreprésentation des décès qui surviennent à une date proche de l’anniversaire apparait nettement.
![]() |
![]() |
Le rejet de l’hypothèse nulle est toujours d’actualité, que l’on repère les dates par la longitude zodiacale du Soleil ou par la date du calendrier.
Troisième contrôle : l’incidence de la taille de l’échantillon
La question que nous nous posons ici est de savoir si la taille très importante des populations que nous utilisons influe sur la robustesse de la statistique du Khi-deux. Rappelons que celle-ci est la somme des tous les écarts entre valeur effective et valeur théorique, élevés au carré et rapportés à la valeur théorique. En conséquence, un simple écart de 700 observations sur une valeur attendue de 70 000 produit une contribution égale à 7, ce qui est suffisamment grand pour être considéré comme significatif.
En d’autre termes, ne pourrait-on pas s’attendre, avec de telles populations, à obtenir une statistique du Khi-deux mécaniquement très élevée dès que quelques divergences infimes apparaissent?
L’exemple qui suit montre que non. Nous testons ici l’indépendance du jour de naissance (dimanche, lundi, etc.) et du jour de décès. Nous obtenons une valeur du Khi-deux faible (20,9) qui ne permet de rejeter l’hypothèse nulle qu’au prix d’un risque d’erreur énorme (97,9%). Aucune des contributions n’est significative. Un test du Khi-deux réalisé sur de très grands volumes n’est donc pas systématiquement significatif.
Écarts entre valeur observée et valeur théorique selon les jours de naissance et de décès
Dimanche Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche Lundi Mardi Mercredi Jeudi Vendredi Samedi N.B : le jour de naissance est en ligne, le jour de décès en colonne.
Conclusion
Les mariages et les décès enregistrés par l’état civil français montrent des relations statistiques mettant en valeur la période anniversaire. On y soupçonne un artefact lié à la méthode utilisée. Suite à la présente expertise, la construction des répartitions théoriques, le repérage temporel et le test utilisés ne peuvent être mis en cause. Une explication reste à trouver.
http://cura.free.fr/xxv/21cas4fr.html ----------------------- Tous droits réservés © 2002 Didier Castille |
|
![]() |
|