Nous allons nous intéresser au "stacking effect" en statistique et en parapsychologie et non
En parapsychologie, le stacking effect consiste en ceci que, si plusieurs percipients ont à voter pour déterminer quelle est la cible observée par l'agent, la prise en compte des résultats individuels pourra souffrir d'un biais, lors d'une éventuelle analyse de variance. En effet, si parmi l'ensemble des cibles possibles présentées aux sujets, l'une d'elles est très attractive (ou très répulsive), ou si elle vient d'être présentée lors du précédent essai, etc alors, les sujets risquent de voter en masse pour cette cible (ou de s'abstenir en masse de voter pour elle). La variance devient alors significativement différente de ce qu'aurait donné le hasard. Mais cette déviation par rapport au hasard n'a pas de signification psi, elle reflète seulement le fait que les sujets ont répondu de la même façon, indépendamment d'ailleurs de ce qu'était la cible effective. Le terme "stacking effect" n'est pas connu des statisticiens "tout venant" qui se contentent de récuser une anomalie de variance lorsqu'on a des raisons de penser que les réponses des individus étaient dépendantes les unes des autres, directement ou indirectement. |
Les études parapsychologiques comportent souvent une étude statistique des coincidences entre
q une cible extraite par tirage au sort d’un ensemble de cibles possibles : Le cardinal de cet ensemble de cibles possibles peut aller de quelques unités (par exemple deux, trois, quatre ou cinq) à plusieurs centaines (1500 ou plus).)
q et la désignation par le sujet de ce qu’il croit être la cible réelle (dans un ensemble de cibles possibles qui lui sont présentées, parmi lesquelles se trouve la cible réelle mélée à une ou plusieurs cibles leurres ).
|
La cible étant sélectionnée, elle est présentée à un (ou plusieurs) sujet(s) qui doit la nommer en la distinguant des leurres qui lui sont simultanément présentés.
La cible étant choisie au hasard de manière indépendante (par RNG ou par fonction pseudo-aléatoire - Randomize/random - d’un programme informatique), une coïncidence suffisamment fréquente entre la réponse du (des) sujet(s) et cette cible invite à éliminer l’hypothèse d’un phénomène purement aléatoire. Cette élimination ne pose pas de problème particulier lorsqu’on s’intéresse uniquement au « Psi-Hitting » (les succès).
Cependant, il est possible que le phénomène ESP, s’il existe, comporte une éventualité paradoxale telle que de nombreux sujets puissent manifester une forme d’ESP « à rebours », consistant en ceci que leur choix se porterait systématiquement sur une « fausse cible » (un leurre, quel qu’il soit) par refus inconscient du phénomène d’ESP (« Psi-Missing » : des échecs systématiques dont la fréquence est supérieure à ce que ferait prévoir le hasard).
De plus, ce type de phénomène pourrait manifester une forte variabilité selon les temps, les lieux, les personnes, les circonstances, les succès ou les échecs précédents lorsqu'on fournit au sujet un feedback, etc. de sorte qu’un sujet manifesterait par moment du « psi-hitting » et par moment du « psi-missing ». Cette complexité, pourvu qu’elle ne soit pas excessivement marquée, donnerait alors lieu à une augmentation ou une diminution excessive de la dispersion (variance significativement augmentée ou diminuée), à un aplatissement ou un reserrement autour de la moyenne (Kurtosis) ou à une dissymétrie (Skewness) de la distribution des résultats.
Un deuxième problème se pose ici : indépendamment de toute ESP, un sujet peut avoir (et il a nécessairement) des préférences et des aversions pour les éléments composant l’ensemble des cibles possibles présentées parmi lesquelles il doit deviner la cible réelle. Ces préférences et aversions pourraient entrer en concurrence avec une véritable perception extra-sensorielle ou même la supplanter pour l’essentiel. Lorsque l’ensemble des cibles possibles présentées est différent pour chaque essai, on n’a probablement là qu’une source – importante – de « bruit » perturbant une bonne performance dans la « réception du signal ». Mais si on utilise plusieurs fois le même ensemble de cibles possibles, ou si un groupe de sujets est confronté au même ensemble de cibles possibles, ces aversions et préférences peuvent engendrer une interdépendance des réponses, liée à la nature des cibles possibles et sans aucun lien particulier avec la cible réelle. On est là en présence d'un "stacking effect" (ou effet d'empilement).
Le
Test d’Association de Mots Automatisé de Jung (TAMAJ)
et les phénomènes de préférence Une
loupe pour le « stacking-effect » ?
|
Dans notre étude sur le TAMAJ par paires
ou en groupe, nous rencontrerons aussi ce phénomène : il est à
attendre qu’un ensemble de cibles possibles constitué d’éléments émotionnellement
plus pertinents conduise à enregistrer des résultats plus marqués par
les préférences et répulsions qu’un ensemble de cibles possibles
plus « neutres ». |
Une autre source de stacking-effect est le copiage direct (imitation entre récepteurs) ou via l’ESP (effet pirate).
Dans l'étude de Milton (1994) on lit : " La mesure de la taille de l'’effet ("effect size") employée dans la méta-analyse fut r, estimé selon la formule Z/N1/2 (Rosenthal, 1991), où Z est l'écart type normal associé au nombre de succès observés, et N le nombre d’essais de l’étude. Dans la plupart des études de la base de données les participants à une étude répondaient à une seule séquence des cibles, séquence commune à tous. Dans un tel scénario, on ne peut assumer que les essais des participants soient indépendants les uns des autres ; des facteurs de préférence [ ou de répulsion, différents phénomènes émotionnels groupaux; note du traducteur ], peuvent amener les gens à prendre la même décision sur une cible donnée, surtout s’il y a peu d’essais. En raison de ce « stacking effet », il n’est pas sûr d’utiliser la variance théorique pour calculer Z, ce qui pourrait se faire si les réponses étaient réellement indépendantes. Il convient plutôt d’employer la correction de Greville (1944) pour le calcul de la variance à partir de la distribution des réponses sur les différentes cibles possibles (Cf. Pratt, 1954)".
Multiple
responses for a single target cannot be evaluated using statistical
tests that assume independence of responses. In psi research this error
is known as the stacking effect. It often occurs with informal classroom
or media tests of ESP. If there is a sufficient number of responses,
the data can be analyzed by the Greville method, which accounts for
the stacking effect.
While
the stacking effect, however, is a theoretical possibility; empirical
tests have shown that for multiple data in typical forced-choice ESP
tests, it makes little practical difference whether the results are
analyzed by the usual binomial formula, or by the more appropriate Greville
method.
The
situation is quite different in remote-viewing and other free-response
experiments where the number of targets is generally small. It then
becomes critical to control for response bias. In remote-viewing experiments,
violations of independence have arisen even when a single judge is asked
to rank a small number of targets against an equal number of responses.
The judge may, under these conditions, be influenced in assigning a
rank or rating to a given target by the memory of how he or she assigned
ranks or ratings to other targets.
In remote-viewing
experiments, violations of independence have arisen even when a single
judge is asked to rank a small number of targets against an equal number
of responses. The judge may, under these conditions, be influenced in
assigning a rank or rating to a given target by the memory of how he
or she assigned ranks or ratings to other targets.
The assumptions used
in most statistical tests are violated if optional stopping is used.
This could occur by limiting the number of experimental trials at the
experimenter's option (particularly after recieving feedback as to success
rates) or by optionally limiting the number of experimental subjects.
The Princeton method of converting free-response information to binary
data avoids this criticism. Statistical tests
are not accurate if researchers are free to censor data which does not
support their hypotheses. This sometimes occurs by the use of post hoc
decisions as to whether a study will be reported as an informal, preliminary
demonstration or as part of an experiment. Ideally all formal psi experiments
should be registered, in advance, specifying the total number of trials,
runs, subjects, etc. Then all data from those experiments should be
reported, regardless of the outcome.
This is a mistake,
as the validity, magnitude, and reliability of a possible psi effect
have very little to do with probability levels. When a great many trials
are involved (as in the Princeton RNG studies), a very weak effect can
yield probability significance levels that are astronomical. This misunderstanding
also results in much confusion with regard to replication in psi research.
Utts recommends the use of confidence intervals and power analyses in
order to determine the sample sizes necessary to attain significant
results in particular experimental designs". |
Des réponses multiples pour une cible unique ne peuvent être évaluées en utilisant des tests statistiques qui postulent l’indépendance entre les réponses. Dans la recherche parapsychologique, cette erreur est connue sous le terme de « stacking-effect ». Cela survient fréquemment avec les tests ESP effectués collectivement sur des salles de classe ou par l’intermédiaire des médias (radio, télévision).(Voir Kennedy). Quand il y a un nombre suffisant de réponses, les données peuvent être analysées par la méthode de Greville, qui prend en compte ce « stacking-effect ».
Quoique le « stacking-effect » soit une possibilité théorique, des tests empiriques ont montré qu’en ce qui concerne les données multiples recueillies au cours des tests typiques d’ESP en « choix forcé », cela fait peu de différence pratique que les résultats soient analysés par la formule binomiale usuelle ou par la méthode plus appropriée de Greville.
La situation est tout à fait différente dans le cas de « remote-viewing » (« vue à distance ») ou d’autres expériences à « réponse libre » avec un nombre de cibles généralement petit. Il devient alors critique de controler ce type de biais. Dans les expériences de vue à distance, les violations d’indépendance sont apparues même lorsqu’on demande à un juge unique d’ordonner un petit nombre de cibles possibles par rapport à un nombre équivalent de réponses. Le juge, dans ces conditions, peut être influencé pour l’attribution du rang ou de la note à une cible possible donnée, par le souvenir qu’il a des rangs ou notes déjà attribuées aux autres cibles possibles.
Dans les expériences de "remote viewing" ("vue à distance"), des violations d'indépendance ont surgi alors même qu'on demandait à un juge unique de classer un petit nombre de cibles par rapport à un nombre équivalent de réponses. Le juge est susceptible, dans ces conditions, de se laisser influencer pour assigner un rang ou donner une note à une cible déterminée par le souvenir des rangs ou notes déjà attribués par lui aux autres cibles. Les présupposés de la plupart des tests statistiques sont violés si un arrêt optionnel est utilisé. Cela pourrait arriver quand on limite le nombre d'essais expérimentaux selon le choix de l'expérimentateur (notamment après avoir atteint une certaine proportion de succès) ou quand on limite de manière optionnelle le nombre des sujets d'expérience. La méthode de Princeton de transformer l'information de réponse-libre en données binaires permet d'échapper à cette critique. Les tests statistiques ne sont pas corrects si les chercheurs se croient libres de censurer les données qui ne vont pas à l'appui de leurs hypothèses. Ceci arrive parfois quand on fait usage de considérations "post hoc" pour décider si une étude sera publiée comme une démonstration informelle, préliminaire ou comme une partie de l'expérimentation. Dans l'idéal, toute expérience préliminaire devrait être enregistrée à l'avance, en spécifiant le nombre total d'essais, de salves, de sujets, etc. Ensuite toutes les données de ces expériences devraient être publiées, quelqu'en soit le résultat. Tous les tests statistiques prévus doivent être annoncés d'avance pour permettre à la communauté scientifique de distinguer clairement entre analyse principale et analyse "après coup". Quand on emploie des analyses multiples les tests statistiques doivent prendre en compte une possibilité accrue d'erreur de type I -- c'est à dire, une probabilité plus grande que l'un des nombreux tests utilisés puisse atteindre un niveau de probabilité significatif (inférieur à .05). La statisticienne de l'Université de Californie Jessica Utts a fait remarquer que les chercheurs psi insistent souvent trop fortement sur le niveau de probabilité des expérimentations. Ceci est une erreur, en tant que la validité, la magnitude et la fiabilité
d'un éventuel effet psi a bien peu à voir avec les niveaux de probabilité.
Quand un très grand nombre d'essais est impliqué (comme par exemple
dans les études avec Générateur Aléatoire à Princeton), un effet extrêmement
faible peut engendrer des niveaux de signification statistique astronomiques.
Ce malentendu a aussi pour conséquence beaucoup de confusion concernant
la réplicabilité dans la recherche psi. Utts recommande d'utiliser les
intervalles de confiance et les analyses de puissance pour déterminer
les dimensions d'échantillon nécessaires pour atteindre des résultats
significatifs dans des protocoles expérimentaux déterminés" |
Dans l'expérience Agape, et dans toute expérience de groupe avec procédure de vote, on peut faire porter l'étude statistique uniquement sur le résultat du vote pour chaque essai collectif; ceci pour éviter que la convergence des votes individuels sur une cible donnée ne soit le simple effet d'une préférence purement psychologique, ou même d'un copiage par tricherie, amusement, affection réciproque, etc.
En effet cet accord du groupe pourrait éventuellement se révéler tellement important que le coup devienne "significatif" soit comme succès (au cas où la cible coïncide avec la préférence des participants) soit comme échec (si la cible coïncide avec un rejet collectif). On peut éviter ce piège en considérant comme réponse unique chacun des essais collectifs. Pour obtenir une éventuelle signification statistique, il faut alors considérer un certain nombre de ces essais collectifs.
Nous pouvons utiliser cette méthode pour Agape en prenant en considération des "salves" de 15, 30 ou 60 coups successifs et en vérifiant si les régressions effectuées sur ces salves (1 coup = 1 essai collectif appartenant à une salve) nous donnent les mêmes variables explicatives que la régression déjà effectuée sur les tentatives collectives (1 coup = 1 essai individuel appartenant à un essai collectif). Si une telle démarche se révélait convergente, la conclusion en serait d'une grande force.
Dans notre régression nous nous sommes cantonnés aux coups significatifs puisque la régression sur l'ensemble des essais ne nous donnait aucune variable explicative. Pour l'étude sur les salves, il conviendra à nouveau d'effectuer une régression sur l'ensemble des salves en première intention ; sur les seules salves significatives dans un deuxième temps.
Malgré la présence possible d'un stacking-effect, qui n'aurait d'ailleurs eu, en la circonstance, qu'un effet mineur (puisque le nombre d'essais significatifs à p<.05 est inférieur à 5% !), nous avons effectué des régressions sur les coups significatifs (p<.05) qui ont permis de dégager un certain nombre de variables explicatives. Ces variables restent les mêmes pour l'explication des coups significatifs en psi-missing comme en psi-hitting. Ce qui est compatible avec un stacking-effect.
La variance d'un ensemble d'observation est aléatoire à condition que ces observations soient indépendantes les unes des autres. Si une régression montre qu'elles ne le sont pas, il convient de déterminer les facteurs qui rendent compte de leur interdépendance :
Dans tous les cas les variables dégagées par une régression stepwise devraient être liées
Une vérification pourrait consister à utiliser le "ré-échantillonnage" ("resampling") : on utilise des cibles fausses et on utilise la même technique de régression. Si les variables explicatives se dégagent à nouveau, c'est qu'elles étaient liées au stacking effect et sans rapport avec la cible réelle.
Dans le cas des expériences en groupe, on a proposé d'utiliser le résultat du vote plutôt que les réponses individuelles, pour échapper au stacking effect. La précaution peut avoir son intérêt, elle ne doit pas nous cacherque les groupes aussi bien que les individus ont une vie affective propre, des préférences et des répulsions, de sorte que le résultat d'une majorité est lié aux préférences et répulsion du groupe comme tel.
Thouless et Brier (1970) pense que, pour éviter le stacking effect, "les expériences devraient être conçues, autant que possible, de sorte qu'un ensemble individuel de cibles [possibles] soit présenté à chaque sujet". En fait, ceci masque plutôt que ça ne les élimine les effets du biais de préférence/répulsion par rapport aux cibles possibles. Il n'est plus décelable sous la forme d'une augmentation de la variance mais reste présent comme "bruit" susceptible de rapprocher le taux de réponses justes ou fausses de l'espérance du hasard, avec rapprochement biaisé de la moyenne espérée et de la variance espérée. Ainsi cet effet devient invisible, non évaluable, à l'abri de toute correction.
A cet effet n'échappent pas non plus les résultats du ganzfeld puisque on peut craindre que le sujet préfère ou ait de l'antipathie pour telle ou telle des représentations utilisées comme cibles possibles. Si la série des cibles possibles choisies par le sujet comme sympathiques coincide avec une série des cibles réelles, les résultats deviennent faussement positifs (faux psi-hitting) si la série des cibles réelles est antipathique pour le sujet, on a le phénomène inverse (psi-missing). Si ces phénomènes de préférence-répulsion sont marqués (et ils le sont lorsqu'on utilise des cibles affectivement pertinentes), on obtient des résultats possiblement très bruités et par là, peu fiables et mal reproductibles.