Fiabilité statistique ou marge d’erreur (AB Testing)

Vous êtes ici :

La fiabilité statistique est un indicateur de confiance qui intervient dans le cadre de la réalisation d’un test A/B ou d’un test multivarié. Il sert à confirmer que les différences enregistrées entre les versions A et B testées ne sont pas le fruit du hasard. La plupart des plateformes d’AB Testing procurent cet indicateur.

Un critère à prendre en compte dans les procédures d’AB Testing

Un AB Testing est un test qui vise à comparer deux versions d’un même objet et à mesurer la performance de l’une par rapport à l’autre. Par exemple, l’on souhaite mesurer l’impact d’un changement sur une page web auprès des utilisateurs. La version initiale A est mise en concurrence avec une version B comportant une variable ; chacune est délivrée à un échantillon d’utilisateurs distinct sur une période donnée.

La plateforme logicielle mesure les résultats enregistrés par l’une et l’autre de ces pages web, notamment en ce qui concerne leur taux de transformation. L’on pourra conclure que A bat B ou que B bat A. Mais dans quelle proportion cette interprétation des résultats est justifiée ? C’est ce que permet l’indicateur de confiance, lequel traduit la fiabilité statistique du test.

Généralement, on estime que cet indicateur doit atteindre 95 %, soit laisser au minimum une marge d’erreur de 5 %. L’on admet ainsi que le résultat du test a 95 % de chances de se reproduire dans la réalité avec un même résultat.

De son utilité

Dans un test AB, la fiabilité statistique, ou statistical significance, permet donc de valider ou d’invalider les hypothèses d’optimisation d’un site internet, d’une page web, d’une application mobile… Il fournit une valeur mathématique sur laquelle on pourra s’appuyer pour savoir si oui ou non l’on peut mettre en production un changement sur un site. Le test est suffisamment probant pour affirmer que ce changement a un véritable impact sur la performance du site et donc, que le gain de conversion est garanti.

Les précautions à garder

Si l’indicateur de confiance est une valeur importante à prendre en compte dans une procédure d’AB Testing, encore faut-il savoir l’interpréter et surtout, le croiser avec d’autres données. Le but étant de limiter les prises de risques et, surtout, d’éviter de prendre une décision qui serait contraire à ses intérêts.

D’autres facteurs sont à regarder de près pour valider les résultats d’un test :

  • La durée du test : elle dépend de la taille de l’échantillon. Plus il y a de trafic sur un site, moins le test est long. Il est par ailleurs recommandé qu’elle recouvre un ou plusieurs cycles commerciaux, c’est-à-dire le temps nécessaire en moyenne à un visiteur pour parvenir à la décision d’achat.
  • La période sur laquelle a lieu le test : il est conseillé d’éviter de faire un test sur les périodes de soldes, pendant des campagnes d’acquisition, au moment d’une grosse campagne emailing… Les comportements de navigation et d’achat ne sont pas les mêmes que le reste de l’année, ce qui pourrait fausser les résultats et vous induire en erreur.
  • La taille de l’échantillon: en statistiques, on estime que plus l’échantillon est important, plus les résultats seront fiables. C’est la loi des grands nombres. Pour autant, il existe des solutions pour les sites à faible trafic, basées sur d’autres méthodes de calcul statistique laissant l’avantage à la probabilité de résultats (méthode bayésienne). Dans ce cas, l’AB Testing devra se faire sur une longue durée pour « avoir du recul » sur l’historique du site, les informations et les données relatives aux internautes et à leurs comportements d’achat.
  • La représentativité de l’échantillon: une notion difficile à appréhender. Souvent, on estime que plus le test s’étale dans le temps, plus on a de chance de capter tous les profils d’internautes et qu’ils se répartissent équitablement dans l’échantillon. Il est aussi possible de segmenter le trafic ; par exemple, d’exclure du test les internautes arrivant sur le site via un lien posé sur une newsletter.
  • L’appareil testé : le taux de conversion n’est souvent pas le même sur tablette, sur PC, sur smartphone… Par exemple, une réservation d’hôtel se prépare sur un smartphone au bureau mais la confirmation de commande ne se fera que le soir sur l’ordinateur familial.

La fiabilité statistique est donc un élément clé de l’AB Testing, pour avoir foi en ses résultats. Pour autant, il doit être pris en considération à la lumière d’autres critères qu’il s’agit de croiser avant de prendre une quelconque décision.