Les statisticiens et les scientifiques ont souvent besoin d'étudier la relation entre deux variables, communément appelées x et y. Le but de tester deux de ces variables est généralement de voir s'il existe un lien entre elles, connu sous le nom de corrélation en science. Par exemple, un scientifique pourrait vouloir savoir si les heures d'exposition au soleil peuvent être liées aux taux de cancer de la peau. Pour décrire mathématiquement la force d'une corrélation entre deux variables, ces chercheurs utilisent souvent R2.
Régression linéaire
Les statisticiens utilisent la technique de la régression linéaire pour trouver la droite qui correspond le mieux à une série de x et y paires de données. Ils le font grâce à une série de calculs qui dérivent l'équation de la meilleure droite. Cette description mathématique de la ligne sera une équation linéaire et aura la forme générale de y \u003d mx + b, où x et y sont les deux variables dans les paires de données, m est la pente de la ligne et b est son ordonnée à l'origine.
Coefficient de corrélation
Les calculs qui trouvent la meilleure droite produiront une équation linéaire pour s'adapter à n'importe quel ensemble de données, même si ces données ne sont pas réellement très linéaires. Afin d'avoir une indication de l'adéquation réelle des données avec une ligne droite, les statisticiens calculent également un nombre appelé coefficient de corrélation. On lui donne le symbole r ou R et est une mesure de l'alignement étroit des paires de données avec la meilleure ligne droite qui les traverse.
Signification de R
R peut avoir n'importe quelle valeur entre -1 et 1 Une valeur négative de R signifie simplement que la ligne droite la mieux ajustée s'incline vers le bas de gauche à droite, plutôt que vers le haut. Plus R est proche de l'un des deux extrêmes, meilleur est l'ajustement des points de données à la ligne, -1 ou 1 étant un ajustement parfait et une valeur R de zéro signifiant qu'il n'y a pas d'ajustement et que les points sont totalement aléatoire. Si les points de données sont bien alignés sur la ligne droite, il y aurait une certaine corrélation entre eux, d'où le nom du coefficient de corrélation pour R.
R2
Certains statisticiens préfèrent travailler avec la valeur de R2 , qui est simplement le coefficient de corrélation au carré, ou multiplié par lui-même, et est connu comme le coefficient de détermination. R2 est très similaire à R et décrit également la corrélation entre les deux variables, mais elle est également légèrement différente. Il mesure le pourcentage de variation de la variable y qui peut être attribué à la variation de la variable x. Une valeur R2 de 0,9, par exemple, signifie que 90% de la variation des données y est due à la variation des données x. Cela ne signifie pas nécessairement que x affecte réellement y, mais qu'il semble que ce soit le cas.