PRINCIPIOS DE ESTADÍSTICA
Alfredo Navarro
CAPÍTULO VIII
Regresión y correlación

REGRESIÓN

En la práctica se ha notado que cuando en un individuo, un carácter se presenta en mayor intensidad, otro se afecta en alguna proporción. Ejemplos de esto podrán ser la altura y el peso en ganado, edad y vigor de rebrote en árboles, etc.; en el primer ejemplo se puede ver que esta relación es positiva, es decir, al aumentar un carácter, tiende a aumentarse el otro, en cambio, en el segundo ejemplo esta relación es negativa, pues al aumentar la edad, el vigor puede tender a disminuir. Estadísticamente se puede medir este grado de relación, asociación o dependencia, mediante el índice conocido como coeficiente de regresión, denotado por b para el valor paramétrico, y como b para el estimador muestral. En realidad, gráficamente, el valor del coeficiente de regresión es la pendiente promedio, o la pendiente de la línea de tendencia del comportamiento de ambas características estudiadas. El estudio de estos temas puede hacerse desde el caso más simple (regresión lineal simple) hasta formas muy complicadas, en donde intervengan en forma lineal o aditiva más de dos factores, e inclusive para formas no lineales. En este caso sólo nos ocuparemos del caso más simple, es decir, aquél en el que sólo intervengan dos caracteres o variables, y en forma lineal. Generalmente, a una de las variables se le denomina como independiente (denotada por X) y a la otra como dependiente (denotada por Y). Para este caso simple de sólo dos variables, el coeficiente paramétrico de la regresión de Y en función de X, está definido por:

    bY/X = CovX,Y / s2X

en donde CovX,Y es la varianza conjunta o covarianza de las dos variables, que estadísticamente es la E (xy), es decir, de la esperanza del producto de las desviaciones de X y de Y (xi será la desviación de Xi). Así un estimador muestral de la CovX,Y será:
        ^CovX,Y = S(Xi - x testada) (Yi - y testada) / (n -1)

Por otro lado, sabemos que un estimador de la s2X = S2X, por lo que un estimador de bY/X, denotado por bY/X, será :
        ^bY/X  = bY/X = Sxi yi / Sxi2 = [SXY - (SX)(SY) / n] / [SX2 - (SX)2 / n]

En la práctica conviene primeramente hacer una tabla en la que se enlisten los valores:
    Xi        Yi        XiYi        Xi2       Yi2

Se puede efectuar una prueba de hipótesis para ver si el coeficiente de regresión muestral, estima a un coeficiente paramétrico distinto significativamente de 0 (es decir, Y es independiente de X si su b es igual a 0). Para esto se siguen los siguientes pasos:

    I. Plantee las hipótesis:
        H0: bY/X  = 0
        H1: bY/X¹ 0

    II. Fije el nivel a deseado.

    III. Calcule: bY/X y S2b
        S2b = S2Y/X / Sx2, donde S2Y/X = [Sy2 - (Sxy)2 / Sx2] / (n -2)

    IV. Compute:
        tc = bY/X / Sb

    V. Encuentre la tt en la Tabla IV, con el a fijada, y con n - 2 grados de libertad.

    VI. Siga el siguiente criterio de decisión :

            Si tc < tt : acepte la H0. De otro modo : rechace la H0 y acepte la H1

Cuando la prueba da significancia, se acostumbra por su aplicación graficar la línea de regresión. Es conocido que cuando se desea graficar una línea, basta con conocer un punto (sus coordenadas) de ella y su pendiente, o bien conocer dos de sus puntos. Un punto seguro es aquél cuyas coordenadas son la x testada y la y testada, valores que se tienen, o se pueden computar con facilidad, y la pendiente es la bY/X, pero como es siempre conveniente corroborar los cómputos, un modo de hacerlo es obtener las coordenadas de tres puntos distintos, y verificar su colinealidad. Los otros dos puntos que faltan, lo mejor es que sean lo más distantes posible, para lo cual se pueden tomar los valores menor y mayor de las X, y calcular la ^Y correspondiente en ellos, con la siguiente fórmula :

        ^Y = y testada + bY/X ( X - x testada)

Donde ^Y será el valor teórico, no el observado, correspondiente a los valores de X que deseamos. Ya que los datos que poseemos son datos muestrales, los valores de Y que tratamos de predecir con la gráfica no tienen certeza, sino que sólo son aproximaciones; esto es, necesitamos calcular los límites de confianza de estas predicciones, lo cual lo podemos hacer, computando éstos mediante la fórmula siguiente:

    LC^Y = ^Y ± tt SY/X RAIZ(1/n + xi2 / Sxi2 )

Todos estos datos los podemos acomodar de la siguiente manera:

        ___________________________
        X               ^Y       ^Ym       ^YM
        ___________________________
        Xm
        media
        XM
        ___________________________

en donde Xm se refiere al menor valor de las X, XM al mayor, Ym al valor que resulte al aplicar la resta en la fórmula de límites de confianza, y YM al aplicar la suma, para cada uno de los tres valores de X. Así, con las coordenadas de los tres valores de X con sus ^Y correspondientes, podemos graficar la línea, y con los límites de confianza de las ^Y en cada uno de los tres puntos, podremos graficar su "cinturón de confianza".

También se pueden calcular los límites de confianza dentro de los cuales se encontrará el parámetro de regresión bY/X, mediante la fórmula :

        LCbY/X = bY/X ± tt Sb

CORRELACIÓN, DETERMINACIÓN E INDEPENDENCIA

Se puede calcular tanto el coeficiente de regresión de Y con respecto a X, como de X con respecto a Y:
       bY/X = Sxi yi / Sxi2
        bX/Y = Sxi yi / Syi2

Así, el promedio geométrico de las dos regresiones, es decir, la raíz cuadrada del producto entre ellas es el coeficiente de correlación, que es un índice de asociación o de mutua dependencia entre las dos variables:

        r = Sxi yi / RAIZ (Sxi2 Syi2)

También se puede hacer una prueba de hipótesis para ver si el coeficiente de correlación muestral estima a un valor paramétrico distinto de 0;

    H0 : r = 0
    H1 : r ¹ 0

donde r (ro) es el valor paramétrico o poblacional del coeficiente de correlación.

Esta prueba se puede hacer basada en la distribución t también, en donde tc = r / Sr, con
Sr = RAIZ((1 - r2) / (n - 2), y comparando con un valor teórico, con cierta a y con n - 2 grados de libertad, y seguir el criterio usual de decisión, pero ya existen tablas de valores teóricos de r, como la Tabla A12 de S. Y T. (20), fáciles de usar, con el riesgo a que se fije, con n - 2 grados de libertad, y con una variable independiente. Asimismo, se pueden encontrar los límites de confianza de r, utilizando la Tabla A11 del mismo autor. El criterio de decisión es similar a los otros : Si r < R se acepta la H0; de otro modo se acepta la H1.

Al cuadrado de r se le conoce como coeficiente de determinación, e indica la proporción en que variaciones en una de las variables influyen en las variaciones de la otra, y tanto r como r2 serán siempre valores entre 0 y 1 (en valor absoluto); a la diferencia 1 - r2, se le conoce como coeficiente de no - determinación o de independencia.
 

Última modificación: Febrero, 2004
REGRESAR A HOME