Página principal

Estadística II


Descargar 85.77 Kb.
Fecha de conversión22.09.2016
Tamaño85.77 Kb.


Universidad Panamericana

Estadística II

Prof. Andrés Sandoval H


Estadística II




  1. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN



    1. Análisis de correlación

Empezaremos este tema estudiando el análisis de correlación, que está diseñado para conocer la magnitud de la relación entre dos variables. Una vez conociendo estos principios, desarrollaremos un modelos matemático que nos permitirá estimar el valor de una variable basándonos en el valor de otra. A esto se le llama regresión.


Para saber lo que es una correlación, daremos un ejemplo.

Ejercicio.
Juan Manuel Huerta tiene una comercializadora de fotocopiadoras y quiere saber si existe alguna relación entre el número de llamadas hechas en un mes y el número de fotocopiadoras vendidas. Para ello, toma una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas hechas por cada uno el mes pasado, así como el número de fotocopiadoras que vendió.



Representante de Ventas

Llamadas

Copiadoras vendidas










José López

20

30

Juan Sánchez

40

60

Pedro Flores

20

40

Enrique Pieck

30

60

Javier Mendoza

10

30

Héctor Moreno

10

40

Montserrat Luna

20

40

Ma José Ibáñez

20

50

Arturo Cázares

20

30

Gerardo Luenga

30

70









A simple vista parece haber una relación entre el número de llamadas hechas y el número de copiadoras vendidas. Sin embargo, la relación no es perfecta; por ejemplo, Gerardo Luenga hizo menos llamadas que Juan Sánchez, pero vendió más unidades.


Los cálculos de correlación se utilizan para saber con exactitud cuál es la relación entre dos variables, en este caso, entre las llamadas hechas y el número de unidades vendidas.
Una manera gráfica de representar la correlación entre dos variables es una gráfica de dispersión.

Como se aprecia en la gráfica, el número de copiadoras vendidas se relaciona con el número de llamadas hechas; es decir, conforme aumenta el número de llamadas, aumenta también el número de ventas. En este caso, al número de llamadas realizadas se le llama variable independiente y al número de copiadoras vendidas se le llama variable dependiente.


Variable independiente. Es la variable que se va a medir o a estimar.
Variable independiente. Es la variable que da la base para la predicción o estimación. Es la variable predictora.
Ahora bien, para calcular la magnitud de la relación entre la variable dependiente y la independiente, se utiliza el coeficiente de correlación de Pearson. Es importante mencionar que para su utilización es necesario que se cuente con datos del nivel de razón o de intervalo.
Este coeficiente puede tomar cualquier valor desde –1 hasta +1 inclusive. Un coeficiente de correlación de 1 (ya sea positivo o negativo) indica una correlación perfecta. Si no existe absolutamente ninguna correlación entre las variables entonces el coeficiente de correlación es cero.







En el siguiente diagrama se resume la magnitud y la dirección de la correlación, según el coeficiente de correlación de Pearson.





Para determinar el valor numérico del coeficiente de correlación de Pearson se utiliza la siguiente fórmula:

Donde:
n = número de pares de observaciones


ΣX = suma de las variables X
ΣY = suma de las variables Y
ΣXY = suma de los productos de las variables X y Y

Luego entonces...




Representante de Ventas

Llamadas (X)

Copiadoras vendidas (Y)

X2

Y2

XY

Javier Mendoza

10

30

100

900

300

Héctor Moreno

10

40

100

1,600

400

José López

20

30

400

900

600

Pedro Flores

20

40

400

1,600

800

Montserrat Luna

20

40

400

1,600

800

Ma José Ibáñez

20

50

400

2,500

1,000

Arturo Cázares

20

30

400

900

600

Enrique Pieck

30

60

900

3,600

1,800

Gerardo Luenga

30

70

900

4,900

2,100

Juan Sánchez

40

60

1,600

3,600

2,400

TOTAL

220

450

5,600

22,100

10,800



r = 0.759

De acuerdo con el diagrama que se presenta anteriormente, esta correlación se puede interpretar como positiva y como fuerte. Esto quiere decir que hay una fuerte correlación entre el número de llamadas y el número de unidades vendidas.
Sin embargo “fuerte” (o débil, o moderado) no tienen un significado preciso. Una medición que posibilita una mejor interpretación es el coeficiente de determinación.
Se calcula elevando al cuadrado el coeficiente de correlación. En este ejemplo, el coeficiente de determinación es r2 = 0.576, que es (0.759) 2. éste es una proporción o un porcentaje (si se multiplica por 100); podemos decir entonces que 57.6% de la variación en el número de copiadoras vendidas, se explica, o se debe a, la variación en el número de llamadas realizadas.
Coeficiente de determinación. Es la proporción de la variación total de la variable dependiente (Y) que se explica por, o que se debe a, la variación en la variable dependiente (X).


Prueba de la significancia del coeficiente de correlación

Una vez que se ha determinado el coeficiente de correlación entre el número de llamadas realizadas y el número de copiadoras vendidas, dado que sólo se tomó una muestra de los vendedores de la compañía, queda una pregunta obvia: ¿podría ser que si se toman los datos de la población la correlación fuera cero?; es decir, ¿la correlación encontrada se puede generalizar para toda la población, para todos los vendedores de la compañía?, o ¿la correlación encontrada se debe a la casualidad?


Para responder a estas interrogantes se puede aplicar una prueba basada en t.
Los pasos a seguir serían los mismos que hemos estado realizando en otras pruebas de hipótesis.


Paso 1



H0: ρ = 0
H1: ρ ≠ 0
Donde ρ (que se lee “ro”) representa la correlación de la población.
Paso 2, inciso c)
α = 0.05

Paso 3, inciso c)

La estadística de prueba adecuada, como ya se dijo es t, y la fórmula es como sigue:






t = 3.297




Paso 4

El valor crítico se encuentra utilizando la tabla de la distribución de t.


Para conocer los grados de libertad se utiliza la siguiente fórmula:
gl = n –2
gl = 10 – 2
gl = 8
El nivel de significancia, como ya se determinó es α = 0.05.
Luego entonces, buscando en las tablas de la distribución de t, se obtiene el valor crítico de 2.306
Como la prueba es de dos colas (por la forma en que están planteadas las hipótesis)
La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para t es mayor que – 2.306 y menor que 2.306. Si el valor calculado no cae en este rango, se rechaza H0 y se acepta H1


Paso 5

Dado que el valor que se encontró para t fue de 3.297, se rechaza la hipótesis nula.


En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la correlación de la población no es cero. Lo que indica que sí hay correlación para el total de vendedores, o que es posible generalizar los resultados.


Correlaciones espurias

Es importante mencionar que, con base en los coeficientes de correlación, no se puede afirmar de manera categórica, que el crecimiento de una variable causa o determina el crecimiento o la disminución de otra. Por ejemplo, supongamos que obtenemos datos de la cantidad de refrescos enlatados que consumen los alumnos de la UP y que contrastamos esta información con sus calificaciones de Antropología; aún cuando al realizar los cálculos encontráramos que el coeficiente de Pearson es positivo y fuerte, no podríamos decir de ninguna manera que las calificaciones de Antropología están determinadas por el número de refrescos que consumen los alumnos. A este tipo de correlaciones se les llama espurias.




    1. Análisis de regresión

A continuación desarrollaremos un modelo matemático (ecuación de la línea) para expresar la relación entre dos variables y para estimar el valor de la variable dependiente Y basándonos en el valor de la variable independiente X. La técnica que se utiliza para desarrollar la ecuación de la línea y hacer estas predicciones, se le llama análisis de regresión.


El principio matemático con base con el cual se traza la ecuación de la línea y se predicen los valores de Y, se conoce con el nombre de mínimos cuadrados. Este principio consiste en trazar una línea sobre la gráfica de dispersión de los valores de modo que la suma de los cuadrados de la distancia vertical entre el valor real de Y y su valor predictorio, sea la cantidad más pequeña posible.
En la siguiente gráfica, los puntos azules representan los valores reales de Y dado un valor determinado de X. Los puntos rosas representan las estimaciones para Y dado un valor de X. Al unir los puntos rosas, se obtiene la línea de regresión.
Esta línea se trazó en base al principio de los mínimos cuadrados, de modo que al elevar al cuadrado las diferencias entre los valores estimados de Y y sus valores reales, el resultado resultante es el número menor posible. Es decir, si se traza la línea de cualquier otro modo, el resultado de sumar las diferencias de los valores reales de Y y los estimados, será mayor.
En este ejemplo, en el primer punto (X = 3, Y = 8) existe una diferencia de 2 respecto de la línea de regresión, que se obtiene de 10 – 8. el cuadrado de la desviación es 4. Para el segundo punto (X = 4, Y = 18), el cuadrado de su desviación es 16. Para el tercer punto (X = 5, Y = 16), el cuadrado de la desviación es también 4. La suma del cuadrado de las desviaciones es 24, que se obtiene de 4 +16 + 4.



Explicado lo anterior, pasemos a las fórmulas. LA forma general de la ecuación de la regresión es:


FORMA GENERAL DE LA ECUACIÓN
DE LA REGRESIÓN LINEAL
Y ’ = a + bX

Donde:
Y ‘ = Se lee Y prima, es el valor predictorio de la variable Y para un valor seleccionado de X.


a = Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.
b = Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en una unidad de la variable independiente X.
X = Es el valor que se escoge para la variable independiente.

A los valores a y b se les conoce como coeficientes de regresión y se calculan con las siguientes fórmulas:




PENDIENTE DE LA LÍNEA
DE REGRESIÓN
b =
n ( Σ XY ) – ( Σ X ) ( Σ Y )
n ( Σ X2 ) – ( Σ X ) 2


INTERSECCIÓN CON EL EJE Y
a =
Σ Y
– b
Σ X
n
n

Donde:
X = es un valor de la variable independiente


Y = es un valor de la variable dependiente
n = es el número de elementos en la muestra


Ejercicio

Retomaremos el problema de las llamadas realizadas por una muestra de 10 vendedores y las copiadoras vendidas por los mismos. A partir de la información obtenida, al gerente de ventas le gustaría obtener información precisa sobre la relación entre estas dos variables y, más allá de eso, le gustaría hacer algunas predicciones sobre el número de copiadoras que se pueden vender si se realiza un número específico de llamadas.


Utilizando el método de los mínimos cuadrados, calcula, el número de copiadoras que se espera vender si un empleado realiza 20 llamadas.


Representantes de ventas

Llamadas (X)

Copiadoras vendidas (Y)

X2

Y2

XY

Representante 1

20

30

400

900

600

Representante 2

40

60

1,600

3,600

2,400

Representante 3

20

40

400

1,600

800

Representante 4

30

60

900

3,600

1,800

Representante 5

10

30

100

900

300

Representante 6

10

40

100

1,600

400

Representante 7

20

40

400

1,600

800

Representante 8

20

50

400

2,500

1,000

Representante 9

20

30

400

900

600

Representante 10

30

70

900

4,900

2,100

TOTAL

220

450

5,600

22,100

10,800

Primero se sustituyen las fórmulas para calcular a y b.




PENDIENTE DE LA LÍNEA
DE REGRESIÓN
b =
10 ( 10,800 ) – ( 220 ) ( 450 )
10 ( 5,600 ) – ( 220 ) 2

b = 1.1842



INTERSECCIÓN CON EL EJE Y
a =
450
– (1.1842)
220
10
10

a = 18.9476

La ecuación de regresión es entonces:

FORMA GENERAL DE LA ECUACIÓN
DE LA REGRESIÓN LINEAL
Y ’ = (18.9476 + (1.1842) 20

Y’ = 42.6326


Esto quiere decir que un vendedor que realiza 20 llamadas puede esperar ventas de 43 copiadoras.
El valor 1.1842 para b significa que por cada llamada adicional que realice, el vendedor puede esperar un aumento de 1.2 en el número de copiadoras vendidas. Dicho de otro modo, cinco llamadas adicionales realizadas en un mes, darán como resultado aproximadamente seis copiadoras más vendidas (1.1842 * 5 = 5.921)
El valor de 18.9476 para a representa el punto en que se cruza el eje de las Y cuando X = 0. Dicho de otra forma, si un vendedor no hace ninguna llamada, puede esperar vender 19 copiadoras. Sin embargo, observa que X = 0 está fuera del rango de los valores que tenemos en la muestra, y por lo tanto, no se deberá usar para estimar el número de copiadoras que se venderán. Las llamadas de venta van de 10 a 40, por lo tanto, las estimaciones deberán hacerse dentro de ese rango.


El dibujo de la línea de regresión

Para dibujar la línea de regresión se debe calcular el número estimado de copiadoras vendidas según las llamadas que haya hecho cada vendedor. Esto queda representado en la siguiente tabla.



Representantes de ventas

Llamadas (X)

Copiadoras vendidas (Y)

Ventas estimadas Y'=a+bX




0




18.9476

Representante 1

20

30

42.6316

Representante 2

40

60

66.3156

Representante 3

20

40

42.6316

Representante 4

30

60

54.4736

Representante 5

10

30

30.7896

Representante 6

10

40

30.7896

Representante 7

20

40

42.6316

Representante 8

20

50

42.6316

Representante 9

20

30

42.6316

Representante 10

30

70

54.4736

TOTAL

220

450

450





La línea de regresión tiene algunas características particulares. Como ya hemos dicho, no hay otra línea a través de los datos para la que la suma de los cuadrados de las desviaciones sea menor. Además esta línea para por los puntos que representan la media de los valores X y la media de los valores Y. En este ejemplo, la media de los valores X es 22.0 y la media de los valores Y es 45.0. El punto en que la línea cruza estos valores está marcado con amarillo.








La base de datos está protegida por derechos de autor ©espanito.com 2016
enviar mensaje