lunes, 28 de febrero de 2011

MEDIDAS DE TENDENCIA CENTRAL

La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios.
Las medidas de tendencia central comúnmente empleadas son :
  • Media aritmética
  • Mediana
  • Moda
  • Media geométrica
  • Media armónica
MODA
La moda es el valor que aparece con mayor frecuencia en la serie de datos. Así por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.
La moda es una medida muy natural para describir un conjunto de datos; su concepto se adquiere fácilmente : es la altura más corriente, es la velocidad más común, etc. Además tiene la ventaja de que no se ve afectada por la presencia de valores altos o bajos.
La principal limitación esta en el hecho de que requiere un número suficiente de observaciones para que se manifieste o se defina claramente.
Otros inconvenientes son que puede darse el caso de que una determinada serie no tenga moda o que tenga varias modas.
Por ejemplo :
L, K, M, O, N (no hay moda)
5, 6, 10, 5, 8, 6, 7, 4 (2 modas)
MEDIANA
La mediana toma en cuenta la posición de los datos y se define como el valor central de una serie de datos o, más específicamente, como un valor tal que no más de la mitad de las observaciones son menores que el y no más de la mitad mayores.
El primer paso es ordenar los datos de acuerdo a su magnitud, luego se determina el valor central de la serie y esa es la mediana. Si el número de datos es par, existirán dos valores centrales y entonces la mediana se obtiene sacando el promedio de ellos.
Por ejemplo :
7, 8, 8, 10, 12, 19, 23 Med = 10
3, 4, 4, 5, 16, 19, 25, 30 Med = (5+16)/2 = 10.5

MEDIA ARITMÉTICA
La media aritmética es el promedio más comúnmente usado, este puede ser simple o ponderado.
La media aritmética simple esta dada por la formula SX/n y que significa: la suma de todos los valores dividida por el número de datos.
Por ejemplo:
10, 13, 10, 13, 14, 10, 13, 10, 15
Media.jpg (2183 bytes)
MEDIA ARITMÉTICA PONDERADA
Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es valido asignar "pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.
En la serie del ejemplo anterior aparecen los números; pero cada uno con diferente frecuencia. Si cada uno de estos datos se multiplica por su respectiva frecuencia o ponderación y se suman estos productos, se obtendrá la misma suma que si se hubieran sumado uno por uno.
Sin ponderar
Cálculo ponderado
Número x
Número x
Frecuencia
Producto (fx)
10
10
4
40
13
13
3
39
14
14
1
14
15
15
1
15
Suma = 52

9
108
52/4 = 13
108/9 = 12

MEDIA GEOMÉTRICA
La media geométrica es la raíz enésima del producto de todos los valores de la serie.
Slide4.JPG (2164 bytes)
Así por ejemplo la media geométrica de 3,4,9 y 12 seria:
Slide5.JPG (3736 bytes)
Como este sistema de calculo resulta muy difícil de emplear, máxime cuando son números grandes o largas series de datos, en la práctica se recurre a los logaritmos.
xg = antilog (S log xi)/n
así la xg del ejemplo se calcularía así :
xg = antilog ( log 3 + log 4 + log 9 + log 12 )
                                          4
xg = antilog (0.477 + 0.602 + 0.954 + 1.079 )
                                            4
xg = antilog (3.11)
                      4
xg = antilog 0.78
xg = 6

MEDIA ARMÓNICA
La media armónica se define como el recíproco de la media aritmética de los recíprocos de los valores.
Slide6.JPG (3339 bytes)
y reacomodando la fórmula se tiene:
Slide7.JPG (3249 bytes)
Así la media armónica de 3, 2, 6 sería:
Armo1.jpg (3613 bytes)
Armo2.jpg (2706 bytes)
Xa = 3
Cálculo de las medidas de posición en datos agrupados
Cuando los datos están agrupados en distribución de frecuencias las fórmulas varían un poco.
Clases
x
f
F
fx
29.5-34.5
32
1
1
32
34.5-39.5
37
3
4
111
39.5-44.5
42
8
12
336
44.5-49.5
47
9
21
423
49.5-54.5
52
7
28
364
54.5-59.5
57
4
32
228
59.5-64.5
62
3
35
186
64.5-69.5
67
3
38
201
69.5-74.5
72
2
40
144
Total


40
2025
Donde:
x es el punto medio de clase
f es la frecuencia absoluta
F es la frecuencia acumulada
fx es el producto del punto medio por la frecuencia absoluta

MODA
Slide8.JPG (5190 bytes)
Donde :
L = Limite inferior de la clase modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior.
C = Intervalo de clase.
Por ejemplo :
Primero se localiza la clase modal que es aquella en la que hay la mayor densidad de frecuencia por unidad de intervalo y luego aplicar la formula.
La clase es : 44.5 - 49.5

Entonces:
                      Mo = 44.5 +    1   *  5
                                           1 + 2
= 44.5 + 1.67  =  46.17

MEDIANA (DATOS AGRUPADOS)
Slide9.JPG (2491 bytes)
Donde :
n = Número total de observaciones.
L = Limite inferior de la clase que contiene la mediana.
f  = Frecuencia de la clase que contiene la mediana.
F = Frecuencia acumulada "menos de" de la clase anterior.
C = Intérvalo de clase.
La determinación de la clase que contiene la mediana se hace dividiendo n/2 y viendo en cual clase quedó este acumulado. En el ejemplo es la clase 44.5 - 49.5 ya que en ésta quedó el 20° dato.
Slide10.JPG (4712 bytes)

= 54.5 + 28.8 - 28 * 5  =  55.5
                             4


FUENTE:
http://www.costaricalinda.com/Estadistica/medidas1.htm

CHI CUADRADO

PRUEBA DE KOLMOGOROV - SMIRNOV

La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de "bondad de ajuste", es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas (ft) con la distribución acumulada de las frecuencias observadas (f obs), se encuentra el punto de divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa magnitud se deba al azar.
En las tareas de investigación se pudo obtener un conjunto de observaciones, en las cuales se supone que tienen una distribución normal, binomial, de Poisson, etc. Para el caso, las frecuencias de las distribuciones teóricas deben contrastar con las frecuencias observadas, a fin de conocer cuál distribución se adecua mejor al modelo.
Pasos:
  1. Calcular las frecuencias esperadas de la distribución teórica específica por considerar para determinado número de clases, en un arreglo de rangos de menor a mayor.
  2. Arreglar estos valores teóricos en frecuencias acumuladas.
  3. Arreglar acumulativamente las frecuencias observadas.
  4. Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
  5. Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores críticos de D.
  6. Decidir si se acepta o rechaza la hipótesis.
Ecuación:
D = ft - fobs
En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que parezca más complicado corresponde al cálculo de la frecuencia esperada de cada tipo de distribución teórica. Por lo tanto, en la marcha de los ejercicios se presentará cada uno de ellos y la manera de aplicar la prueba estadística.
Ejemplo:
En una investigación, consistente en medir la talla de 100 niños de 5 años de edad, se desea saber si las observaciones provienen de una población normal.
Elección de la prueba estadística.
El modelo experimental tiene una muestra y es factible un arreglo en el carácter ordinal o en los rangos de las series de clases.
Planteamiento de la hipótesis.
  • Hipótesis alterna (Ha). Los valores observados de las frecuencias para cada clase son diferentes de las frecuencias teóricas de una distribución normal.
  • Hipótesis nula (Ho). Las diferencias entre los valores observados y los teóricos de la distribución normal se deben al azar.

Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tabla de 100 niños. Los valores X + s son 99.2 ± 2.85.

Aplicación de la prueba estadística.
Primero se elaboran los cálculos de los valores teóricos esperados para la distribución normal.
Inicialmente se determina el valor Z de los límites de cada clase en la serie, por ejemplo: en la primera clase se determinan el límite inferior y el superior (90 y 93), y en las subsecuentes sólo los límites superiores (97, 101, 105 y 109). Para cada valor de Z, se localiza el área bajo la curva norma tipificada. (Véase: tabla de áreas bajo la curva normal tipificada de 0 a 2).
Los cálculos de valores Z, son de la forma siguiente:
Y así sucesivamente.
Para cada valor Z, se localiza el área de la curva tipificada de la tabla de números aleatorios. A partir de estos valores, se obtiene la diferencia entre los límites de clases entre el superior y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 - 0.2357 = 0.2436, 0.2357 - (-0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854 - (-0.4994) = 0.014.
Estos resultados de diferencias se multiplican por el tamaño de la muestra (100 niños), luego se obtienen las frecuencias teóricas y después se arreglan en frecuencias acumuladas.
Cálculos de los valores teóricos.

Las frecuencias acumuladas teóricas y las observadas se arreglan en los rangos correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica la fórmula de Kolmogorov-Smirnov.
Cálculo estadístico D de Kolmogorov-Smirnov.


D = ft - fobs = - 0.036
La diferencia máxima D es igual a -0.049, valor que se compara con los valores críticos de D en la prueba muestral de Kolmogorov-Smirnov y se obtiene la probabilidad de la existencia de esa magnitud de acuerdo con la prueba de Kolmogorov-Smirnov. El valor N es 100 y el mayor número de N en la tabla es 35, por lo cual se aplica la fórmula al pie de la tabla:
Para la probabilidad de
Lo anterior quiere decir que para todo valor menor que el crítico para una probabilidad de 0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor mayor que D al calculado tinen una probabilidad menor que 0.05, o sea, es inversamente proporcional al crítico determinado o localizado en la tabla.
Decisión.
En virtud de lo anterior, el estadístico de Kolmogorov-Smirnov obtendo es menor que el crítico y su probabilidad mayor que 0.05, por lo tanto, se acepta Ho y se rechaza Ha.
Interpretación.
Las frecuencias observadas y las teóricas calculadas no difieren significativamente. Por lo tanto, las observaciones tienen una distribución normal.