martes, 27 de abril de 2010

ESTADISTICOS DESCRIPTIVOS

MEDIDAS DE TENDENCIA CENTRAL.
Media Aritmética
La media aritmética de n observaciones de la variable X se denotará por el símbolo y se define como la suma de ellas dividida por n. Simbólicamente:

Ejemplo:
De un conjunto de 5 plantas se tomo el número de hojas que tiene cada una de ellas: 9, 7, 5, 8, 6

Ordenando los datos 5, 6, 7, 8,9 por lo que el resultado es el numero 7 ya que esta es el que divide al conjunto de números en partes iguales.
En el ejemplo es claro que la media aritmética corresponde geométricamente al punto de equilibrio de los datos.

Mediana
La mediana (Me) de un conjunto de n números ordenados de menor a mayor, es el número central en el arreglo. Si n es un número impar (non), sólo hay un valor central en el arreglo. Si n es un número par, hay dos valores centrales y la mediana debe tomarse como la media aritmética de estos dos valores, mediante la siguiente fórmula:
Ejemplo: considere los siguientes datos sobre la concentración de globulina receptora, para una muestra de mujeres con pruebas de laboratorio de evidente anemia por deficiencia de hierro:
15.2 9.3 7.6 11.9 10.4 9.7
20.4 9.4 11.5 16.2 9.4 8.3

Los datos ordenados son:
7.6, 8.3, 9.3, 9.4, 9.4, 9.7, 10.4, 11.5, 11.9, 15.2, 16.2, 20.4
Por lo que el resultado es 10.05 ya que la mediana es un valor que divide a los datos en mitades.



Moda
La moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor único decimos que la distribución de frecuencias es unimodal, si tiene dos o más valores con la misma frecuencia máxima, decimos que la distribución es bimodal, trimodal, entre otras.
La moda es una medida de tendencia central que es poco usada por las siguientes razones:
a) Puede ocurrir que no exista.
b) A menudo no es un valor único.
Ejemplo:
Los siguientes son conteos del número de cromosomas en una herbácea (Claytonia virginica, L):

29, 28, 28, 27, 28, 29, 29, 29, 30, 26, 24, 29
La moda es 29 ya que es mayor número de repeticiones que se localizan en el número de cromosomas.
MEDIDAS DE DISPERSIÓN.
Si un conjunto de datos consta de todas las observaciones concebibles (o hipotéticamente posibles) de cierto fenómeno, se denomina población; si un conjunto de datos consta solamente de una parte de estas observaciones se conoce como muestra por lo que una muestra debe ser un subconjunto de la población. Para poblaciones se utilizarán letras griegas y para muestras, latinas.
Por ejemplo para representar la media o el promedio de una muestra se utilizó la fórmula:

Amplitud o recorrido
La medida de dispersión más simple recibe el nombre de Amplitud o recorrido y es muy poco usada puesto que su única ventaja es la sencillez con que se calcula. Es común que se use también el nombre de Rango para esta medida. La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones que tienen el mayor y el menor valor numérico en el mismo.
Por ejemplo: Supóngase que en un hospital el pulso de cada paciente se mide tres veces al día y que cierto día los registros de dos pacientes muestran:
Paciente 1: 73 77 74
Paciente 2: 64 90 73
¿Cuál es la Amplitud en pulsaciones para cada paciente?
Para calcular la amplitud de los datos necesario identificar el valor más grande y el valor más pequeño del conjunto de datos de cada uno de los pacientes.
Para el Paciente 1:
A = 77  73 = 4
Para el Paciente 2:
A = 90  64 = 26
La amplitud es una medida de dispersión cuya ventaja es la facilidad con que se calcula. Tiene en cambio las siguientes desventajas:
• En su cálculo sólo intervienen dos elementos del conjunto.
• Al aumentar el número de observaciones, puede esperarse que aumente la variabilidad. Puesto que la amplitud no tiene en cuenta el tamaño del conjunto, no es una medida adecuada para comparar la variabilidad de dos grupos de observaciones, a menos que éstos sean del mismo tamaño.
Desviación media, desviación estándar y varianza
la desviación estándar, que es por mucho la medida generalmente más útil de la dispersión, obsérvese que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en forma cerrada en torno a su media y es grande si los valores se dispersan ampliamente en torno a su media. Por tanto, parecería razonable medir la dispersión de un conjunto de datos en términos de las cantidades en las cuales difieren los valores individuales de su media.
Si se tiene un conjunto de números:

que constituyen una población con una media , las diferencias entre:

Se denominan las desviaciones de la media y esto sugiere que se podría usar el promedio de estas desviaciones como medida de dispersión en la población. A menos que las X sean todas iguales, algunas de las desviaciones serán positivas y otras negativas, la suma de todas las desviaciones de la media
y en consecuencia también su promedio es siempre cero.

En realidad, si se suman las desviaciones de la media como si fueran todas positivas o cero y las dividiéramos entre N, se obtendría la media estadística que se denomina desviación media y se representa por:

Un método alternativo consiste en trabajar con los cuadrados de las desviaciones de la media, ya que también esto eliminará el efecto de los signos. Los cuadrados de números reales no pueden ser negativos y pueden tomar el valor de cero.
Por consiguiente, si se promedia las desviaciones cuadradas de la media y se toma la raíz cuadrada del resultado (para compensar el hecho de que las desviaciones fuesen cuadradas), se obtiene la Desviación estándar de la población.


Quizá parezca lógico utilizar la misma fórmula con n y sustituidas por N y , para la desviación estándar de una muestra; pero, esto no es realmente lo que se hace. En lugar de dividir la suma de las desviaciones entre n, se divide entre (n-1) y se define como desviación estándar de la muestra, que se denota con s como

Su cuadrado s2, se llama la Varianza de la muestra.
Al dividir entre n-1 en vez de hacerlo entre n, tiene una buena razón. Si se dividiera entre n y se utilizara s2 como estimación de es decir, se utilizaría la varianza de una muestra para determinar la varianza de la población de la cual provino, el resultado sería demasiado pequeño y esto se corrige al dividir entre n-1 en lugar de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo entre n-1 sino que es práctico para definir s como se hizo.
Coeficiente de variación
Las medidas de dispersión anteriores son todas medidas de variación absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el coeficiente de variación.
El Coeficiente de variación (CV) es una medida de la dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar del conjunto entre su media aritmética y se expresa como para una muestra y para la población.

Cálculo de la varianza en una tabla de frecuencias
Para calcular la varianza de una tabla de frecuencias se utiliza la siguiente fórmula:



Donde:
k es el número de intervalos de clase
Xi es el valor medio de cada clase
fi es el valor de la frecuencia absoluta
Al retomar el ejemplo de la tabla de distribución de frecuencias de Precipitación pluvial promedio anual en Baja California 1905 a 1994 en pulgadas.

intervalos Punto medio de clase (mi) Conteo fi fAi FRi FRAi
(07.7 , 11.7] 9.7 18 1818/90 18/90
(11.7 , 15.7] 13.7 13 31 13/90 31/90
(15.7 , 19.7] 17.7 24 55 24/90 55/90
(19.7 , 23.7] 21.7 17 72 17/90 72/90
(23.7 , 27.7] 25.7 13 85 13/90 85/90
(27.7 , 31.7] 29.7 0 85 0/90 85/90
(31.7 , 35.7] 33.7 4 89 4/90 89/90
(35.7 , 39.7] 37.7 1 90 1/90 90/90
TOTAL 90 90 90/90 90/90

Calcular s2 y s.

mi fi fimi
9.7 94.09 18 174.6 1693.62
13.7 187.69 13 178.1 2439.97
17.7 313.29 24 424.8 7518.96
21.7 470.89 17 368.9 8005.13
25.7 660.49 13 334.1 8586.37
29.7 882.09 0 0 0
33.7 1135.69 4 134.8 4542.76
37.7 1421.29 1 37.7 1421.29
TOTAL 5165.52 90 1653.0 34208.10



• Explique cómo se hacen los gráficos de histogramas, polígono de frecuencias, ojivas, barras, diagramas de tallo y hoja, diagramas de caja con un ejemplo de cada uno de ellos.
• Histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.


• Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos.
También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmento.



• La ojiva es una gráfica asociada a la distribución de frecuencias, es decir, que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.


• Diagrama de barras, es rectangular también conocido como gráfico de columnas, es un diagrama con barras rectangulares de longitudes proporcional al de los valores que representan. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden estar orientadas horizontal o verticalmente.




Diagrama de tallo y hoja
Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal.
Ejemplo: Edad de 20 personas
Supongamos la siguiente distribución de frecuencias
36, 25, 37, 24, 39, 20, 36, 45, 31, 31,39, 24, 29, 23, 41, 40, 33, 24, 34, 40

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas.

Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.

A continuación efectuamos un recuento y vamos “añadiendo” cada hoja a su tallo



Por último reordenamos las hojas y hemos terminado el diagrama

Comparar dos distribuciones
Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución
35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.



Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Ejemplo distribución de edades
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40
Ordenar los datos
Para calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Calculo de Cuartiles
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q1=(24 + 25) / 2 = 24.5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
Dibujar la Caja y los Bigotes

El bigote de la izquierda representa al colectivo de edades (Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).


• Defina correlación y covarianza, diagramas de puntos x-y, las pruebas que se pueden aplicar a esta prueba, y un ejemplo.

Covarianza
Sean (x1, y1); (x2,y2);...;(xn,yn), n pares de observaciones de dos características X y Y, y sean y sus respectivas medias. La covarianza entre las dos características se define como:

Las propiedades de la covarianza son las siguientes:
1. Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y, les sumamos una constante k’, la covarianza no varía.
2. Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la variable y, los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes.
3. A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt = acSxy.
4. Cov(x,y) = Cov(y,x). EJEMPLO:
Peso (x) Estatura (y)
63 162
52 158
78 167
49 151
71 162
62 168
68 167
48 153
56 152
67 173
La media de Pesos es: 61.4
Desviación estándar: Sx=9.98
La Media de las Estaturas es: 161.3
Desviación estándar: Sy=7.60
Para hacer el cálculo de la covarianza se puede construir la tabla siguiente:
Peso (X) Estatura (Y) X*Y
63 162 10206
52 158 8216
78 167 13026
49 151 7399
71 162 11502
62 168 10416
68 167 11356
48 153 7344
56 152 8512
67 173 11591
 614 1613 99568


la covarianza puede ser negativa o positiva. Se tendrá covarianza positiva cuando las desviaciones positivas (negativas) de X correspondan a las desviaciones positivas (negativas) de Y. Se tiene covarianza negativa cuando las desviaciones positivas (negativas) de X correspondan a las desviaciones negativas (positivas) de Y.
Correlación
La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Sean (x1, y1); (x2,y2);...;(xn,yn), n pares de observaciones de dos características X y Y. Sean Sxy, Sx y Sy la covarianza entre ellas y las desviaciones estándar correspondientes. El coeficiente de correlación (rxy) o simplemente la correlación entre dos variables tiene como expresión:

La correlación es una medida de asociación entre dos variables, que tiene las siguientes propiedades:
1. Es independiente de las unidades de medida utilizadas en las variables.
2. Valores positivos del coeficiente indican que las variables tienden a crecer o a decrecer simultáneamente, y los valores negativos indican que una aumenta cuando la otra disminuye.
3. Toma valores exclusivamente entre -1 y 1.



Ejemplo: Se tienen la siguiente tabla:
Peso (x) Estatura (y)
63 162
52 158
78 167
49 151
71 162
62 168
68 167
48 153
56 152
67 173
La media de Pesos es: 61.4
Desviación estándar: Sx=9.98
La Media de las Estaturas es: 161.3
Desviación estándar: Sy=7.60
La covarianza Sxy=58.86

Calcular la correlación.
Para calcular la correlación, se utiliza la fórmula y se sustituyen los valores:

Diagrama de dispersión: es un diagrama que representa gráficamente, en un espacio de ordenadas, los puntos de dicho espacio que corresponden a los valores correlativos de una distribución bivariante conjunta, estos diagramas deben usarse cuando tenemos un análisis estadístico bivariable, ósea una tabla de datos de doble entrada, la ventaja que tienen es que se puede graficar de una forma sencilla una distribución bivariante conjunta y la desventaja principal es que no funciona si sucede que una dupla se repita


EJ:
X Y
A 2 3
B 4 1
C 5 4
D 3 6
E 2 8

No hay comentarios:

Publicar un comentario