domingo, 4 de junio de 2017

ESTADÍSTICA NO PARAMETRICA




Tema presentado por los equipos #1 y equipo #2




El equipo numero 1 y 2 hablaron sobre el tema: Métodos No parametricos, donde cada uno expuso temas similares pero con puntos de vistas diferentes, a continuación se hablara un poco sobre este tema.





Tipos de métodos no parametricos:




Prueba de los signos:





Prueba de los rangos con signo de Wilcoxon


La prueba de los rangos con signo de Wilcoxon es la alternativa no paramétrica al método paramétrico de las muestras por pares. En la situación de las muestras por pares, cada unidad experimental genera dos observaciones.  

Las diferencias entre los pares de observaciones permiten apreciar la diferencia entre las dos poblaciones.

Ejemplo:
En una fábrica se desea determinar cuál de dos métodos de producción difiere en el 
tiempo que se requiere para realizar una tarea. Se selecciona una muestra de 11 
trabajadores y cada trabajador realiza la tarea con uno de estos dos métodos  
de producción. El método de producción que usa primero cada trabajador es seleccionado 
de manera aleatoria.


Si no se puede rechazar H0, no se contará con evidencia para concluir que los dos métodos difieren en los tiempos requeridos para realizar la tarea. Pero, si H0 puede ser rechazada, se concluirá que los dos métodos difieren en los tiempos para realizar la tarea.

a continuación se muestra la tabla donde se mostraran los resultados de los rangos obtenidos de los tiempos necesarios:


La formula a utilizar sera la siguiente:


En el ejemplo, después de descartar la observación en que la diferencia es cero (la del trabajador 8), se tiene n = 10. Por tanto, si emplea la ecuación, tiene:


Con 0.05 como nivel de significancia, para llegar a una conclusión. Con la suma de los valores de los signos con rango T=44, se obtiene el valor siguiente para el estadístico de prueba:


A partir de las tablas de probabilidad normal estándar y z  =2.24, se halla que para dos colas el valor-p  =2(1 -0.9875) =0.025. Como el valor-p < α =0.05, se rechaza H0 y se concluye que las dos poblaciones no son idénticas y que los métodos difieren en el tiempo requerido para realizar la tarea. Como 8 trabajadores obtuvieron tiempos más cortos con el método 2, se concluye que el método 2 es el método de producción que se preferirá.


•Prueba de Mann-Whitney-Wilcoxon


Estas son algunas de las características de la prueba:

Método no paramétrico que se usa para determinar si hay diferencia entre dos 
poblaciones, diferencia de la prueba de los rangos con signo, no se basa en una muestra 
por pares, aquí se usan dos muestras independientes, una de cada población. 
Esta prueba fue creada conjuntamente por Mann, Whitney y Wilcoxon. Algunas veces se 
le llama prueba de Mann-Whitney otras veces prueba de la suma de rangos de Wilcoxon
La prueba no paramétrica de MWW no requiere que los datos sean de intervalo ni  
tampoco que las poblaciones estén distribuidas normalmente. 
El único requisito es que la escala de medición de los datos sea por lo menos ordinal. 

MUESTRAS PEQUEÑAS


Tamaño de muestra menores que 10.


MUESTRAS GRANDES


Son cuando el tamaño de la muestra son iguales o mayores a 10.
Se utiliza la distribución T.

En resumen, la prueba de la suma de los rangos de Man-Whitney-Wilcoxon para  
determinar si dos muestras aleatorias independientes pertenecen a poblaciones idénticas 
consiste en los pasos siguientes.

Reunir en un solo conjunto las observaciones muestrales y ordenarlas de menor a mayor 
aasignarles un rango; a las observaciones muestrales que tengan un mismo  valor se 
les asigna, a cada una, el promedio de los lugares que les corresponden en 
la lista ordenada de menor a mayor.

Calcular T, la suma de los rangos de la primera muestra.

En el caso de muestras grandes, para probar si existen diferencias significativas entre las 
dos poblaciones, el valor obtenido para T se compara con la distribución muestral de
para poblaciones idénticas con las ecuaciones (19.6) y (19.7). Para decidir si se rechaza 
H0  se emplea el valor del estadístico de prueba estandarizado z y el valor-p. En el caso de 
muestras pequeñas, se usa la tabla 9 del apéndice B para hallar los valores críticos para la 
prueba.


PRUEBA DE KRUSKAL-WALLIS

Se usa para probar si las poblaciones son idénticas

Para k≥3 poblaciones se expresa como:

Ho: Todas las poblaciones son idénticas
Ha: No todas las poblaciones son idénticas



Siempre que los datos de k≥3 poblaciones sean ordinales o siempre que la suposición de 
que las poblaciones tengan una distribución normal sea cuestionable, la prueba de Kruskal-
Wallis proporciona un método estadístico alternativo para probar si las poblaciones son 
idénticas.


CORRELACIÓN DE RANGOS

Es una medida de la relación lineal entre dos variables para las cuales se cuenta con datos de intervalo o de razón.
El coeficiente de correlación por rangos de Spearman “rs se usa en estos casos.

PRUEBA DE CORRIDAS PARA ALEATORIEDAD

por el equipo #3

Una prueba de Corridas es un método que nos ayuda a evaluar el carácter de aleatoriedad de una secuencia de números estadísticamente independientes y números uniformemente distribuidos. Es decir dado una serie de números determinar si son o no aleatorios.
Existen dos versiones de la prueba de corridas:
Prueba de corridas arriba y abajo (ascendente y descendente) para números estadisticamente independientes.

Si tenemos una secuencia de números de tal manera que a cada uno de los números siga otro mayor la secuencia dada será ascendente (arriba). Si cada número va seguido por otro menor, la secuencia será descendente (abajo).
Pasos para evaluar una prueba de corridas: 

1.Primeramente le asignaremos un signo a cada número de la secuencia ya sea +  ó -,eso dependerá de los siguiente.
2. Si a un número le sigue otro mayor, se le asigna +. Esto es si Xi < Xi +1 el signo asignado será (+). Siendo Xi un número de la muestra o secuencia de números.
3. Si el número siguiente es menor, se le da un signo -. Esto es si Xi > Xi +1 el signo asignado será (-).

4. Se continuará con la comparación de los números y la asignación de su signo correspondiente hasta N-1. Es decir hasta el penúltimo numero de la secuencia, ya que al último número le sigue un evento nulo(no es posible compararlo con otro número). 

Prueba de signos 

por el equipo #4

Se usa una muestra de n clientes potenciales para que indiquen su preferencia por una de dos marcas de un producto, por ejemplo, de un café, de un detergente o de un refresco.
Las n expresiones de preferencia son datos nominales, ya que el consumidor simplemente nombra una preferencia. Dados estos datos, el objetivo es determinar si existe diferencia en las preferencias entre los dos artículos que se comparan, la prueba de los signos es un procedimiento estadístico no paramétrico.

Muestras pequeñas 
   
El caso de la muestra pequeña es siempre que n20.Mediante un estudio realizado para Sun Coast, se usa la prueba de los signos para el caso de una muestra pequeña. 

En un estudio acerca de las preferencias de los consumidores respecto a estas dos marcas, a 12 individuos se les dieron muestras, sin marca, de cada uno de los productos. La marca que cada individuo probó primero fue seleccionada aleatoriamente. Después de probar los dos productos, se pidió a estas personas que indicaran su preferencia por una de las dos marcas. En este estudio, el objetivo es ver si hay una preferencia de los consumidores por uno de los dos productos. Sea p la proporción de la población de consumidores que prefiere Citrus Valley; las hipótesis que se quiere probar son las siguientes:












Para registrar los datos de la preferencia de los 12 individuos que participan en el estudio, se emplea un signo más si el individuo prefiere Citrus Valley y  un signo menos si el individuo prefiere Tropical Orange. Debido a que los datos se registran en términos de signos más y menos, a esta prueba paramétrica se le conoce como prueba de los signos. El número de signos más es el estadístico de prueba. Bajo la suposición de que H0 es verdadera (p = 0.50), la distribución muestral del estadístico de prueba es una distribución binomial con p = 0.50.


Se presentan los datos obtenidos sobre la preferencia. Los dos signos más, indican que dos consumidores prefirieron Citrus Valley. Ahora se pueden usar las distribuciones binomiales para determinar el valor-p de la prueba. Como es una prueba de dos colas, el valor-p se encuentra al duplicar la probabilidad en una cola de la distribución de la muestra binomial.




MUESTRAS GRANDES


La hipótesis nula es HO: p=0.50 y el tamaño de la muestra es n›20, la distribución muestra del número de signos más se aproxima mediante una distribución normal.


En un sondeo realizado durante una campaña para elecciones presidenciales se pidió a 200 votantes registrados que evaluaran a los candidatos demócrata y republicano con relación a su política exterior.
72 evaluaron mejor al candidato demócrata
103 evaluaron mejor al republicano
25 no encontraron diferencia entre los candidatos
 ¿Con este sondeo puede observarse que exista una diferencia significativa, entre los candidatos, en términos de la opinión pública acerca de su política exterior?
Se tiene que n= 200-25 =175 fueron las personas que pudieron indicar qué candidato consideraban que tenía una mejor política exterior.



Ahora se procede a realizar la prueba de los signos con un nivel de significancia de 0.05, 
para obtener las conclusiones.
Con base en el número de signos más (x =72) que corresponden al número de personas 
que evaluaron como mejor la política exterior del candidato demócrata, se obtiene el valor 
siguiente para el estadístico de prueba.

Resultado de este estudio: se encuentra que los candidatos difieren en términos de la 
opinión pública acerca de su política exterior.


PRUEBA DE HIPÓTESIS ACERCA DE LA MEDIA


Recuerde que la mediana divide a la población de manera que 50% de los valores son mayores o iguales que la mediana y 50% de los valores son menores o iguales a la mediana
Cuando se utiliza la prueba de los signos se anota un signo más por cada dato muestral que sea mayor al valor de la mediana hipotética y un signo menos por cada dato muestral que sea menor al valor de la mediana hipotética.
Los datos iguales al valor de la mediana hipotética, se descartan.

Los cálculos en esta prueba de los signos se hacen igual.

Prueba de Mann-Whitney-Wilcoxon
por el equipo #5 y #6

La prueba no paramétrica de MWW no requiere que los datos sean de intervalo ni tampoco que las poblaciones estén distribuidas normalmente. El único requisito es que la escala de medición de los datos sea por lo menos ordinal. Después, en lugar de probar las diferencias entre las medias de las dos poblaciones, la prueba de MWW determina si las dos poblaciones son idénticas.
Las hipótesis en la prueba de MWW son las siguientes:
•H0: Las dos poblaciones son idénticas en términos de preparación académica.
• Ha: Las dos poblaciones no son idénticas en términos de preparación académica.

Ejemplo de nivel académico:

1.- Se toma una muestra aleatoria de cuatro estudiantes  y otra muestra aleatoria de cinco estudiantes.
2.- De cada uno de los 9 estudiantes tomados se registra su actual nivel académico.
Paso 1.- Es reunir en un solo conjunto todos los datos y reunirlos de mayor a menor , al menor  nivel académico se le da el 1 y al mayor se le da rango 9.

Estudiantes ordenados por rango:


¿Cuáles son las propiedades de la suma de los rangos en la muestra de cantidad?
Puede ocurrir que los cuatro estudiantes en la muestra de Garfield sean los 4 estudiantes que tengan los primeros rangos en este estudio si este fuera el caso t= 1+2+3+4=10.
Sera el menor valor que podría tener t, la suma de los rangos pero también puede ocurrir que los rangos pero también puede ocurrir que los estudiantes obtuvieran los últimos rangos. 
Caso para muestras grandes
•Se reúnen en un solo conjunto los dato obtenidos de una muestra aleatoria independiente.
•Se ordenan de mayor a menor.
•Al primer dato se le asigna el rango de 1, y se suman todos los rangos.
• Se aplican las formulas de  distribución t.


OBSERVACIONES PAREADAS: PRUEBA DE SIGNOS

La prueba de los rangos con signo de Wilcoxon es la alternativa no paramétrica al método paramétrico de las muestras por pares (o apareadas). Las diferencias entre los pares de observaciones permiten apreciar la diferencia entre las dos poblaciones.

Ejemplo:
En una fábrica se desea determinar cuál de dos métodos de producción difiere en el tiempo que se requiere para realizar una tarea. Se selecciona una muestra de 11 trabajadores.
Los métodos son significativamente diferentes en términos del tiempo que se requiere 
para realizar la tarea.Se tienen dos poblaciones de tiempos requeridos para realizar 
una tarea, cada población corresponde a cada uno de los métodos; las hipótesis a 
probar son las siguientes.

H0: Las poblaciones son idénticas
Ha: Las poblaciones no son idénticas

Si no se puede rechazar H0, no se contará con evidencia para concluir que los dos 
métodos difieren en los tiempos requeridos para realizar la tarea. Pero, si H0 puede 
ser rechazada, se concluirá que los dos métodos difieren en los tiempos para realizar 
la tarea.

RANGOS DE LAS DIFERENCIAS ABSOLUTAS ACERCA DEL TIEMPO NECESARIO PARA REALIZAR UNA TAREA DE PRODUCCIÓN


DISTRIBUCIÓN MUESTRAL DE T PARA POBLACIONES IDÉNTICAS.

Sea T la suma de los valores de los rangos con signo en una prueba de los rangos 
con signo de Wilcoxon. Si las dos poblaciones son idénticas y si el numero de pares 
de datos es 10 o mayor, es posible demostrar que la distribución muestral de T puede
ser aproximada mediante una distribución normal.




Observaciones Pareadas (Prueba de Wilcoxon)

por el equipo #8


Este método también es nombrado en la literatura como: La prueba de los rangos con signo de Wilcoxon.
Esta es la alternativa no paramétrica al método paramétrico de las muestras por pares (o apareadas).
En la situación de las muestras por pares, cada unidad experimental genera dos observaciones, una correspondiente a la población 1 y otra correspondiente a la población 2. Las diferencias entre los pares de observaciones permiten apreciar la diferencia entre las dos poblaciones.







Prueba de Kruskal-Wallis

Para k 3 poblaciones se expresa como sigue:
Ho: Todas las poblaciones son idénticas
Ha: No todas las poblaciones son idénticas
Esta prueba es una alternativa a la ANOVA en la que se prueba la igualdad de la 
media de k poblaciones.

Esta prueba se basa en el análisis de muestras aleatorias independientes de cada 
una de las poblaciones. El análisis de varianza (ANOVA) suele usarse para  probar 
la igualdad de las medias de tres o más poblaciones.
La prueba no paramétrica de Kruskal-Wallis se puede usar tanto con datos ordinales
como con datos de intervalo o de razón. En la prueba de Kruskal-Wallis no es 
necesario suponer que las poblaciones tienen una distribución normal.


VARIAS PRUEBAS INDEPENDIENTES PRUEBA DE KRUSKAL


PRUEBAS K  PARA MUESTRAS INDEPENDIENTES 

Este contraste permite decidir si puede aceptarse la hipótesis de que k muestras 
independientes proceden de la misma población o de poblaciones idénticas con la 
misma mediana.

Características de prueba Kruskall Wallis 

La prueba de Kruskall-Wallis es un Método no paramétrico  que sirve para:
1.   Probar si un grupo de datos proviene de la misma población.
2.Se emplea cuando se quieren comparar tres o más poblaciones
3.Es el equivalente a un análisis de varianza de una sola vía
4.No requiere supuesto de normalidad
5.No requiere supuesto de varianzas iguales (homogeneidad de varianzas)
6.Compara esencialmente los rangos promedios observados para las k muestras, 
con los esperados bajo Ho.

PASOS PARA EL CALCULO DE LA PRUEBA DE 
KRUSKALL WALLIS.

•1. Planteamiento de hipótesis.
•2. Se ordenan las n observaciones de menor a mayor, y se les asignan 
rangos desde 1 hasta n.
•3. Se obtiene la suma de los rangos  correspondientes a los elementos 
de cada muestra, Rj y se halla el rango promedio.
•4. Calcular estadístico de prueba.
•5. Buscar H en la Tabla de chi cuadrado.
•6. Conclusiones.
Ejemplo resuelto en programa:
Una EPS solicita y contrata personal para su equipo gerencial en tres escuelas 
diferentes. Se dispone de calificaciones de desempeño en muestras  
independientes de cada una de las escuelas. 
Se dispone de calificaciones de 7 empleados de la escuela A, 6 empleados de la 
escuela B y 7 empleados de la escuela C. 
La calificación de cada gerente está en escala de 0 a 100. El límite superior es la 
máxima nota. 



En SPSS:







RESULTADO:



CONCLUSIÓN:
Al analizar el resultado en SPSS el sig. nos da mayor a 0.05, entonces se sigue 
aceptando Ho.

No hay comentarios.:

Publicar un comentario