miércoles, 27 de marzo de 2013

Estadística Descriptiva


Capítulo 1. INTRODUCCIÓN
1.1 ¿Qué es la estadística?
ESTADÍSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos.
Los datos son generalmente imperfectos en el sentido queaún cuando posean información útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan extraer información a partir de los datos observados para comprender mejor las situaciones que los mismos representan.
Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar más allá del hecho que la teoría matemática que las sustentan puede ser muy complejo. Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto las características sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las áreas del conocimiento.
Los métodos estadísticos pueden y deberían ser usados en todas las etapas de unainvestigación, desde el comienzo hasta el final. Existe el convencimiento de que laestadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la selección del método de análisis para un problema, se basa tanto en el tipo de datos diponibles como en la forma en que fueron recolectados.
1.2 ¿Por qué estudiar estadística?
Porque los datos estadísticos y las conclusiones obtenidas aplicando metodología estadística ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadística invade cada vez más cualquier investigación relativa a salud pública. Este crecimiento, probablemente relacionado con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodología estadística haya sido correctamente utilizada, o peor aún, que sea válida.
¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos en un trabajo científico o en un informe técnico?
- Porque las conclusiones pueden ser incorrectas.
- Porque no todos los lectores están en condiciones de detectar el error, y esto genera un importante “ruido” en la bibliografía científica (Aunque este argumento tiende a sobredimensionar la importancia de un paper, existe considerable evidencia que los lectores sin formación metodológica tienden a aceptar como válidas las conclusiones Liliana Orellana Marzo 2001, 2 de los trabajos publicados, en especial si se encuentran publicados en revistas prestigiosas).El estudio de la Estadística y el modo de pensamiento que se genera a partir del mismo, capacita a la persona para evaluar objetiva y efectivamente si la información que recibe (vía tablas, gráficos, porcentajes, tasas, etc.) es relevante y adecuada. Por supuesto, la interpretación de cualquier problema requiere, no sólo de conocimientos metodológicos sino también, de un profundo conocimiento del tema.
Aún cuando una persona no esté interesada en especializarse en estadística, un entrenamiento básico en el tema permite una mejor comprensión de la información cuantitativa.
1.3 Áreas de la estadística
Describiremos brevemente cada una de las áreas en que puede dividirse la estadística:
I. Diseño: Planeamiento y desarrollo de investigaciones.
II. Descripción: Resumen y exploración de datos.
III. Inferencia: Hacer predicciones o generalizaciones acerca de características de
una población en base a la información de una muestra de la población.
I. Diseño
Es una actividad crucial. Consiste en definir como se desarrollará la investigación para dar respuesta a las preguntas que motivaron la misma. La recolección de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificación de la investigación ahorra trabajo en las siguientes etapas. Un estudio bien diseñado resulta simple de analizar y las conclusiones suelen ser obvias. Un experimento pobremente diseñado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas que motivaron la investigación, más allá de lo sofisticado que sea el análisis estadístico.
Aún en los casos en que se estudian datos ya registrados, en que estamos restringidos a la información existente, los principios del buen diseño de experimentos, pueden ser útiles para ayudar a seleccionar un conjunto razonable de datos que esté relacionado con el problema de interés.II. Descripción
Los métodos de la Estadística Descriptiva o Análisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga su estructura. Hay varias formas simples e interesantes de organizar los datos en gráficos que permiten detectar tanto las características sobresalientes como las características inesperadas. El otro modo de describir los datos es resumirlos en uno o dos números que pretenden caracterizar el conjunto con la menor distorsión o perdida de información posible. Liliana Orellana Marzo 2001, 3
Explorar los datos, debe ser la primera etapa de todo análisis de datos. ¿Por qué no analizarlos directamente? En primer lugar porque las computadoras no son demasiado hábiles (sólo son rápidas), hacen aquello para lo que están programadas y actúan sobre los datos que les ofrecemos. Datos erróneos o inesperados serán procesados de modo inapropiado y ni usted, ni la computadora se darán cuenta a menos que realice previamente un análisis exploratorio de los datos.
III. Inferencia
Inferencia Estadística hace referencia a un conjunto de métodos que permiten hacer predicciones acerca de características de un fenómeno sobre la base de información parcial acerca del mismo. Métodos de la inferencia nos permiten proponer el valor de una cantidad desconocida (estimación) o decidir entre dos teorías contrapuestas cuál de ellas explica mejor los datos observados (test de hipótesis). El fin último de cualquier estudio es aprender sobre las poblaciones. Pero es usualmente necesario, y más práctico, estudiar solo una muestra de cada una de las poblaciones.
Definimos:
POBLACIÓN
MUESTRA total de sujetos o unidades de análisis de interés en el estudio cualquier subconjunto de los sujetos o unidades de análisis de la población, en el cual se recolectarán los datos Usamos una muestra para conocer o estimar características de la población, denominamos:
PARÁMETRO una medida resumen calculada sobre la población
ESTADÍSTICO una medida resumen calculada sobre la muestra
La calidad de la estimación puede ser muy variada, y generalmente las estimaciones estadísticas son erróneas, en el sentido que no son perfectamente exactas. La ventaja de los métodos estadísticos es que aplicados sobre datos obtenidos a partir de muestras aleatorias permiten cuantificar el error que podemos cometer en nuestra estimación o calcular la probabilidad de cometer un error al tomar una decisión en un test de hipótesis.
Finalmente, cuando existen datos para toda la población (CENSO) no hay necesidad de usar métodos de estadística inferencial, ya que es posible calcular exactamente los parámetros de interés. En el censo poblacional, por ejemplo, se registra el sexo de todas las personas censadas, que son prácticamente toda la población, así que es posible conocer exactamente la proporción de habitantes de los dos sexo.
Capítulo 2. TIPOS DE DATOS
En este capítulo presentaremos los distintos tipos de datos o variables que podemos encontrar en una investigación e comentaremos algunas estrategias para el manejo de datos con una computadora.
2.1 CARACTERÍSTICAS DE LOS CONJUNTOS DE DATOS.
En lo que sigue denominaremos
- UNIDAD DE ANÁLISIS O DE OBSERVACIÓN al objeto bajo estudio. El mismo puede ser una persona, una familia, un país, una región, una institución o en general, cualquier objeto.
- VARIABLE a cualquier característica de la unidad de observación que interese registrar, la que en el momento de ser registrada puede ser transformada en un número.
- VALOR de una variable, OBSERVACIÓN o MEDICIÓN, al número que describe a la característica de interés en una unidad de observación particular.
- CASO o REGISTRO al conjunto de mediciones realizadas sobre una unidad de observación.
Consideremos el siguiente ejemplo:
Caso Sexo Lugar nacimiento Edad PAS
1 F J1 35 110
2 M J2 28 120 REGISTRO
3 M J2 59 136
OBSERVACIÓN
VARIABLE
Sexo, lugar nacimiento, edad, presión arterial sistólica son variables que describen a una persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que estas variables toman para esta persona.
Cuando se diseña una investigación, se intenta estudiar de qué modo una o más variables (variables independientes) afectan a una o más variables de interés (variables dependientes). Por ejemplo en un experimento, el investigador impone a los sujetoscondiciones (variable independiente) y estudia el efecto de la misma sobre una característica del sujeto (aparición de una cierta característica, modificación de una condición, etc.).
Un paso importante al comenzar a manejar un conjunto de datos es identificar cuántas variables se han registrado y cómo fueron registradas esas variables, lo que permitirá definir la estrategia de análisis. En el ejemplo anterior algunas de las variables son números y otras son letras que indican categorías. A continuación se presenta una clasificación de los distintos tipos de datos que podemos encontrar. Debe notarse que distintos autores usan distintos criterios para clasificar datos por lo que presentaremos aquí un criterio que resulta útil desde el punto de vista de seleccionar el método de análisis estadístico más apropiado para los mismos.

2.2 TIPOS DE DATOS
2.2.1 DATOS CATEGÓRICOS O CUALITATIVOS
Las variables categóricas resultan de registrar la presencia de un atributo.
Las categorías de una variable cualitativa deben ser definidas claramente durante la etapa de diseño de la investigación y deben ser mutuamente excluyentes y exhaustivas. Esto significa que cada unidad de observación debe ser clasificada sin ambigüedad en una y solo una de las categorías posibles y que existe una categoría para clasificar a todo individuo.
En este sentido, es importante contemplar todas las posibilidades cuando se construyen variables categóricas, incluyendo una categoría tal como No sabe / No contesta, o No registrado u Otras, que asegura que todos los individuos observados serán clasificados con el criterio que define la variable.
Los datos categóricos se clasifican en dicotómicos, nominales y ordinales.
a) Dos categorías (DICOTÓMICOS)
El individuo o la unidad de observación puede ser asignada a solo una de dos categorías.
En general, se trata de presencia - ausencia del atributo y es ventajoso asignar código 0 a la ausencia y 1 a la presencia.
Ejemplos:
1) varón – mujer
2) embarazada - no embarazada
3) fumador - no fumador
4) hipertenso – normotenso
Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categorías, mientras que 3) y 4) son simplificaciones de categorías más complejas. En 3) no está claro donde se asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte para armar una variable categórica a partir de una variable numérica.
b) Más de dos categorías
CATEGORÍAS NOMINALES No existe orden obvio entre las categorías.
Ejemplos: país de origen, estado civil, diagnóstico.
CATEGORÍAS ORDINALES Existe un orden natural entre las categorías.
Ejemplos:
1) Tabaquismo: No fuma / ex-fumador / fuma ≤ 10 cigarrillos diarios / fuma > 10 cigarrillos diarios
2) Severidad de la patología: Ausente / leve / moderado / severo.
Aun cuando los datos ordinales puedan ser codificados como números como en el caso de estadios de cáncer de mama de I a IV, no podemos decir que una paciente en el estadio IV Liliana Orellana Marzo 2001, 6 tiene un pronóstico dos veces más grave que una paciente en estadio II, ni que la diferencia
entre estadio I y II es la misma que entre estadio III y IV. En cambio, cuando se considera
la edad de una persona, 40 años es el doble de 20 y una diferencia de 1 año es la misma a través de todo el rango de valores.Por esta razón, debemos ser cuidadosos al tratar variables cualitativas, especialmente cuando se han codificado numéricamente, ya que no pueden ser analizadas como números sino que deben ser analizados como categorías. Es incorrecto presentar, por ejemplo, el estadio promedio de cáncer en un grupo de pacientes.
En la práctica clínica se usan escalas para definir grados de un síntoma o de una enfermedad, tales como 0, +, ++, +++. Es importante definir operativamente este tipo de variables y estudiar su confiabilidad de modo de asegurar que dos observadores puestos frente al mismo paciente, lo clasificarán en la misma categoría.
2.2.2 DATOS NUMÉRICOS
Una variable es numérica cuando el resultado de la observación o medición es un número.
Se clasifican en:
a) Discretos. La variable sólo puede tomar un cierto conjunto de valores posibles. En general, aparecen por conteo.
Ejemplo: número de miembros del hogar, número de intervenciones quirúrgicas, número de casos notificados de una cierta patología.
b) Continuos. Generalmente son el resultado de una medición que se expresa en unidades. Las mediciones pueden tomar teóricamente un conjunto infinito de valores posibles dentro de un rango. En la práctica los valores posibles de la variable están limitados por la precisión del método de medición o por el modo de registro.
Ejemplos: altura, peso, pH, nivel de colesterol en sangre.
La distinción entre Consideremos por ejemplo, la variable edad. Edad es continua, pero si se la registra en años resulta ser discreta. En estudios con adultos, en que la edad va de 20 a 70 años, por ejemplo, no hay problemas en tratarla como continua, ya que el número de valores posibles es muy grande. Pero en el caso de niños en edad preescolar, si la edad se registra en años debe tratarse como discreta, en tanto que si se la registra en meses puede tratarse como continua.
Del mismo modo, la variable número de pulsaciones/min. esuna variable discreta, pero se la trata como continua debido al gran número de valores posibles.
Los datos numéricos (discretos o continuos) pueden ser transformados en categóricos y ser tratados como tales. Aunque esto es correcto no necesariamente es eficiente y siempre es preferible registrar el valor numérico de la medición, ya que esto permite:
- Analizar la variable como numérica Análisis estadístico más simple y más potente.
- Armar nuevas categorías usando criterios diferentes. Liliana Orellana Marzo 2001, 7
Sólo en casos especiales es preferible registrar datos numéricos como categóricos, por ejemplo, cuando se sabe que la medición es poco precisa (número de cigarrillos diarios, número de tazas de café en una semana).datos discretos y continuos es importante para decidir qué método de análisis estadístico utilizar, ya que hay métodos que suponen que los datos son continuos.Chequeo de los datos (Consistencia)
Pueden producirse errores cuando se toman las mediciones, cuando se registran los datos originales (ejemplo en la historia clínica), cuando se transcribe de la fuente original a una planilla, o cuando se tipean los datos para armar la base.
Usualmente no podemos saber si los datos son correctos, pero deberíamos asegurar que son plausibles. Esta etapa corresponde a lograr la CONSISTENCIA del archivo. No esperamos solucionar todos los errores, pero esperamos detectar los errores más groseros. La consistencia de los datos intenta IDENTIFICAR y de ser posible RECTIFICAR errores en los datos.
El primer paso es chequear si el tipeo ha sido correcto. Cuando el archivo es pequeño se imprime y se controla. Cuando es grande, conviene tipearlo dos veces y comparar ambas versiones (EpiInfo lo hace con el procedimiento VALIDATE y produce un listado de diferencias).
Datos categóricos.
En este caso es simple chequear si todos los valores de la variable son plausibles, ya que hay un conjunto fijo de valores posibles para la variable. Ejemplo: Grupo sanguíneo: 0, A,, AB. Es suficiente con producir una tabla de frecuencias para cada variable categórica en la que se controla que las categorías coinciden con las categorías definidas. Algunos paquetes diferencias letras mayúsculas de minúsculas, por lo tanto consideran que la categoría “a” de grupo sanguíneo es diferente de la “A”. Es aconsejable hacer un listado de todas las tablas de frecuencia de las variables categóricas antes de comenzar con el análisis estadístico de los datos.

Datos numéricos.
Para cada variable debería proponerse el rango de valores esperado o posible. Ejemplo:
Edad materna al parto: 12 a 50 años, Presión arterial sistólica: 70 a 250 mg de Hg.
Un error frecuente es colocar mal la coma o el punto decimal. Valores fuera del rango esperado no necesariamente son incorrectos. Existen valores que son poco probables y valores que son imposibles, lamentablemente el límite entre ambos es difícil de definir.
Valores poco probables pero posibles deberían ser corregidos sólo cuando hay evidencia de error.
Cuando la base ha sido importada desde un programa (software) diferente al que se está usando es importante controlar que durante la exportación se haya respetado el tipo de variable. En particular, que las variables que originalmente estaban definidas como numéricas, no hayan sido transformadas a texto durante la transformación porque no se reconoce el indicador de símbolo decimal (coma, punto). Cuando la variable es de tipo texto no es posible realizar operaciones albegraicas con ella.
Chequeo lógico.
Hay cierta información que sólo se releva en ciertos casos. Por ejemplo, número de embarazos es relevante si sexo = femenino, pero para sexo = masculino, esta variable debería ser ‘. ‘ o “no corresponde”.
Los datos deben satisfacer los criterios de inclusión y exclusión del estudio. Ejemplo:
Estudio de agentes anti-hipertensivos, los pacientes que entran en el estudio deben tener valores de la presión arterial dentro de un cierto rango al ingreso.
Evaluar la consistencia de los datos es algo más complicado cuando existen valores de algunas variables que dependen de valores de otras variables. Existen combinaciones de valores de ciertas variables que son inaceptables, aún cuando cada una de ellas se encuentre dentro de límites razonables.
El investigador debe proponer chequeos lógicos que permitan detectar aberraciones en los datos. Ejemplos: es poco probable que un sujeto se ubique en el percentil 5 de presión diastólica y en el percentil 95 de presión sistólica, o es poco probable que un niño nacido
30 semanas de gestación pese 3800 g.
Cuando una variable se mide varias veces en la misma unidad de observación puede graficarse a lo largo del tiempo para ver si el comportamiento es acorde a lo esperado.
Capítulo 3. ESTADÍSTICA DESCRIPTIVA. GRÁFICOS.
La estadística descriptiva o análisis exploratorio de datos ofrece modos de presentar y evaluar las características principales de los datos a través de tablas, gráficos y medidas resúmenes. En este capítulo presentaremos formas simples de resumir y representar gráficamente conjuntos de datos.
El objetivo de construir gráficos es poder apreciar los datos como un todo e identificar sus características sobresalientes. El tipo de gráfico a seleccionar depende del tipo de variable que nos interese representar por esa razón distinguiremos en la presentación gráficos para variables categóricas y para variables numéricas.
3.1 PRESENTACIÓN DE DATOS CATEGÓRICOS
3.1.1 TABLA DE FRECUENCIA
El modo más simple de presentar datos categóricos es por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis que caen en cada una de las clases de la variable cualitativa.
Consideremos los casos de meningitis notificados durante el año 2000 al SI.NA.VE (Argentina) clasificados según tipo de meningitis.




 La primer y segunda columna de la Tabla 1 muestran las categorías de la variable (tipo de meningitis y la sigla correspondiente), la tercer columna presenta el número de casos de meningitis de cada tipo notificados, es decir la frecuencia o frecuencia absoluta, en tanto que la última columna presenta la frecuencia relativa o el porcentaje de casos notificados de cada tipo de meningitis. Por ejemplo, la frecuencia relativa de la categoría BSA se calcula del siguiente modo:

 La representación gráfica de una distribución de frecuencias puede realizarse a través de un gráfico de barras o de un gráfico de tortas. A continuación presentamos ambos métodos.
3.1.2 GRÁFICO DE BARRAS
Este gráfico es útil para representar datos categóricos nominales u ordinales. A cada categoría o clase de la variable se le asocia una barra cuya altura representa la frecuencia o la frecuencia relativa de esa clase. Las barras difieren sólo en altura, no en ancho. La escala en el eje horizontal es arbitraria y en general, las barras se dibujan equiespaciadas, por esta razón este tipo de gráfico sólo debe usarse para variables categóricas.
Es importante que el eje vertical comience en cero, de modo que no se exageren diferencias entre clases. En un gráfico de barras, así como en cualquier tipo de gráfico se debe indicar el número total de datos ya que el gráfico sólo muestra porcentajes o frecuencias relativas y la fuente de la que se obtuvieron los mismos.
Cuando se desea comparar dos o más distribuciones cualitativas, el modo más sencillo de representarción es el gráfico de barras combinadas. En la Figura 2 se presentan las distribuciones de casos notificados de meningitis en Argentina para los años 1999 y 2000.

3.1.3 GRÁFICO DE TORTAS
En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada categoría como una porción de un círculo, en la que el ángulo se correponde con la frecuencia relativa correspondiente. Como en todo gráfico es importante indicar el número total de sujetos. Esta representación gráfica es muy simple y permite comparar la distribución de una variable categórica en 2 o más grupos.
Las Figura 3 muestra los datos sobre meningitis presentados en la Figura 2.
Figura 3. Notificaciones de meningitis en la Argentina. 1999 y 2000. Fuente: SINAVE.
 ¿Cuál preferir: gráfico de barras o de tortas?
La información que brindan los dos tipos de gráficos es equivalente, sin embargo, el gráfico de barras resulta más natural para comparar las distribuciones de dos grupos, debido a que nuestro ojo percibe mejor diferencias en longitudes que en ángulos. Por otra parte, en el gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación
3.2.2 HISTOGRAMA
El histograma es el más conocido de los gráficos para resumir un conjunto de datos numéricos y petende responder a las mismas preguntas que un gráfico de tallo-hojas. Una virtud del gráfico de tallo-hojas es que retiene los valores de las observaciones, sin embargo, esta característica puede ser una desventaja para gran cantidad de datos.
Construir manualmente un histograma es más laborioso que construir un gráfico de tallohojas, pero la mayoría de los paquetes estadísticos producen histogramas.
Para construir un histograma es necesario previamente construir una tabla de frecuencias.
Tabla de frecuencia para datos numéricos.
A partir de una variable numérica es posible construir una distribución de frecuenciasclasificando los datos en clases o categorías definidas por el investigador.
Las clases o intervalos de clase de una tabla de frecuencias deben ser mutuamente excluyentes yexhaustivas, es decir, cada dato debe caer en una y sólo una clase y todos los datos deben tener una clase a la cual pertenecen.
¿Cómo construimos una tabla de frecuencias?
- Se divide el rango total de los datos en clases o intervalos, los que no necesariamente deben tener la misma longitud.
- Se cuenta el número de observaciones que cae en cada clase y se determna la frecuencia en cada clase. - Se calculan las frecuencias relativas, frecuencias acumuladas y frecuencias acumuladas relativas para cada intervalo.
Notación: frecuencia fi= número de casos que cae en el intervalo i-ésimofrecuencia relativa porcentual fri= (fi / n)100 = porcentaje de casos en el intervalo i-ésimofrecuencia acumulada fai = f1 + f2 + ... + fi = suma de las frecuencias desde la primer categoría hasta la categoría i-ésimafrecuencia acumulada relativa porcentual fari = (fai / n) 100 = suma de las frecuencias relativas desde la primer categoría hasta la categoría i-ésima .
La Tabla 4 muestra la tabla de frecuencias para los datos de tasas de neumonía cada 1000 habitantes presentados en la Tabla 2 (Año 2000, Argentina, Fuente: SINAVE). Se definieron intervalos de longitud igual a 1.



Construcción del histograma
a) Intervalos de clase todos de la misma longitud.
Se trazan dos ejes de coordenadas rectangulares. En el eje horizontal se representan los valores de la variable y en el eje vertical una medida de frecuencia (frecuencia absoluta, frecuencia relativa o frecuencia relativa porcentual. Indicamos en el eje horizontal los límites de los intervalos de clase. Asociamos a cada clase una columna cuya base cubre el intervalo de clase y cuya altura indica cuantos datos “caen” en une intervalo a través de la frecuencia o la frecuencia relativa de la clase. El gráfico se construye sin dejar espacio horizontal entre categorías, a menos que una clase esté vacía (es decir tenga altura cero).
La Figura 6 presenta dos histogramas para los datos de tasas de neumonía de la Tabla 2. El primero se construyó con intervalos de longitud unitaria, mientras que el segundo con intervalos de longitud dos.


















Bibliografía
Liliana orellano,marzo 2011, volumen 1, ESTADISTICA DESCRIPTIVA, cap. 1.


Subido por: Mario Alberto Zarco Lina

No hay comentarios:

Publicar un comentario