1) Análisis descriptivo de datos
¿Qué es el análisis descriptivo?
Uno de los enfoques para el estudio y análisis de los estudios que se extraen de métodos estadísticos es el del análisis descriptivo. Un tipo de aproximación con el que se analizan los datos procediendo a su descripción y sin una hipótesis previa que deba ser o no falseada.Análisis descriptivo en estadística:
La estadística es la disciplina encargada de estudiar el comportamiento de entidades e individuos, ya se trate de observar grupos sociales o conjuntos de datos científicos.En el caso de la estadística de análisis descriptivo, este tipo de metodología proporciona un enfoque por el que se confecciona un resumen de información que dan los datos de una muestra. Es decir, su meta es hacer síntesis de la información para arrojar precisión, sencillez y aclarar y ordenar los datos.
Por ejemplo, el censo de las personas que acudieron al hospital en un año o un mes determinado es análisis descriptivo. Después de recoger los datos, éstos se presentarán a través de gráficas o infografías describiéndolos.
¿Cuál es el objetivo del análisis descriptivo?
- Recolectar y ordenar la información por medio de gráficas y medios visuales.
- Extraer las características más representativas de una colección de datos.
- Describir tendencias.
Análisis descriptivo: claves e inconvenientes
- Es un método expansivo que ahonda de manera muy amplia
los sucesos.
- Supone un método preciso para recoger información y
proceder posteriormente a describir las relaciones que se dan entre los
datos.
- Gracias a este análisis quien investiga puede acercarse
a comprender un problema o fenómeno. Se pueden averiguar rasgos de la
población usando información cuantitativa y también cualitativa.
- Al llevarse a cabo encuestas como método de recolección
de datos hay que tener en cuenta que las personas encuestadas pueden dar
respuestas poco veraces, repercutiendo en la calidad del propio análisis.
- Para obtener los datos que se necesitan el diseño de la
encuesta debe ser apropiado y ajustado al objetivo.
- Existe el peligro de que aparezca un sesgo en la
investigación debido a la tendencia a validar datos esperados y descartar
los que no cuadran con el diseño previo del estudio. Hay que encontrar la
manera de incorporar estos datos al análisis, aunque abran nuevas
preguntas que resolver.
- Hay que evitar generalizar y construir las conclusiones basándose en un caso descrito.
Conclusión
2) Variables nominales:
Una variable nominal es un tipo de variable estadística de tipo cualitativo que expresa con nombre una cualidad no necesariamente ordenable.
Dentro de las variables estadísticas podemos encontrarnos, por norma general, dos grandes tipos: cualitativas y cuantitativas.
Así pues, dentro de las variables cualitativas nos encontramos con las nominales. Las cuales, aunque se expresan también con un nombre, se diferencian de las ordinales, en que no necesariamente llevan un orden. Por ejemplo, decir que Juan tiene los ojos verdes, es el caso de una variable nominal. Si tuviéramos una población, ¿cómo podríamos ordenar los colores? ¿De mayor a menor? Salvo que establezcamos una medida, por norma general, no podemos ordenar diferentes colores.
Ejemplo de variables nominales:
A continuación, tenemos varios ejemplos de variables nominativas:
- Nacionalidad. Por ejemplo, mexicano, argentino y español.
- Sexo.
Hombre o mujer.
- Religión.
Las diferentes religiones.
- Color de piel, de ojos o pelo.
- Ideología económica.
Capitalismo, socialismo, economía mixta, etc.
- Ideología política. Según el diagrama de Nolan tendríamos conservador, progresista, centro, liberal y totalitario.
Estudiantes de una clase:
Imaginemos que estamos en una clase en la que hay 10 alumnos. Queremos saber cuántos hombres hay y cuántas mujeres hay para conocer la distribución porcentual. Así pues, tenemos la siguiente tabla:Sector de un conjunto de empresas:
Mas ejemplos sobre las variables nominales:
Conclusión:
En resumen, son tipo de variable cualitativa que se usa en la estadística para expresar características o cualidades de un elemento en concreto, que, a diferencia de las cuantitativas, no pueden ordenarse, como por ejemplo, la nacionalidad, el sexo, las ideologías, etc., son factores que, aunque pueden contarse para decir cuantos elementos poseen estas características, no pueden enumerarse.3) Variables ordinales:
Una variable ordinal es un tipo de variable estadística de tipo cualitativo que expresa con palabras una cualidad de naturaleza ordenable.Es decir, una variable ordinal es una variable que puede ser ordenada. Así, si decimos que en una carrera de 100 metros lisos Andrés quedó primero, José segundo y Pablo tercero. Esa posición es ordenable, se puede ordenar de mayor a menor o de menor a mayor. Es decir, de forma descendente o ascendente.
De manera que, en referencia a las variables cualitativas nos encontramos con las ordinales. Las variables ordinales, a diferencia de las nominales, sí pueden ser ordenadas de forma jerárquica. Otro ejemplo, en este sentido, podría ser que una lesión es leve, moderada o grave. La variable es la gravedad de la lesión y se puede ordenar en función de la gravedad. En caso de que no sea posible ordenarlo de forma jerárquica estaríamos hablando de una variable nominal.
Ejemplo de variables ordinales:
En lo que sigue vamos a ver varios ejemplos de variables ordinales:
- Calificación crediticia. Este será mejor cuanto mayor sea la solvencia según la agencia de calificación.
- Nota de una prueba. Por ejemplo, un examen que se califica como suspenso, aprobado, notable, sobresaliente y matrícula de honor.
- Posición en una carrera deportiva. Primero, segundo, tercero, cuarto, etc.
- Satisfacción con un servicio al cliente. Muy insatisfecho, insatisfecho, neutro, satisfecho y muy satisfecho.
Notas del examen de economía:
Un conjunto de 10 alumnos realizó una prueba sobre conceptos de economía hace una semana y las calificaciones fueron las siguientes:
Satisfacción de los clientes de una compañía telefónica respecto al
servicio al cliente:
Mas ejemplos de variables ordinales:
Otra forma de entender las variables cuantitativas es como aquellas que pueden ser medibles. Así pues, es posible ordenarlas de mayor a menor (o viceversa) y realizar operaciones matemáticas.
Diferencia entre variable cualitativa y cuantitativa:
La principal diferencia entre variable cualitativa y cuantitativa es que la primera representa una cualidad del sujeto u objeto que puede expresarse mediante palabras. En cambio, la segunda se expresa únicamente con números.
Dicho esto, conviene aclarar que a las variables cualitativas también se les puede asignar un valor. Por ejemplo, imaginemos una base de datos en la que a las personas nacionales se les asigna, para su clasificación, el número 1, mientras que, a los extranjeros, por el mismo motivo, se les asigna el número O. No obstante, pese a ello, esto no quiere decir que la variable es cuantitativa, pues no se trata de una variable medible.
Cabe señalar, además, que las
variables cuantitativas son específicas o exactas. Esto, a diferencia de las
variables cualitativas que tienden a ser más relativas.
Por ejemplo, el peso de una maleta
puede ser de 23,5 kg. Este es un valor exacto. Sin embargo, una variable
cualitativa podría ser el nivel de satisfacción del servicio en un restaurante,
donde se puede pedir una calificación del 1 al 5. No obstante, seguirá siendo
una variable cualitativa y la forma de medirla será más inexacta que en el
ejemplo de la maleta. Una persona podría dudar si poner una calificación de 3 o
4 si su nivel de satisfacción fue moderado.
Tipos de variables cuantitativas:
Los tipos de variables cuantitativas son los siguientes:- Variables discretas:
Son aquellas que toman, solamente, determinados valores y no cualquier
valor que se encuentre entre dos de ellos. Por ejemplo, cuando una
variable solo puede tomar valores enteros es discreta. Imaginemos el
número de coches que posee una persona. Un individuo no puede tener un
coche y medio.
- Variables continuas: Son aquellas que pueden tomar cualquier valor. Habitualmente, esto quiere decir que puede tomar valores que no son enteros. Por ejemplo, el peso de una bolsa de arroz puede ser de 1,25 kg.
Ejemplos de variable cuantitativa:
Un ejemplo de variable cuantitativa
puede ser la remuneración de los empleados de una empresa. Esta puede ir desde
1.500 hasta 10.000 dólares mensuales.
Con los datos de estas remuneraciones se pueden calcular indicadores como la media, mediana y moda. Incluso, se puede hacer una comparación con otras empresas del sector.
Además de esto, también se puede analizar cómo han ido variando a lo largo del tiempo los sueldos de la empresa. A su vez, es posible calcular el peso relativo de las remuneraciones dentro de los costes de la empresa, y así ver la importancia de estos.
5) Gráfico de barra, de sector e histogramas
Gráficos de barra de sectores:
En otras palabras, un diagrama de sectores o gráfico sectorial es un gráfico que representa las categorías de la variable en ángulos de una circunferencia.
Fórmula del diagrama de sectores:
Esta fórmula devuelve el ángulo que tendrá cada sector en función de su frecuencia absoluta (ni) y el total de observaciones de la muestra (N). El 360 estará siempre en la fórmula y no variará porque es necesario para que el diagrama de sectores tenga una forma circular.
Se divide el total de grados disponibles de la circunferencia con el total de observaciones y se multiplica por cada una de las frecuencias absolutas. Es importante destacar que la frecuencia absoluta lleva consigo el subíndice i para indicar que es una secuencia de elementos y no solo un valor en concreto. Entonces, se destina un sector para cada categoría de la variable.
Se llama sector a cada parte que divide el gráfico. El siguiente gráfico está compuesto por 3 sectores ya que hay 3 particiones:
- Cuantas másparticiones tenga el gráfico, máspequeño
será el ángulo del sector.
- Cuantas menosparticiones tenga el gráfico, másgrande
será el ángulo del sector.
Características de un gráfico sectorial o diagrama de sectores:
Si no recordamos qué aspecto tiene un diagrama de sectores, podemos compararlo con un queso:- Un diagrama de sectores tendrá siempre forma circular ya que la fórmula para calcular los sectores lleva implícita la circunferencia. Esto lo vemos con el 360 de la fórmula. Si el gráfico de sectores no fuera una circunferencia, no aparecería el 360 en la fórmula.
- El queso, al igual que el diagrama de sectores, lo podemos dividir en las partes que deseamos.
Ventajas y desventajas del diagrama de sectores:
Las principales ventajas del diagrama de sectores son las siguientes
Ventajas del diagrama de sectores:
- Muy visual, pues este tipo de gráfico es excelente para representar variables que estén fraccionadas en múltiples categorías.
- Rápida construcción, ya que el diagrama de sectores es un gráfico muy fácil de construir digitalmente ya que el propio ordenador ya calcula qué porción del total debe asignarse a cada categoría.
Desventajas del diagrama de sectores:
- Solo se puede usar con datos estáticos, es decir, datos que no pertenezcan a una serie temporal. En este caso se tendría que emplear un gráfico de línea o de columnas o barras.
- Si la variable está fraccionada en muchas categorías puede que la lectura del gráfico se haga difícil y pierda su utilidad.
Ejemplo de diagrama de sectores:
- Variable: número de ciclistas en las carreteras.
- Categorías de la variable: algunos meses del año (Abril – Mayo – Junio – Julio – Agosto – Setiembre).
Mirando la tabla se puede deducir que el mes de agosto es el mes con más ciclistas en las carreteras. Pero si observamos el gráfico de sectores, veremos que es mucho más fácil identificar el mes con más ciclistas: es la porción más grande.
Histogramas:
El histograma es la representación gráfica de un grupo de datos estadísticos. Estos, agrupados en intervalos numéricos o en función de valores absolutos.El histograma es entonces un gráfico que permite mostrar cómo se distribuyen los datos de una muestra estadística o de una población. Esto, respecto a alguna variable numérica.
En el histograma se suelen usar barras, cuya altura dependerá de la frecuencia de los datos, que corresponde al eje Y. En tanto, en el eje X podemos observar la variable de estudio.
Para esto, debemos recordar que en estadística la frecuencia es la cantidad de veces que se repite un suceso. Por ejemplo, si queremos agrupar a un colectivo en función de la edad, la frecuencia sería el número de individuos que tienen, por ejemplo, entre 18 y 25 años.
Ejemplo de histograma:
Características de un histograma:
Cabe señalar que el histograma se construye cuando la variable de estudio (la del eje horizontal) es cuantitativa. En cambio, si fuera cualitativa, se elaboraría de preferencia un diagrama de barras o un gráfico circular.
Debemos tomar en cuenta además que la variable de estudio u observación no necesariamente es continua, como el peso o la altura. Así, puede ser, como en el caso de la edad, que solo toma valores enteros (No se suele decir que alguien tiene 1,5 años).
Otro punto a considerar es que la variable del eje X puede estar presentada en rangos, pero también como valores fijos. Es decir, puede ser que un grupo de personas estén agrupadas en función del número de comidas que llevan al día: 1, 2, 3, 4 o 5.
6) Análisis exploratorios de datos
El análisis exploratorio de datos es un proceso de investigación en el que se usan estadísticas de resumen y herramientas gráficas para llegar a conocer los datos y comprender lo que se puede averiguar de ellos.
Con el EDA, se pueden hallar anomalías en los datos, como valores atípicos u observaciones inusuales, revelar patrones, comprender posibles relaciones entre variables y generar preguntas o hipótesis interesantes que se pueden comprobar más adelante mediante métodos estadísticos más formales.
El análisis exploratorio de datos es como el trabajo detectivesco: se buscan claves y pistas que puedan conducir a la identificación de las posibles causas de origen del problema que se intenta resolver. Se exploran las variables de una en una, luego de dos en dos, y luego muchas variables a la vez.
Aunque el EDA abarca tablas de resúmenes estadísticos como la media y la desviación estándar, la mayor parte de las personas se centran en los gráficos. Se utiliza una variedad de gráficos y herramientas exploratorias, y se va allá donde se dirijan los datos. Si un gráfico o análisis no es informativo, mire los datos desde otra perspectiva.
Como el EDA implica explorar, es un proceso iterativo. Lo más probable es que se averigüen diferentes aspectos sobre los datos a partir de diferentes gráficos. Los objetivos típicos son comprender:
- La distribución de variables en su conjunto de datos. Esto es, ¿cuál es la forma de sus datos? ¿Está sesgada la distribución? ¿Tiene forma de montículo? ¿Es bimodal?
- Las relaciones entres variables.
- Si sus datos tienen o no valores atípicos o puntos inusuales puede indicar problemas de calidad de los datos o conducir a descubrimientos interesantes.
- Si sus datos tienen o no patrones temporales.
¿Cuándo debo utilizarlo?
El análisis exploratorio de datos es
una potente herramienta para explorar un conjunto de datos. Incluso cuando su
objetivo es efectuar análisis planificados, el EDA puede utilizarse
para limpiar datos, para análisis de subgrupos o simplemente para comprender
mejor los datos. Un paso inicial importante en cualquier análisis de
datos es representar los datos gráficamente.
¿Para qué hacer un análisis tipo exploratorio?
Estas son algunas de las utilidades
de un análisis exploratorio:
- Para comprobar si hay datos que faltan y otros errores.
- Obtener la máxima información sobre el conjunto de
datos y su estructura subyacente.
- Descubrir un modelo que explique los datos con un
número mínimo de variables predictoras.
- Comprobar los supuestos asociados a cualquier ajuste
del modelo o prueba de hipótesis.
- Crear una lista de valores atípicos u otras anomalías.
- Encontrar las estimaciones de los parámetros y sus
intervalos de confianza o márgenes de error asociados.
- Identificar las variables más influyentes.
Métodos para realizar un análisis exploratorio de datos:
Los métodos para realizar un análisis exploratorio suelen dividirse en métodos gráficos o no gráficos y métodos univariantes o multivariantes. Se basan en gran medida en las imágenes, que los analistas utilizan para buscar patrones, valores atípicos, tendencias y resultados inesperados.El análisis exploratorio de datos gráfico emplea herramientas visuales para mostrar los datos, como por ejemplo:
Mapas de calor: visualización de datos que utiliza colores para comparar y contrastar números en un conjunto de datos; también se conoce como matrices de sombreado.
Aquí más de las características de un gráfico de mapa de calor.
Histogramas: Un histogramas es un gráfico de barras que agrupa números en una serie de intervalos, especialmente cuando hay una variable infinita, como los pesos y las medidas.
Gráfica de líneas: Uno de los tipos más básicos de gráficos que traza puntos de datos en un gráfico; tiene una gran cantidad de usos en casi todos los campos de estudio. Aquí más de las características de una gráfica de líneas.
Pictogramas: sustituyen los números por imágenes para explicar visualmente los datos. Son habituales en el diseño de infografías, así como en los elementos visuales que los científicos de datos pueden utilizar para explicar hallazgos complejos a los profesionales que no son científicos de datos y al público.
Diagramas de dispersión o scatterplots: Suelen utilizarse para mostrar dos variables en un conjunto de datos y luego buscar correlaciones entre ellos. Conoce más de las gráficas de dispersión.Conclusión:
La información cualitativa es
importante como la cuantitativa para ofrecer una perspectiva amplia del objeto de
estudio. Los reportes estadísticos deben contar con ambos tipos de información,
una simple cifra no siempre alcanza a explicar si un impacto es positivo o
negativo.
Utilizar
software estadístico mejorará el enfoque estratégico para la planificación de los
avances tecnológicos. No solo es atractivo por la eficiencia de reducir costes,
sino también por las nuevas capacidades empresariales y hasta sociales que
resultan de un cambio evolutivo.
Toda
gestión de calidad de los procesos debe enfocarse en obtener resultados para la satisfacción de las personas y a su vez el
mejoramiento social en sí. El perfeccionamiento de la capacidad de competir se
consigue desarrollando nuevas capacidades y cualidades. Los softwares analíticos aceleran el potencial de innovación teniendo en cuenta los aspectos
que deben cambiar y cuales se deben mantener, además conocer la información
antes de lo previsto permite adaptarse a ciertas situaciones que puedan llegar
a suceder o que están sucediendo.
By: Omran Abdel Hay





















0 Comentarios