1: Paquetes libres y comerciales
¿Qué es un Paquetes Estadístico?
Es un conjunto de programas informáticos para el análisis estadístico de datos, con el objetivo de dar solución a problemas de estadística, tanto descriptiva como inferencial, o ambas. Este conjunto de programas y subprogramas están todos interconectados, de modo que funcionan de forma conjunta, Con lo cual se puede decir que un paquete estadístico permite aplicar a un mismo fichero de datos un conjunto ilimitado de procedimientos estadísticos de manera sincronizada, sin salir del programa. De esta forma, la utilidad del conjunto integrado es mayor que la suma de las partes. En cierto modo, un paquete estadístico es similar a un paquete ofimático (por ejemplo, Office 97 de Microsoft).
En otras palabras, un programa estadístico es un producto de software que sirve para realizar tareas estadísticas; el cual se encarga de leer los datos, recibir las órdenes del usuario, y de esa manera, ejecutar el análisis de los datos. Los paquetes estadísticos actuales superan esas mínimas de manera que permiten
a) Crear nuevas variables
b) Seleccionar variables y sujetos
c) Reconocer y generar datos en ASCII
d) Añadir las variables creadas al archivo en uso
e) Varios formatos de integración programa-usuario
f) Controlar aspectos del entorno de trabajo
Dentro de los paquetes estadísticos más utilizados están:
A continuación, se describirán algunos de los de mayor uso:
A=SPSS (Statistical Package for The Social Sciences o Paquete Estadistico para la Ciencias Sociales):
Es un paquete Estadístico, de uso general, que integra procedimientos estadísticos y gráficos interactivos de alta resolución, de tal manera que sirve de apoyo al análisis de datos. Es útil entre otros aspectos para realizar análisis exploratorio desde el punto de vista gráfico, de igual manera se utiliza para realizar análisis estadístico simple y/o avanzado. El programa sirve para profundizar en temas como: Métodos Cuantitativos, Métodos de Investigación, Segmentación de Mercados, Finanzas, Inferencia Estadística, Análisis Multivariado, Pronósticos con series de Tiempo, Métodos Multivariados y otros más.
B=SAS (Statistical Analysis System):
Comprende amplias posibilidades de procedimientos estadísticos (métodos multivariados, regresión múltiple con posibilidades diagnósticas, análisis de supervivencia con riesgos proporcionales y regresión logística) y permite cálculos exactos para tablas (r x c) y contiene potentes posibilidades gráficas.
Todos los procedimientos pueden emplearse de una sola ejecución
· Los resultados pueden guardarse como archivos y usarse como entradas para
futuras ejecuciones.
· Es particularmente útil en la gestión de datos y en la redacción de informes
· Algunos procedimientos tienen varias opciones por lo cual debe examinarse
cuidadosamente el manual antes de seleccionar la opción deseada.
· SAS ofrece la mayor flexibilidad para personalizar el manejo y análisis de datos,
sin embargo su principal inconveniente es que no resulta fácil aprender a usarlo.
C= BMDP (Biomedical Computers Programs):
Es el más antiguo de los paquetes. El primer manual para BMD Biomedical Computers Programs se publicó en 1961.En 1975 pasó a denominarse BMDP. Cubre un amplio abanico de métodos estadísticos pero su capacidad para manejar datos es limitada, dentro de sus desventajas se puede mencionar: Sus programas se ejecutan por separado, solo puede accederse a uno de ellos en cada ejecución. Los resultados de cada programa se pueden guardar en un archivo de BMDP y utilizarse como entrada en otros programas.
D=STATISTICA:
Statistica (aunque la marca está registrada como STATISTICA, en mayúsculas) es un paquete estadístico usado en investigación, minería de datos y en el ámbito empresarial. Lo creó StatSoft, empresa que lo desarrolla y mantiene.
StatSoft nació en 1984 de un acuerdo entre un grupo de profesores universitarios y científicos.
Sus primeros productos fueron los programas PsychoStat-2 y PsychoStat-3. Después desarrolló Statistical Supplement for Lotus 1-2-3, un complemento para las hojas de cálculo de Lotus. Finalmente, en 1991, lanzó al mercado la primera versión de STATISTICA para MS-DOS.
Actualmente compite con otros paquetes estadísticos tanto propietarios, como SPSS, SAS, Matlab o Stata, como libres, como R.
El programa consta de varios módulos. El principal de ellos es el Base, que implementa las técnicas estadísticas más comunes. Éste puede completarse con otros módulos específicos tales como:
Advanced: técnicas multivariantes y modelos avanzados de regresión lineal y no lineal
QC: técnicas de control de calidad, análisis de procesos (distribuciones no normales,Gage R&R, Weibull) y diseño experimental
Data Miner: minería de datos, análisis predictivos y redes neurales
El paquete puede ser extendido a través de una interfaz con el lenguaje R. Además, se pueden modificar y añadir nuevas librerías usando el lenguaje NET.
E=MINITAB:
Es un programa de computadora diseñadopara ejecutar funciones estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecución de análisis estadísticos. En 1972, instructores del programa de análisis estadísticos de la Universidad Estatal de Pensilvania (Pennsylvania State University) desarrollaron MINITAB como una versión ligera de OMNITAB, un programa de análisis estadístico del Instituto Nacional de Estándares y Tecnología (NIST) de los Estados Unidos.
Este programa es un paquete estadístico que abarca todos los aspectos necesarios para el aprendizaje y la aplicación de la estadística en general. El programa incorpora opciones vinculadas a las principales técnicas de análisis estadísticos (análisis descriptivo, contrastes de hipótesis, regresión lineal y no lineal, series temporales, análisis de tiempos de fallo, control de calidad, análisis factorial, ANOVA, análisis cluster, etc), además de proporcionar un potente gráfico y de ofrecer total compatibilidad con los editores de texto, hojas de cálculo y bases de datos más usuales.
F=MATLAB:
Nace como una solución a la necesidad de mejores y más poderosas herramientas de cálculo para resolver problemas de cálculo complejos en los que es necesario aprovechas las amplias capacidades de proceso de datos de grandes computadores.
Éste es un entorno de computación y desarrollo de aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde se encuentren implicados elevados cálculos matemáticos y la visualización gráfica de los mismos. MATLAB integra análisis numérico, cálculo matricial, proceso de señal y visualización gráfica en un entorno completo donde los problemas y sus soluciones son expresados del mismo modo en que se escribirían tradicionalmente, sin necesidad de hacer uso de la programación tradicional.
G=R:
Es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o gráfico.
H=Past (Paleontological STatistics: Estadísticas Paleontológicas):
Past es el software libre para el análisis de datos científicos, con funciones de manipulación de datos, el trazado, estadísticas univariantes y multivariantes, análisis ecológico de series de tiempo y análisis espacial, morfometría y la estratigrafía.
Muchas de las funciones son específicas para paleontología y ecología, y no se encuentran en paquetes de análisis estadístico estándar, de carácter más amplio. PAST también incluye catorce ejemplos (archivos de datos y ejercicios) que ilustran el uso del programa en problemas paleontológicos, lo que lo convierte en un paquete educativo completo para asignaturas sobre métodos cuantitativos.
I=Open Stat:
Este paquete estadístico permite la manipulación de datos, cálculos estadísticos, financieros y económicos; además que cuenta con una interfaz similar a la de SPSS, genera gráficos sencillos de las distribuciones e histogramas y es capaz de trabajar con datos de diversos formatos (bin, tex, txt, s4u, entre otros)
2: Los archivos de datos:
Antes de hablar sobre los archivos de datos en sí, primero es necesario hablar sobre los distintos tipos de archivos de datos, para tener una mejor idea de los mismo, siendo estos los siguientes:Archivo de datos:
Conjunto de datos relacionados, estructurados y permanentes, agrupados por su homogeneidad y organizados con la mínima redundancia para ser usados en diversas aplicaciones.
Archivo de datos anonimizado o con control estadístico: Datos o estadísticas presentadas de manera tal que su contenido no permite la identificación del sujeto, sea físico o jurídico.
Archivo de datos con licencia:Archivos de datos que no contienen nombres ni identificaciones individuales, pero no han sido tratados para impedir la posible identificación de la unidad de estudio de forma indirecta, es decir, a partir de las características registradas. Por ello, su uso se restringe a investigadores, estudiantes universitarios, funcionarios de instituciones estatales, funcionarios de organismos y a usuarios de instituciones públicas debidamente autorizados por la institución que representan y cuya solicitud haya sido aprobada por el Comité de Divulgación del INEC.
Archivo de datos de uso público (AUP): Los AUP son archivos de microdatos para el uso público en general, fuera del INEC. Estos archivos son anónimos y pueden ser copiados de la página Web del INEC.
Archivo de datos innominado: Conjunto de datos a los cuales se les ha eliminado su variable llave o identificador único con tal de resguardar el principio de privacidad y seguridad de los datos. Este proceso se realiza para la entrega de microdatos a personas externas a la institución.
Autoridades estadísticas: Entidades responsables de producir y divulgar las estadísticas oficiales.
3: VARIABLES Y ATRIBUTOS
Los datos de atributos son la información utilizada para crear gráficos de control. Dichos datos se pueden utilizar para crear diferentes sistemas de gráficos; gráficas de conteo por unidad, gráficos de puntaje de calidad, gráficos que muestran la cantidad de unidades afectadas, e incluso gráficos de porcentaje.
Por su parte los datos variables vendrían siendo la información y figuras utilizadas para crear las tablas de control. Estos datos variables puede utilizarse para crear graficas de promedios, de rangos y ejemplos de graficas de desviación estándar.
Cuando se construye una gráfica de control para dar seguimiento de las variaciones en los datos que se miden, las empresas y los equipos deben recopilar datos de atributos y datos variables como parte del proceso de resolución de problemas.
Hoy vamos a conocer un poco más de las diferencias entre los datos de atributos y los datos variables para crear un proyecto de datos exitoso
Las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición.
Las variables, también llamadas caracteres cuantitativos, son aquellos valores que expresados mediante números que varían en una misma ecuación, ósea, que su valor varia dependiendo de cual sea su medición. Como por ejemplo, la estatura, el peso, el salario, la edad, entre otros.Según, Murray R. Spiegel, (1992) "una variable es un símbolo, tal como X, Y, Hx, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. Si la variable puede tomar solamente un valor, se llama constante."
Todos los elementos de la población poseen los mismos tipos de caracteres, pero como estos en general no suelen representarse con la misma intensidad, es obvio que las variables toman distintos valores. Por lo tanto, estos distintos números o medidas que toman los caracteres son los "valores de la variable". Todos ellos juntos constituyen una variable.
Los atributos, también llamados caracteres cualitativos, son aquellos que no son susceptibles de medición, es decir que no se pueden expresar mediante un número.
IUTIN (1997). "Reciben el nombre de variables cualitativas o atributos, aquellas características que pueden presentarse en individuos que constituyen un conjunto.
La forma de expresar los atributos es mediante palabras, por ejemplo; profesión, estado civil, sexo, nacionalidad, entre otros. Puede notar que los atributos no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades".
Datos de atributos vs datos variables:
Como ya se explico, los datos atributos se centran en los números, en clasificar cualitativamente los elementos para ser contados, mientras que los datos variables, se centran en la medición, en darle un valor numérico a los elementos dependiendo de su medida. Por ejemplo, supongamos que tienes datos sobre productos defectuosos que produce tu línea de ensamblaje; Los datos de atributo simplemente clasifican la salida como defectuosa o no defectuosa. Si se reúnen datos variables, se puede observar qué tan malo es cada producto defectuoso: 10 por ciento defectuoso, 20 por ciento defectuoso, y así sucesivamente.
Por ende, todo depende de la forma en que se necesiten mostrar los datos; Si quieres ver cuántos productos cumplen con tus estándares de calidad, los datos de atributos se pueden usar los datos atributo. Si deseas medir la calidad de cada producto, los datos variables son la mejor opción.
Ventajas de los datos de atributos:
Hay otras formas de clasificar los datos. Los datos que no se adaptan bien a los números, como el color o el sabor, se llaman datos cuantitativos, por ejemplo. Los datos de atributos son más sencillos de reunir que los datos cualitativos, por lo que es una buena opción si se trata de una condición binaria, en la que sólo hay dos alternativas:
-El producto funciona o no funciona.
-El vendedor cerró el trato o no lo hizo.
-Las piezas encajan en la ranura a la que se supone que pertenecen o no.
-Los estudiantes pasan la prueba o la fallan.
Puede recopilar los datos de atributos para ver qué tan bien se desempeñan tu proceso, equipo o personal. Si quiere que el 80 por ciento de tus estudiantes pasen sus exámenes finales, y sólo el 20 por ciento lo hace, eso muestra un problema. Habrá que determinar si se trata del cuerpo estudiantil, de los profesores o de algún otro problema. De ahí la importancia de hacer un análisis de datos.
Ventajas de los datos variables:
Los datos variables pueden decirte muchas cosas que los datos de atributos no hacen. Supongamos que estás probando nuevas vigas para usarlas en un proyecto de construcción. Los datos de atributos te dicen el porcentaje de vigas que soportan la carga que necesitas.
Los datos variables pueden decirte si una viga específica que pasa la prueba puede estar aún cerca de causar algún peligro. Si quiere saber qué tan mal están los estudiantes reprobaron un examen, los datos variables pueden darte la respuesta.
4: Importación y exportación de archivos de datos:
En el Panel de Control de cualquier programa, exportar una base de datos significa obtener una base de datos de origen en algún archivo para finalidades de almacenamiento o distribución. E Importar una base de datos significa restaurar los datos del archivo a una base de datos de destino. Se pueden importar una base de datos al mismo servidor de base de datos o bien a otro servidor. La única restricción es que la base de datos de destino debería ser del mismo tipo, por ejemplo, MySQL.Un motivo por el que puede desear exportar una base de datos es para realizar un backup de la misma. La exportación es la única opción posible para crear archivos de backup de bases de datos.Además, las bases de datos pueden copiarse junto con otros datos durante la creación de backups del servidor.
5: Manipulación de archivos de datos:
La manipulación o manejo de archivos es una disciplina que estudia el tratamiento adecuado en las organizaciones de ciertos activos de información denominados Archivos.Un Archivo es un activo de información, digital o en papel, que refleja la historia o memoria de la organización respecto a sus actividades. Ejemplos de estos activos son facturas, pedidos, documentos contables, actas, correo electrónico, etc.
Dichos activos se caracterizan por:
-No ser alterables una vez creados.
-Existen ciertas exigencias legalesy/o corporativas para que sean conservados durante un periodo mínimo de tiempo.
-Tienen valor para la organización.
La mayoría de los archivos tienen forma de documento, en papel o en formato digital, motivo por el que esta disciplina está íntimamente asociada a la de gestión documental.
Enfoque:
El manejo de archivos como política de OCHA es aplicable a todo personal en todo lugar:
Principios:
-Cada personal creará/capturará archivos completos y precisos de toda actividad relacionada con la oficina, con el objetivo de apoyar a la memoria institucional.
-Todo archivo creado o capturado y retenido de acuerdo al sistema (registros de correspondencia, correos electrónicos, OCHA Online, ReliefWeb, carpetas compartidas, etc.)
-Cada archivo debe mantener un nombre de archivo consistente.
-Cada archivo debe ser guardado de acuerdo al Calendario de Retención de OCHA en el formato original.
-Todo archivo vital debe ser identificado con consideración especial para su protección, en particular con planes de recuperación en desastres.
-Una estrategia de migración debe ser instituida para asegurar que los archivos siguen siendo accesibles en el futuro incluso a través de sistemas de software múltiples. Metadatos tales como otras políticas y procedimientos TIC deben tocar este punto.
-Después del establecimiento de una solución de archivos centrales, todo sistema existente y nuevo estará modificado/desarrollado para funcionar con esta solución.
-Prácticas Generales:
-Personal responsable manejará y archivará los archivos como sea requerido
-Todo personal agregará metadatos significativos a los documentos creados
-Todo sistema existente y nuevo automatizará funciones relacionadas a los metadatos y archivos
-Todo personal creará documentos índice y archivos de acuerdo a la estructura de índice preparado por OCHA
-Personal/unidades responsables revisarán de manera regular y actualizará los apéndices relevantes para mejores prácticas
-Todo archivo seguirá los Guías de Almacenamiento y Renovación Electrónica.
6: Manipulación de variables.
La manipulación de una variable es realizada por un experimentador, EL experimentador es quien posee cierto grado de control sobre una variable independiente. La variable es independiente cuando el experimentador puede manipular su valor como se esté lo desee.
Su valor o condición se puede cambiar o modificar en forma independiente a cualquier otra variable. Se supone que la variable independiente es la influencia causal.
Los manejos experimentales son las manipulaciones alternativas de la variable independiente investigada. Por ejemplo, los cambios de precios, los cambios en la estrategia publicitaria, formulación de sabores, etc., son manejos típicos.
La variable independiente es una variable categórica o de clasificación que representa algún aspecto clasificable o cualitativo de la estrategia o proceso objeto de estudio. Por ejemplo, para determinar los efectos de las exhibiciones en el lugar de la compra, los manejos experimentales que representan a la variable independiente son las exhibiciones que varían.
Una diferente alternativa de anuncio publicitario es otro ejemplo de una variable categórica o de clasificación. En otras situaciones, la variable independiente es una variable continua.
El investigador debe seleccionar los niveles apropiados de esa variable como manejos experimentales.
Conclusión
Los datos de variable vendrían siendo aquellos datos cuantitativos que se pueden expresar de forma numérica, y que se centra en la medición de los elementos, y que pueden utilizarse para crear graficas de promedio, de rangos, de desviación, tablas de control, etc. Mientras que los datos de atributo son aquellos que no están sujetos a medición, sino que son datos cualitativos que centran en clasificar los elementos por sus atributos para contar su cantidad, y suelen utilizar para sistemas de graficas de conteo por unidad, gráficos de puntaje de calidad, gráficos que muestren las cantidades de unidades afectadas, etc.
By: Yohan Ramos
7: Manipulación de datos.
Lenguaje de Manipulación de Datos es un lenguaje proporcionado por los sistemas gestores de bases de datos que permite a los usuarios de la misma llevar a cabo las tareas de consulta o modificación de los datos contenidos en las Bases de Datos del Sistema Gestor de Bases de Datos.El lenguaje de manipulación de datos más popular hoy en día es SQL, usado para recuperar y manipular datos en una base de datos relacional. Otros ejemplos de DML son los usados por bases de datos IMS/DL1, CODASYL u otras.
Conclusión:
El software estadístico nace desde los problemas reales o las oportunidades de reducir de costos, tiempo y esfuerzos. La potencialidad del software es facilitar tareas específicas y organizar una infraestructura de sistemas de información. La estadística es una ciencia aliada a la investigación científica.
By Omran Abdel Hay






0 Comentarios