El rápido y sostenido incremento en el poder de cálculo de la computación desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la práctica de la ciencia estadística. Un gran número de paquetes estadísticos está ahora disponible para los investigadores. Estos paquetes facilitan en gran medida la realización de cálculos de estadísticos, pruebas de hipótesis, ajustes de modelos, manejo de grandes bases de datos, representaciones gráficas, entre otros.
Sin embargo, a pesar de su menor potencia, en muchas ocasiones se emplean hojas de cálculo, puesto que su uso parece más sencillo y la mayoría de las personas están familiarizadas con ellas y tienen instalado en su ordenador Microsoft Excel. Hay otras hojas de cálculo similares de software libre, como Calc de Open Office. También hay hojas de cálculo que se pueden trabajar en línea de manera cooperativa, como las disponibles en GoogleDocs. Para cálculos básicos y volúmenes de datos reducidos, las hojas de cálculo pueden ser la solución más rápida y sencilla.
Para grandes volúmenes de datos sí se suelen utilizar paquetes estadísticos, ya que suelen tener una capacidad mayor, hay muchos disponibles, que se diferencian según su potencia, su ‘amigabilidad’ hacia el usuario, si es software privado o libre, entre otros; se destacan a continuación algunos de ellos:
SPSS se desarrolló inicialmente para las ciencias sociales y ofrece un uso sencillo de las opciones, acceso rápido a datos y características de las variables, procedimientos de análisis y generación de gráficos. Es un programa con una interfaz gráfica de usuario amigable. Es el más popular en investigaciones sociológicas.
PSPP es una alternativa al SPSS y es de software libre. Funciona prácticamente igual, aunque con menores prestaciones; solo permite hacer análisis simples.
InfoStat es un programa estadístico que también guarda cierta semejanza con el SPSS. Tiene una interfaz avanzada para el manejo de datos. Pensado para trabajar con Windows, su versión estudiantil se puede descargar gratuitamente.
OpenStat es un programa de software libre para análisis de datos estadísticos creado para personas con recursos económicos reducidos por William G. Miller PhD. El programa es sumamente bueno, se pueden realizar casi todos los análisis estadísticos para trabajos investigativos y lo importante, que es libre de costo. Es relativamente fácil de operar una vez sean observados sus manuales y demostraciones por video. El mismo requiere de ciertos conocimientos sobre la estadística. Está constituido por una gran variedad de aplicaciones dentro del programa que te permiten tener una mejor representación de la data obtenida.
Los datos registrados en forma de notas tomadas durante una observación, las respuestas libres a preguntas abiertas, las transcripciones de entrevistas individuales o discusiones de grupo, los libros y los artículos periodísticos, entre otros, pueden ser procesados mediante el tratamiento cuantitativo.
El procedimiento interpretativo estándar comprende: reducción de los datos, selección de palabras claves, agrupamientos de frases en dimensiones, edición de categorías exhaustivas y codificación de categorías. El análisis se transforma en una cuantificación de códigos numéricos, el recuento de códigos y la obtención de distribuciones de frecuencias.
Análisis unidimensional. Principales estadísticos, tablas y gráficos
La estadística descriptiva pretende ayudar a analizar los datos originados a partir de la recolección de información, realizada por ejemplo mediante una encuesta. Tras una encuesta a 10 personas, ¿resulta factible o interesante revisar qué ha respondido cada uno de los sujetos a cada variable (o pregunta)? Sería muy poco práctico, y por eso utilizamos la estadística descriptiva, que nos ofrece diferentes estadísticos, tablas y gráficos para resumir y visualizar de manera sintética los resultados. A continuación, iremos conociendo algunos de ellos.
El análisis unidimensional, es cuando se estudian las variables una por una. Cuando se estudian dos variables a la vez (por ejemplo su relación), se habla de análisis bidimensional.
En el análisis unidimensional, a parte de conocer las frecuencias, bien en forma de porcentaje, en una tabla o en gráficos de barras o sectores, resulta apropiado, por tratarse del enfoque cuantitativo, analizar la variable desde las medidas de posición (como la media) y dispersión (como la desviación típica), representándolas mediante histogramas. Tanto o más importante que conocer cómo se calculan los distintos estadísticos tablas y representaciones, es ser capaz de seleccionarlos adecuadamente, en función del tipo de variable que se esté analizando (investigación cuantitativa).
Las frecuencias
La frecuencia es un estadístico que se refiere a la cantidad de veces que una variable toma un valor determinado.
Se puede expresar como un número (sale tantas veces) o como una proporción o porcentaje (sale en un tanto por ciento), es decir, como frecuencia absoluta o como frecuencia relativa. La frecuencia absoluta (ni) de un valor (Xi) expresa el número de observaciones en que la variable (X) toma ese determinado valor. En forma de pregunta: ¿Cuántas veces aparece ese valor? La frecuencia relativa (fi) de un valor (Xi) es la proporción de observaciones en que la variable (X) toma ese determinado valor. Se obtiene dividiendo la cantidad de veces que aparece el valor (frecuencia absoluta) entre el total de observaciones, es decir, el tamaño de la muestra ‘n’: fi=ni/n. En forma de pregunta: ¿En qué proporción aparece ese valor? Multiplicando la frecuencia relativa por 100, se obtiene el porcentaje o tanto por ciento (pi).
Representaciones gráficas de las frecuencias. La distribución
A la hora de analizar las frecuencias, puede ser interesante representar las tablas de una manera más visual, para lo que se dispone de diferentes tipos de representaciones gráficas. El diagrama de barras se suele utilizar para presentar las frecuencias de variables cualitativas. Para cada valor que puede tomar la variable, se construye una barra o columna de altura proporcional a la frecuencia con la que ha aparecido. Se puede hacer a partir de una tabla de frecuencias, tanto relativas o porcentuales como absolutas. Aunque no es muy común, se pueden usar también frecuencias acumuladas.
Las medidas de posición no dan excesiva información sobre cómo se distribuye la variable. Sirva de aclaratoria que donde dos distribuciones muy distintas comparten media y mediana, haría falta, además, alguna medida de la dispersión o variabilidad de los valores observados. Esta información la proporcionan las medidas de dispersión. Las más comunes son el rango, la desviación estándar y la varianza.
El rango es una medida sencilla e intuitiva, pues es la diferencia entre el mayor valor que toma la variable y el menor. Es una forma fácil de saber cuán dispersos están los datos, aunque no proporciona demasiada información.
Dado que la media es la medida de posición por excelencia, tiene sentido que haya otros parámetros que midan cuánto se desvían las observaciones respecto a la media: la varianza y la desviación estándar.
La varianza mide la distancia existente entre cada observación y la media. Para cada observación, se resta la media al valor observado (xi -x) y esa diferencia se eleva al cuadrado: (xi -x)2. Después de hacer esa operación para cada observación, se suma todo lo que se ha obtenido: Σ(xi -x)2. Para terminar se divide por el tamaño de la muestra ‘n’.
Así, la varianza de la variable X es: S2 = Σ(xi -x)2 / n
Mientras mayor es la varianza, mayor es la dispersión.
La desviación estándar es simplemente la raíz cuadrada de la varianza, y es la medida de dispersión de uso más generalizado en estadística, sobre todo porque es más conveniente para realizar ciertos cálculos y representaciones. Representa simplemente la distancia media entre los valores de las observaciones y la media de la variable. Cuanto mayor es la desviación estándar, más lejos están las observaciones de la media, y viceversa.
Además, se mide en las mismas unidades que la variable, por lo que es una de las medidas de variabilidad más utilizadas.
Su fórmula es parecida a la de la varianza:
S = √ S2 = √ [ Σ(xi -x)2 / n ]
Desde un punto de vista práctico, el uso de los software para análisis de datos cuantitativos trae consigo algunas consideraciones importantes que se deben tomar en cuenta para que la funcionalidad de los mismo resulte efectiva y exitosa.
Potencialidades:
· Permite un importantísimo ahorro de tiempo y esfuerzo, realizando en segundos un trabajo que requeriría horas e incluso días. Hace posible cálculos más exactos, evitando los redondeos y aproximaciones del cálculo manual.
· Permite trabajar con grandes cantidades y datos, utilizando muestras mayores e incluyendo más variables.
· Permite trasladar la atención desde las tareas mecánicas de cálculo a las tareas conceptuales: decisiones sobre el proceso, interpretación de resultados, análisis crítico.
Limitantes:
· El aprendizaje del manejo de paquetes de programas estadísticos requiere un cierto esfuerzo.
· A veces, la capacidad de cálculo del evaluador supera la capacidad para comprender el análisis realizado e interpretar los resultados.
· Lleva a veces a una sofisticación innecesaria, al permitir el empleo de técnicas complejas para responder a cuestiones simples.
En suma, y en base a la experiencia obtenida durante el desarrollo del planteamiento del trabajo de investigación, para el análisis de datos de la información levantada, se utilizó principalmente herramientas estadísticas informáticas como OpenStat (software libre), InfoStat versión 12 (modalidad gratuitita), SPSS versión 19 y Hoja de cálculo Exel de Microsoft office 2013.
Los datos fueron analizados por unidad temática indicando los criterios de estadística descriptiva como la frecuencia, la media, mediana, moda, desviación típica, entre otros. Es importante destacar que la muestra representativa a la aplicación de la encuesta lo conformaron 11 pobladores del área de estudio, seleccionados según los criterios establecidos previamente.
Los datos fueron analizados por unidad temática indicando los criterios de estadística descriptiva como la frecuencia, la media, mediana, moda, desviación típica, entre otros. Es importante destacar que la muestra representativa a la aplicación de la encuesta lo conformaron 11 pobladores del área de estudio, seleccionados según los criterios establecidos previamente.
Los resultados y análisis obtenidos al procesar los datos recolectados constituyen productos significativos relacionados con los objetivos planteados y por ende son considerados un valioso aporte a la investigación, todo ello fue concebido bajo los criterios mencionados anteriormente en cuanto a las potencialidades que otorgan los software para análisis de datos.