CLASE 4
INTRODUCCIÓN A LOS
MODELOS MULTIVARIANTES
Gabriel Sotomayor
Abril 2024
OBJETIVO DE LA CLASE
Introducir el uso de modelos en ciencias sociales.
Recordar algunos conceptos estadísticos fundamentales.
¿POR QUÉ USAMOS MODELOS EN CIENCIAS
SOCIALES?
¿POR QUÉ USAMOS MODELOS EN CIENCIAS
SOCIALES?
Los modelos son formalismos lógicos o matemáticos que buscan describir la realidad.
Nos permiten simultáneamente capturar la complejidad de la realidad social (y los
datos con que contamos) y reducirla, de manera de hacerla inteligible: producir
conocimiento (vincular nuestros datos a un contexto teórico mayor).
Permiten:
Formalizar, dando precisión y permitiendo poner teorías a prueba.
Develar relaciones entre variables y mecanismo causales
Predecir
Simular
¿POR QUÉ USAMOS MODELOS EN CIENCIAS
SOCIALES?
Pensemos algunos ejemplos de relaciones sociales complejas que podemos
comprender a partir de modelos.
MODELOS EXPLORATORIOS Y
MODELOS CONFIRMATORIOS
Modelos Exploratorios: son utilizados para identificar patrones, relaciones o
agrupaciones entre variables sin hipótesis previas. Un ejemplo clásico es el análisis
de componentes principales (PCA), que reduce la dimensionalidad de los datos para
descubrir estructuras subyacentes. En este curso veremos análisis factorial
confirmatorio (AFE).
Modelos Confirmatorios: testean hipótesis específicas basadas en la teoría o
investigaciones previas, como el análisis de sendero o modelos de ecuaciones
estructurales. Estos modelos buscan confirmar la existencia de relaciones
teóricamente postuladas entre variables.
COVARIANZA Y CORRELACIÓN
MEDIDAS DE DISPERSIÓN
Describen la variabilidad de los datos de una distribución.
Varianza: es el promedio de las distancias de los casos al promedio, tomando en cuenta los
signos (eleva al cuadrado todas las distancias al promediarlas)
Desviación estándar: Es la raíz cuadrada de la varianza. Es la que mejor da cuenta de la
dispersión (es decir de las distancias de los casos al promedio)
-
COVARIANZA
La covarianza da cuenta del a variación conjunta de dos variables respecto de sus
medias.
Puede tomar valores positivos, dando cuenta de una relación directa (por ejemplo a
mayor educación, mayores ingresos) o valores negativos, dando cuenta de una
relación inversa (por ejemplo a menores horas de trabajo, mayor satisfacción con la
vida).
CORRELACIÓN
La correlación (correlación de Pearson) corresponde a un valor estandarizado de la
covarianza que puede tomar valores ente -1 y 1. La correlación se considera más
descriptiva que la covarianza debido a su naturaleza estandarizada, lo que permite
comparar la fuerza de la relación lineal entre diferentes pares de variables
independientemente de sus unidades de medida.
CORRELACIONES POLICÓRICAS Y TETRACÓRICAS
Las correlaciones policóricas y tetracóricas son estadísticosque se utilizan
específicamente para analizar la relación entre variables categóricas ordenadas y
binarias, respectivamente. Estas medidas de correlación son especialmente relevantes
en las ciencias sociales, donde a menudo las variables de interés no son continuas
sino que se expresan en categorías con un orden inherente o son dicotómicas.
En ambos casos se asume que detrás de estas variables hay variables latentes
continuas que están relacionadas linealmente.
Este enfoque es particularmente útil en cuestionarios o encuestas donde las
respuestas se dan en escalas Likert (por ejemplo, de "muy en desacuerdo" a "muy de
acuerdo").
INFERENCIA
¿PORQUÉ USAMOS MUESTRAS?
Usamos muestras porque nos permiten obtener datos representativos de una población a partir de una
selección aleatoria de casos, una muestra. Este proceso se llama estimación: la estimación de un
parámetro poblacional a partir de un estadístico muestral.
¿Porqué es esto posible?
Sabemos que la representatividad es posible, gracias a dos leyes estadísticas esenciales:
El teorema del límite central -> La distribución de medias muestrales extraídas de forma aleatoria de
una población, se aproxima a la distribución normal a medida que aumenta el tamaño de la muestra.
La ley de los grandes números -> la diferencia entre el estadístico muestral y el parámetro
poblacional tiende a 0 cuando el tamaño de la muestra tiende al infinito.
DISTRIBUCIONES MUESTRALES
A partir del Teorema del Límite central,
vimos que la media de las distintas
muestras que podemos extraer de una
población se distribuye de forma
normal, con muestras suficientemente
grandes (<50).
INTERVALOS DE CONFIANZA
Medias Proporciones
Estimación de punto: Puede ser útil cuando solo tenemos la media (o proporción) muestral y no contamos
con más información, sin embargo no sabemos la precisión (el error) de nuestra medición.
Estimación de Intervalo: Podemos calcularlo a partir de las propiedades de la distribución muestral de las
medias, usando los estadísticos muestrales como estimadores de los parámetros poblacionales para calcular
el error estándar.
Error estándar
PRUEBAS DE HIPÓTESIS
Una hipótesis estadística es una conjetura
acerca de un parámetro de la población.
Contrastar o probamos la hipótesis
formulada respecto de la población con la
información que obtenemos a partir de una
muestra.
Una prueba de hipótesis, es un
procedimiento estándar para probar una
aseveración acerca de una propiedad de la
población.
Se debe definir previamente la hipótesis
nula H0 y la hipótesis alternativa Ha.
Procedimiento similar en todas las pruebas
de hipótesis
Se calcula el estadístico en la muestra.
Se compara el estadístico con la
distribución que se daría si la hipótesis nula
fuese cierta.
Si el estadístico tiene un valor que, dada la
distribución de contraste, resulta muy
improbable, rechazamos la hipótesis nula.
Si el estadístico tiene un valor que, dada la
distribución de contraste, es probable, no
rechazamos la hipótesis nula.