¿El análisis de datos se vuelve más complejo cuando hay más variables de control?
2. ¿Por qué se llaman variables de control? Imagine este escenario para explicar la relación entre la asistencia a escuelas intensivas y el rendimiento académico, no se puede simplemente buscar a dos personas para ver si asisten a escuelas intensivas y su rendimiento académico. A través de la comparación, encontramos que los estudiantes que asisten a escuelas intensivas tienen un mejor rendimiento académico, por lo que existe una correlación positiva entre asistir a escuelas intensivas y el rendimiento académico. Aquí hay muchos factores incontrolables, como que el estudiante que asistió a la escuela intensiva tuvo un mejor rendimiento académico, pasó más tiempo estudiando en casa y estuvo más atento en clase, etc. Por lo tanto, si quieres conocer la relación entre la escuela intensiva y el rendimiento académico, necesitas encontrar al menos dos compañeros que sean iguales o muy similares en otros aspectos, como el rendimiento académico inicial, la duración de los estudios en casa, los hábitos de estudio, etc. Estos factores son los mismos y luego puedes sacar la conclusión correcta comparando si asistes a una escuela intensiva. En este caso, el rendimiento académico inicial, la duración del estudio en casa y los hábitos de estudio son variables de control. No estamos interesados en estas variables per se. La razón por la que se incluyen en la ecuación de regresión es principalmente para "controlar" los factores faltantes que tienen un impacto en las variables explicadas y evitar sesgos en las variables faltantes, por lo que estas variables secundarias se denominan variables de control. Existe una buena respuesta sobre cómo se "controlan" las variables de control.
¿Cómo se “controlan” las variables de control?