1. ¿En qué circunstancias la variable antes de la regresión debe ser logarítmica?
Respuesta: Se pueden considerar las siguientes situaciones.
Si las variables del modelo teórico son logarítmicas, deberían serlo. Por ejemplo, en economía laboral, el determinante del rendimiento de la inversión en educación suele ser el logaritmo del salario como variable explicativa, tal como se deriva del modelo de Mincer.
En segundo lugar, si la variable tiene una tendencia de crecimiento exponencial, como el PIB, generalmente es logarítmica, lo que convierte al lnGDP en una tendencia de crecimiento lineal.
Nuevamente, si tomar el logaritmo puede mejorar la bondad de ajuste del modelo de regresión (como R2 o significancia), puedes considerar tomar el logaritmo.
En cuarto lugar, si desea interpretar el coeficiente de regresión como elasticidad o semielasticidad (es decir, cambio porcentual), puede tomar el logaritmo de la variable.
En quinto lugar, si no está claro si se debe tomar el logaritmo, ambos casos se pueden estimar como una prueba de robustez. Si los dos resultados de la regresión son similares, los resultados son sólidos.
2. ¿Cómo entender la importancia económica del coeficiente del término de interacción en el modelo de regresión lineal?
Respuesta: En un modelo de regresión lineal, si no hay términos no lineales como términos de interacción o términos cuadrados, el coeficiente de regresión de una variable representa el efecto marginal de la variable. Por ejemplo, considere la ecuación de regresión.
y = 1 + 2x + u
Donde u es el término de perturbación aleatoria. Es obvio que el efecto marginal de la variable X sobre Y es 2, es decir, si X aumenta en una unidad, Y aumentará en dos unidades en promedio. Considere agregar términos interactivos al modelo, por ejemplo
y = α + βx + γz + δxz+ u
donde x y z son variables explicativas y xz es su término de interacción (términos cruzados ). Debido a la existencia del término de interacción, el efecto marginal de X sobre Y es β + δz, lo que significa que el efecto marginal de El efecto marginal de Y aumentará a medida que Z aumente (por ejemplo, el producto marginal del trabajo depende positivamente sobre el capital); por otro lado, si δ es negativo, el efecto marginal de X sobre Y disminuirá a medida que z aumente.
3. Como se puede observar en algunas revistas, en el modelo de regresión se introducen variables de control. ¿Qué papel juegan las variables de control y cómo deben determinarse?
Respuesta: En la investigación, normalmente hay variables de interés principal y sus coeficientes se denominan "parámetros de interés". Sin embargo, si solo se hace la regresión de la variable principal de interés (regresión univariada en el caso extremo), es propenso al sesgo de variable omitida, es decir, la variable omitida está relacionada con la variable explicativa. El objetivo principal de agregar variables de control es tratar de evitar el sesgo de las variables omitidas, por lo que se deben incluir los principales factores que afectan la variable explicada Y (pero se permite omitir variables no relacionadas con la variable explicada).
4. Muchos documentos tienen una sección de "prueba de robustez". ¿Todo estudio empírico tiene que hacer esto? ¿Cómo funciona?
Respuesta: Si su artículo solo informa un resultado de regresión, será difícil que otros le crean. Por lo tanto, necesitamos hacer más regresiones, es decir, comprobaciones de robustez. Los artículos que no han sido probados rigurosamente son difíciles de publicar en buenas revistas porque no son convincentes. Los métodos de prueba de robustez incluyen transformar formas funcionales, dividir submuestras, utilizar diferentes métodos de medición, etc. Por favor consulte mi libro de texto. Más importante aún, extraemos lecciones de la literatura clásica en el mismo campo e imitamos sus pruebas de solidez.
5. ¿Es necesario considerar efectos fijos y efectos temporales en los datos de panel? ¿O puedo regresar directamente? He leído mucha literatura, alguna de la cual explica las razones para usar modelos de efectos fijos y otra devuelve directamente los resultados. ¿Cuál es el enfoque correcto?
Respuesta: La práctica estándar requiere la prueba de Hausman para elegir entre efectos fijos y efectos aleatorios. Sin embargo, dado que los efectos fijos son universales y los modelos de efectos fijos siempre son consistentes (los modelos de efectos aleatorios pueden ser inconsistentes), algunos investigadores estiman los efectos fijos directamente.
También se consideran los efectos del tiempo, como agregar variables ficticias de tiempo o términos de tendencia de tiempo, a menos que después de las pruebas se encuentre que no hay efecto de tiempo; Si no tiene en cuenta los efectos del tiempo, es posible que sus resultados no sean creíbles (tal vez X e Y solo estén correlacionados porque ambos aumentan con el tiempo).
6. ¿Cómo decidir si utilizar mínimos cuadrados de dos etapas (2SLS) o estimación de momento generalizada (GMM)?
Respuesta: Si el modelo se identifica con precisión (es decir, el número de variables instrumentales es igual al número de variables endógenas), GMM es completamente equivalente a 2SLS, por lo que 2SLS es suficiente. En el caso de sobreidentificación (más variables instrumentales que variables endógenas), GMM tiene la ventaja de ser más eficiente que 2SL en el caso de heterocedasticidad. Debido a que hay un poco de heteroscedasticidad en los datos, el GMM se utiliza generalmente en casos de sobreidentificación.
7. En datos de panel, la variable X de interés no cambia con el tiempo. ¿Podemos estimar únicamente efectos aleatorios (si se utilizan efectos fijos, eliminar la variable clave X que no cambia con el tiempo)?
Respuesta: Generalmente es mejor usar un modelo de efectos fijos (por supuesto, se puede realizar una prueba interna formal para determinar si se usa un modelo de efectos fijos o un modelo de efectos aleatorios). Si se utilizan efectos fijos, hay dos soluciones posibles:
(1) Si se utiliza el sistema GMM para estimar un modelo de panel dinámico, se pueden estimar los coeficientes de la variable x invariante en el tiempo.
(2) Cuando usamos el modelo de efecto de mirada de panel estático, podemos introducir el término de interacción entre una variable X invariante en el tiempo y una variable Z variable en el tiempo, y usar el término de interacción xz (variable en el tiempo ) como variable explicativa clave.