Diferença-em-Diferenca - Avanços Recentes (Parte 1)

Introdução

20% dos artigos da American Economic Review entre 2010 e 2012 estimam o efeito tratamento utilizando regressões com efeitos fixos de período e grupo (Chaisemartin and D’Haultfoeuille 2020) na forma da equação:

\[ Y_{g,t} = \lambda_g + \lambda_t + \beta D_{g,t}+\epsilon_{g,t} \]

Na literatura, essa abordagem é comumente chamada de Two-Way Fixed Effects (TWFE) e quando a hipótese da tendências paralelas é válida e o efeito tratamento (ET) de todas as unidades é uma constante \(\delta\), então podemos assumir que \(\beta = \delta\).

Contudo, é muito improvável que o efeito tratamento seja constante para a maior parte dos cenários de pesquisa imaginados. Nesta situação de ET heterogêneos, o \(\beta\) de TWFE se torna potencialmente inválido.

Nos últimos anos, surgiram uma enxurrada de artigos que discutem este problema e apresentam diferentes soluções para o problema. Entre eles o artigo de Two-Way Fixed Effects Estimators with Heterogeneous Treatment Effects de Chaisemartin and D’Haultfoeuille (2020). No paper, os autores mostram como o estimador de TWFE nestes casos é uma soma ponderada de efeitos tratamentos para cada grupo e período, e que alguns dos pesos são negativos. Em casos extremos, o coeficiente estimado por TWFE poderia ser negativo mesmo quando todos os efeitos tratamentos médios individuais fossem positivos.

Os autores propõem um estimador que potencialmente corrige esses problemas. Este estimador está implementado tanto no Stata quando no R (no pacote DIDmultiplegt).

Os autores argumentam que se não assumirmos efeito tratamento constante, o coeficiente obtido por meio do TWFE deve representar uma soma ponderada dos vários efeitos tratamentos médios (EFT):

\[\beta = E \left[ \sum_{g,t} W_{g,t} TE_{g,t} \right]\]

onde \(W_{g,t}\) são pesos que devem somar a unidade e \(TE\) é o efeito tratamento no grupo \(g\) e no período \(t\). Estes pesos \(W_{g,t}\) são diferentes da proporção de unidades na célula \((g,t)\) específica, o que torna este \(\beta\) diferente do efeito tratamento médio (ETM).

E mais preocupante, algum desses pesos são negativos. De modo que \(\beta\) pode ser estritamente negativo mesmo quando todos os \(TE_{g,t}\) são positivos.

Exemplo: Se \(ET_1 = 1\) e \(ET_2 = 3\) e seus pesos forem \(W_1 = 2\) e \(W_2 = -1\), teriamos:

\[\beta = 2 \times 1 - 1 \times 3 = -1\] # Exemplo da Presença de Pesos Negativos

Como robustez é importante computar os pesos ligados ao \(\beta\) estimado. Se todos os pesos ou a maioria deles for maior que zero, não haveria maiores problemas em continuar estimando o TWFE; mas se muitos pesos forem menores que zero, então pode existir a preocupação de que o efeito tratamento pode ser heterogêneo entre grupos e períodos.

Para demonstrar a presença de pesos negativos, os autores utilizam dados de Vella and Verbeek (1998), que contém informações para 4360 indivíduos durante os anos de 1980 e 1987. No artigo original, os autores estavam interessados em investigar se jovens trabalhadores ganhavam um premium salarial por estarem sindicalizados.

Para estimar os pesos, vamos utilizar a função twowayfeweights presente no pacote TwoWayFEWeights do R:

# devtools::install_github("shuo-zhang-ucsb/twowayfeweights")

needs::needs(wooldridge, TwoWayFEWeights, tidyverse)

Y = "lwage"
G = "nr"
T = "year"
D = "union"
controls = c("hours")
weights <- twowayfeweights(wagepan, Y, G, T, D, 
                           cmd_type = "feTR", controls = controls)
## [1] "Under the common trends assumption, "
## [1] "beta estimates a weighted sum of 1064 ATTs."
## [1] "875 ATT receive a positive weight, and 189 receive a negative weight."
## [1] "The sum of the positive weights is equal to 1.005601."
## [1] "The sum of the negative weights is equal to -0.005601."
## [1] "beta is compatible with a DGP where the average of those ATT is equal to 0,"
## [1] "while their standard deviation is equal to 0.087235."
## [1] "beta is compatible with a DGP where those ATT all are of a different sign than beta,"
## [1] "while their standard deviation is equal to 4.413974."
weights |>  
  arrange(desc(weight)) |>  
  mutate(weight_negative = ifelse(weight < 0, "Sim", "Não")) |> 
  group_by(weight_negative) |>
  summarise(n = n()) |> 
  #head() |>  
  knitr::kable(col.names = c("Pesos Negativos?", "N"))
Pesos Negativos?N
Não4171
Sim189

A tabela acima apresenta os pesos estimados. Percebemos que dos efeitos tratamentos sobre o tratado (ETT) estimados, 189 possuem pesos negativos, um número considerável, e que pode levar a preocupações sobre as estimativas obtidas na época.

De onde vem estes pesos negativos?

Segundo os autores, estes pesos negativos nasceriam da presença de heterogeneidades no ET entre grupos e entre períodos. Especificamente, elas surgiriam a partir de dois tipos de comparações proibidas/indesejadas/impróprias feitas pelo estimador de TWFE. Vamos analisa-las uma a uma:

Problema 1: \(\beta\) usa unidades tratadas como controles

Vamos assumir que o tratamento é binário e o tratamento das unidades seja escalonado no tempo1, o chamado design staggered (\(D_{g,t} \geq D_{g,t-1}\)). Neste caso, o \(\beta\) será a média ponderada de dois tipos de comparações:

  1. \(DID_1\): Comparação da evolução dos outcomes de unidades tratadas em \(t\) contra unidades nunca tratadas. Essa comparação não apresenta problemas.

  2. \(DID_2\): Comparação da evolução dos outcomes entre unidades tratadas em \(t\) com unidades tratadas antes e depois de \(t\). Essa comparação é problemática, pois no período \(t-1\) estamos usando como unidade de comparação, uma unidade já tratada.

Em resumo, na primeira comparação, para as unidades tratadas (\(S\), ou switchers), a evolução do outcome após o tratamento representa a evolução que ocorreria independentemente do tratamento (\(\Delta Y(0)\)) mais o ET sobre essas unidades. Ou seja,

\[Y_{S,t-1} = Y_{S,t-1}(0)\] \[Y_{S,t} = Y_{S,t}(0) + TE_{S,t}\] De modo que

\[\Delta Y_S = \Delta Y(0) + TE_{S,t}\]

Mas quando temos unidades que foram tratadas em ambas as datas (\(AT\), always treated), \(\Delta Y_{AT} = \Delta Y(0) + TE_{AT,t} - TE_{AT,t-1}\), porque precisamos adicionar o efeito que o tratamento teve na evolução de \(Y\) no período anterior.

Assim, temos que o \(DID_2\) pode ser escrito como:

\[DID_2 = \Delta Y_S - \Delta Y_{AT} = TE_{S,t} - TE_{AT,t} + TE_{AT,t-1}\]

Lembrando que pela hipótese das tendências paralelas, os dois \(\Delta Y(0)\) se cancelam. Mas ainda ficamos com o termo \(TE_{AT,t}\) entrando com pesos negativos no sinal de \(DID_2\), e \(\beta\).

Contudo, se o efeito tratamento é homogêneo no tempo, os dois últimos termos vão se cancelar, pois \(TE_{AT,t} = TE_{AT,t-1}\).

Portanto, o problema acima só surge quando temos efeitos tratamentos heterogêneos no tempo.

Problema 2: \(\beta\) usa unidades Switchers como controle

Vamos comparar agora uma situação em que exista heterogeneidade do ET entre grupos. Usando a linguagem de Chaisemartin and D’Haultfoeuille (2020), vamos assumir que exista um grupo cujo efeito tratamento aumente mais \(S_m\) e um grupo cujo efeito tratamento aumente menos (\(S_I\)).

Assim, o \(DID_3\) compara a evolução dos outcomes das unidades que mudam menos com as que mudam mais:

\[DID_3 = \Delta Y_{S_m} - \Delta Y_{S_I}\]

Antes de continuar, vamos assumir que \(Y_{S_m,t}(d) = Y_{S_m,t}(0) + \delta S_md\) e \(Y_{S_I,t}(d) = Y_{S_I,t}(0) + \delta S_Id\) e que \(\delta_{S_I} - 3\delta_{S_m} > 0\). Ou seja, o efeito tratamento dos dois grupos é capturado pela inclinação \(\delta_i\), que esses dois efeitos são estritamente positivos, CONTUDO, um é três vezes maior que o outro.

Vamos assumir agora que o tratamento das unidades de \(S_m\) aumente de 0 para 2, enquanto que as unidades de \(S_I\), vão de 0 para 1. Assim, a evolução do outcome será:

\[\Delta Y_{S_m} = Y_{S_m,t} + 2\delta_{S_m} - Y_{S_m,t-1}(0) = \Delta Y(0) + 2\delta_{S_m} = \Delta Y(0) + 2/3\delta_{S_I}\]

A equação mostra que o efeito tratamento do grupo \(S_m\) é 2/3 do efeito do grupo \(S_I\).

Para o grupo \(S_I\) a evolução do outcome é dada por:

\[\Delta Y_{S_I} = Y_{S_I,t} + 1\delta_{S_I} - Y_{S_I,t-1}(0) = \Delta Y(0) + 1\delta_{S_I} = \Delta Y(0) + \delta_{S_I}\]

E o \(DID_3\), que toma a diferença entre \(\Delta Y_{S_m}\) e \(\Delta Y_{S_I}\) será

\[DID_3 = \Delta Y(0) + 2/3\delta_{S_I} - \Delta Y(0) - \delta S_I\] \[DID_3 = - 1/3 \delta_{S_I} < 0 \]

Assim, mesmo considerando que \(\delta_{S_M}\) e \(\delta_{S_I}\) sejam estritamente positivos, o coeficiente estimado será estritamente negativo, sendo igual a -0,33 o efeito do grupo \(S_I\).

Novamente, este problema só surge quando os efeitos \(\delta_{S_M}\) e \(\delta_{S_I}\) são diferentes. Caso eles fossem iguais, os efeitos se cancelariam.

Como solucionar o problema?

Em Chaisemartin and D’Haultfoeuille (2020), os autores propõem um estimador alternativo disponível no pacote DIDmultiplegt. A discussão sobre o pacote ficará para uma postagem futura.

Referências

Chaisemartin, Clément de, and Xavier D’Haultfoeuille. 2020. “Two-Way Fixed Effects Estimators with Heterogeneous Treatment Effects.” National Bureau of Economic Research 110 (9): 2964–96. https://doi.org/10.2139/ssrn.3148607.
Vella, Francis, and Marno Verbeek. 1998. “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men.” Journal of Applied Econometrics 13 (2): 163–83. https://doi.org/https://doi.org/10.1002/(SICI)1099-1255(199803/04)13:2<163::AID-JAE460>3.0.CO;2-Y.

  1. Ou seja, as unidades não são tratadas todas no mesmo momento.↩︎

Robson Oliveira
Robson Oliveira
Professor de Economia