Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
4 changes: 3 additions & 1 deletion guides/causal-inference/x-cause-y.es.qmd
Original file line number Diff line number Diff line change
@@ -1,5 +1,5 @@
---
title: "10 estrategias para descubrir si X causa Y"
title: "10 estrategias para averiguar si X causa Y"
author:
- name: "Macartan Humphreys"
url: https://macartan.github.io
Expand Down Expand Up @@ -78,4 +78,6 @@ En gran parte del trabajo cualitativo, los investigadores tratan de establecer l

Un último método, conceptualmente cercano al rastreo de procesos, consiste en en la argumentación usando mecanismos. Digamos que sabemos que sólo $A$ puede causar $C$ sólo a través de $B$. Digamos, además, que sabemos que ninguna tercera cosa puede causar tanto $B$ como $C$ (salvo, quizás, a través de $A$) y que ninguna tercera cosa puede causar tanto $A$ como $B$. Entonces se puede utilizar la covariación entre $A$ y $B$ y entre $B$ y $C$ para evaluar el efecto de $A$ en $C$. La ventaja es que la causalidad puede establecerse incluso en presencia de factores de confusión, por ejemplo, incluso si variables no observadas causan tanto $A$ como $C$. La dificultad, sin embargo, es que la estrategia requiere mucha confianza en sus creencias sobre la estructura de las relaciones causales. Para más información, léase [Pearl (2000)](https://books.google.com/books?id=wnGU_TsW3BQC&hl=en).

![](x-cause-y_dag.png)

# References {.unnumbered .unlisted}
4 changes: 3 additions & 1 deletion guides/causal-inference/x-cause-y.fr.qmd
Original file line number Diff line number Diff line change
@@ -1,5 +1,5 @@
---
title: "10 stratégies pour déterminer si X cause Y"
title: "10 stratégies pour déterminer si X est la cause de Y"
author:
- name: "Macartan Humphreys"
url: https://macartan.github.io
Expand Down Expand Up @@ -139,4 +139,6 @@ L'avantage est que la causalité peut être établie même en présence de facte
La difficulté cependant est que la stratégie nécessite une confiance forte en vos croyances sur la structure des relations causales.
Pour en savoir plus, voir [Pearl (2000)](https://books.google.com/books?id=wnGU_TsW3BQC&hl=en).

![](x-cause-y_dag.png)

# References {.unnumbered .unlisted}
66 changes: 66 additions & 0 deletions guides/causal-inference/x-cause-y.ptbr.qmd
Original file line number Diff line number Diff line change
@@ -0,0 +1,66 @@
---
title: "10 estratégias para descobrir se X causa Y"
author:
- name: "Macartan Humphreys"
url: https://macartan.github.io
image: x-cause-y.png
sidebar: xcausey
abstract: "Os experimentos são uma forma de descobrir se algo causa outra coisa. A ideia básica é: experimente e descubra. O complicado é descobrir como experimentá-lo de uma forma que permita a confiança nas crenças sobre os efeitos causais. Uma estratégia que ocupa um lugar de destaque no kit de ferramentas do pesquisador é a intervenção randomizada. Essa é a estratégia que está no centro da maioria das pesquisas experimentais realizadas pelos membros da EGAP. Mas há outras estratégias que, às vezes, são mais apropriadas. Descrevemos aqui as dez estratégias mais importantes para descobrir os efeitos causais."
bibliography: x-cause-y.bib
---

# Randomização

A estratégia usada em estudos de controle randomizados (ou intervenções randomizadas, experimentos randomizados) é usar alguma forma de loteria para determinar quem, entre algum grupo, terá ou não acesso a um tratamento ou programa (ou talvez quem o receberá primeiro e quem o receberá depois, ou quem receberá uma versão e quem receberá outra). A elegância da abordagem é que ela usa a aleatoriedade para descobrir quais são os efeitos sistemáticos de um programa. A aleatoriedade reduz a chance de que uma relação observada entre o tratamento e os resultados se deva a "fatores de confusão" - outras coisas que são diferentes entre os grupos (por exemplo, pode-se ter a preocupação de que as coisas pareçam melhores nas áreas de tratamento precisamente porque os programas escolhem trabalhar em áreas que funcionam bem, mas saber que a seleção foi aleatória elimina completamente essa preocupação). Ela é poderosa porque garante que não há relação sistemática entre o tratamento e todas as outras características que podem afetar os resultados, quer você esteja ciente delas ou não. Por esse motivo, ela é frequentemente considerada o padrão ouro. No entanto, a randomização não pode ser usada sempre e em qualquer lugar, por motivos éticos e práticos. Mas ela pode ser usada em muito mais situações do que as pessoas pensam. Veja @humphreys_weinstein_2009 para uma discussão sobre os pontos fortes e as limitações da abordagem para pesquisa na economia política do desenvolvimento.

# Controle experimental (homogeneidade da unidade induzida)

Uma segunda estratégia mais usada em ambientes de laboratório e também nas ciências físicas é usar o controle experimental para garantir que duas unidades sejam idênticas entre si em todos os aspectos relevantes, exceto no tratamento. Por exemplo, se você quiser verificar se uma bola pesada cai mais rápido do que uma bola mais leve, certifique-se de que elas tenham a mesma forma e o mesmo tamanho e deixe-as cair ao mesmo tempo, sob as mesmas condições climáticas, e assim por diante. Em seguida, você atribui quaisquer diferenças nos resultados à característica que não foi mantida constante entre as duas unidades. Essa estratégia é fundamentalmente diferente daquela usada em testes aleatórios. Em estudos randomizados, normalmente desiste-se da ideia de manter tudo fixo e, em vez disso, procura-se garantir que a variação natural - em variáveis que podem ou não ser observadas - não produza viés em suas estimativas; além disso, normalmente procura-se avaliar os efeitos médios em uma gama de condições de fundo em vez de um conjunto fixo de condições de fundo. Os méritos da abordagem de controle dependem da sua confiança de que pode realmente controlar todos os fatores relevantes; se não puder, a abordagem aleatória pode ser superior.

# Experimentos naturais (aleatorização "as-if")

Às vezes, os pesquisadores não conseguem fazer a randomização, mas a inferência causal ainda é possível porque a natureza fez a randomização para você. A principal característica da abordagem do "experimento natural" é que você tem motivos para acreditar que a variação em algum tratamento natural é "como se fosse aleatória". Por exemplo, digamos que as vagas em uma escola sejam alocadas por sorteio. Então, talvez seja possível analisar os efeitos da frequência escolar como se fosse um estudo de controle aleatório. Um estudo inteligente sobre os efeitos de conflitos em crianças realizado por @blattman_annan_2010 usou o fato de que o Exército de Resistência do Senhor (LRA) em Uganda sequestrou crianças de forma bastante aleatória. Outro estudo inteligente sobre programas de Desarmamento, Desmobilização e Reintegração (DDR) de @gilligan_et_al_2012 usou o fato de que as operações de uma ONG foram interrompidas devido a uma disputa de contrato, o que resultou em um grupo de controle "natural" de ex-combatentes que não receberam programas de desmobilização. Consulte @dunning_2012 para obter um guia sobre como encontrar e analisar experimentos naturais.

# Comparações antes/depois

Em geral, a primeira coisa que as pessoas procuram para descobrir os efeitos causais é a comparação das unidades antes e depois do tratamento. Nesse caso, usa-se o passado como controle para o presente. A ideia básica é muito intuitiva: você desliga o interruptor de luz e vê a luz se apagar; atribuir a mudança de luz à ação parece fácil, mesmo na ausência de qualquer randomização ou controle. Mas, para muitas intervenções sociais, a abordagem não é tão confiável, especialmente em ambientes em mudança. O problema é que as coisas melhoram ou pioram por vários motivos não relacionados aos tratamentos ou programas nos quais você está interessado. Na verdade, é possível que, devido a todas as outras coisas que estão mudando, as coisas possam piorar em uma área de programa, mesmo que os programas tenham tido um efeito positivo (portanto, elas pioram, mas ainda não são tão ruins quanto seriam sem o programa!) Uma abordagem mais sofisticada do que a simples comparação antes/depois é chamada de "diferença nas diferenças" - basicamente, você compara a diferença antes/depois nas áreas de tratamento com aquelas nas áreas de controle. Essa é uma boa abordagem, mas você ainda precisa ter certeza de que tem bons grupos de controle e, em particular, que os grupos de controle e de tratamento provavelmente não mudarão de forma diferente por outros motivos que não o tratamento.

# Controle ex post I: Regressão

Talvez a abordagem mais comum para a identificação causal no trabalho estatístico aplicado seja o uso da regressão múltipla para controlar possíveis fatores de confusão. A ideia é tentar usar qualquer informação que você tenha sobre por que as áreas de tratamento e controle não são facilmente comparáveis e ajustar essas diferenças estatisticamente. Essa abordagem funciona bem na medida em que você pode descobrir e medir os fatores de confusão e como eles estão relacionados ao tratamento, mas não é boa se você não souber quais são os fatores de confusão. Em geral, simplesmente não sabemos quais são todos os fatores de confusão e isso expõe essa abordagem a todos os tipos de vieses (na verdade, se você controlar as variáveis erradas, é possível *introduzir* vieses onde não havia nenhum anteriormente).

# Controle ex post II: correspondência e ponderação

Diversas abordagens alternativas buscam levar em conta as variáveis de confusão, combinando cuidadosamente as unidades de tratamento com uma ou mais unidades de controle. A correspondência tem algumas vantagens em relação à regressão (por exemplo, as estimativas podem ser menos sensíveis às escolhas da forma funcional), mas a ideia básica é, no entanto, semelhante e, de fato, os métodos de correspondência podem ser implementados em uma estrutura de regressão usando pesos apropriados. Assim como a regressão, em sua essência, essa estratégia depende da convicção de que não há variáveis de confusão importantes que o pesquisador desconhece ou não consegue medir. Os métodos específicos incluem:

- Optimal full- and pair-matching [@hansen_2004], e veja o pacote \[optmatch\] (https://github.com/markmfredrickson/optmatch)
- Combinação ótima de pares com equilíbrio fino por meio de programação inteira mista [@zubizarreta_et_al_2014]. [Consulte também o pacote designmatch](https://cran.rstudio.com/web/packages/designmatch) e o artigo que compara as abordagens [@dla_resa_zubizarreta_2016]
- Correspondência ideal em vários níveis (para projetos com escolas e alunos) [@pimentel_et_al_2018]
- Correspondência otimizada esparsa\] (https://www.stat.berkeley.edu/\~spi/software.html)
- Correspondência completa generalizada [@savje_et_al_2017]
- Correspondência exata grosseira\](http://gking.harvard.edu/cem)
- Correspondência genética [@diamond_sekhon_2013]
- Equilíbrio de entropia [@hainmueller_2012]
- Ponderação de propensão inversa [@glynn_quinn_2010]
- Pesos de balanceamento estáveis [@zubizarreta_2015] e o uso de
- Controles sintéticos [@abadie_et_al_2015].

# Variáveis instrumentais (IV)

Outra abordagem para identificar efeitos causais é procurar uma característica que explique por que um determinado grupo recebeu um tratamento, mas que, de outra forma, não está relacionada ao resultado de interesse. Essa característica é chamada de instrumento. Por exemplo, digamos que você esteja interessado no efeito de um programa de meios de subsistência sobre o emprego e que a maioria das pessoas que tiveram acesso ao programa de meios de subsistência o fizeram porque eram parentes de um determinado funcionário do programa. Agora, suponha que o fato de ser parente do responsável pelo programa não afete as perspectivas de emprego de nenhuma outra forma que não seja por meio de seu efeito sobre o acesso ao programa de meios de subsistência. Nesse caso, você pode calcular o efeito do programa compreendendo o efeito de ser parente do responsável pelo programa nas perspectivas de emprego. Essa foi uma abordagem bastante popular, mas o entusiasmo por ela diminuiu um pouco, basicamente porque é difícil encontrar um bom instrumento. Uma aplicação inteligente são os estudos sobre os efeitos da pobreza em conflitos que usam a precipitação na África como um instrumento para renda/crescimento. Embora haja preocupações de que a correlação entre conflito e pobreza possa ser devida ao fato de que o conflito causa pobreza, não parece plausível que o conflito cause chuvas! Portanto, usar a precipitação como instrumento aqui deu muito mais confiança de que realmente existe uma relação causal, e não apenas correlacional, entre pobreza e conflito [@miguel_et_al_2004].

# Projetos de descontinuidade de regressão (RDD)

A abordagem de descontinuidade de regressão funciona da seguinte forma. Digamos que algum programa será disponibilizado a um conjunto de possíveis beneficiários. Esses beneficiários em potencial são todos classificados em um conjunto de critérios relevantes, como níveis de educação anteriores, status de emprego e assim por diante. Esses critérios podem ser quantitativos, mas também podem incluir informações qualitativas, como avaliações de entrevistas. Esses critérios individuais são então agregados em uma única pontuação e um limite é identificado. Os candidatos com pontuação acima desse limite são admitidos no programa, enquanto os com pontuação abaixo não são. Os grupos de "projeto" e "comparação" são então identificados selecionando-se os candidatos que estão próximos desse limite em ambos os lados. Usando esse método, podemos ter certeza de que as unidades tratadas e de controle são semelhantes, pelo menos em torno do limite. Além disso, temos uma medida direta da principal característica que os diferencia (sua pontuação nos critérios de seleção). Essas informações fornecem a chave para estimar um efeito do programa a partir da comparação dos resultados entre esses dois grupos. A vantagem dessa abordagem é que tudo o que é necessário é que a agência implementadora use um conjunto claro de critérios (que podem ser transformados em uma pontuação) com base nos quais ela toma as decisões de atribuição de tratamento. A desvantagem é que estimativas realmente confiáveis do impacto só podem ser feitas para unidades próximas ao limite. Para visões gerais do RDD, consulte @skovron_titiunik_2015 e @lee_lemieux_2013; para dois aplicativos interessantes, consulte @manacorda_et_al_2011 sobre o Uruguai e @samii_2013 sobre o Burundi.

# Rastreamento de processos

Em grande parte do trabalho qualitativo, os pesquisadores tentam estabelecer a causalidade observando não apenas se a participação em um programa está associada a melhores resultados, mas (a) procurando etapas no processo ao longo do caminho que lhe diriam se um programa teve os efeitos que você acha que teve e (b) procurando evidências de outros resultados que deveriam ser observados se (ou talvez: se e somente se) o programa fosse eficaz. Por exemplo, não apenas se as pessoas em um programa de meios de subsistência conseguiram um emprego, mas se foram treinadas em algo útil, se receberam ajuda de pessoas do programa para encontrar um empregador naquela área e assim por diante. Se todas essas etapas estiverem presentes, isso dá confiança de que a relação é causal e não espúria. Se um programa foi implementado, mas ninguém de fato participou dele, isso pode dar motivos para suspeitar que qualquer correlação entre o tratamento e os resultados seja espúria. A dificuldade com essa abordagem é que pode ser difícil saber se alguma evidência dentro do caso tem valor probatório. Por exemplo, um programa pode ter efeitos positivos (ou negativos) por meio de vários processos sobre os quais você não sabe nada, e os processos que você acha que são importantes podem não ser. Consulte @humphreys_jacobs_2015 para obter uma descrição da lógica bayesiana subjacente ao rastreamento de processos e ilustrações de como combiná-la com outras abordagens estatísticas.

# Estratégias de porta de entrada (Argumento a partir de mecanismos)

Uma abordagem final, conceitualmente próxima ao rastreamento de processos, é fazer uso de mecanismos. Digamos que você saiba, como mostra a figura abaixo, que $A$ pode causar $C$ somente por meio de $B$. Além disso, digamos que você saiba que nenhuma terceira variável cause tanto $B$ quanto $C$ (a não ser, talvez, por meio de $A$) e que nenhuma terceira variável cause tanto $A$ quanto $B$. Então, a covariação entre $A$ e $B$ e entre $B$ e $C$ pode ser usada para avaliar o efeito de $A$ em $C$. A vantagem é que a causalidade pode ser estabelecida mesmo na presença de fatores de confusão - por exemplo, mesmo que, como na figura abaixo, variáveis não observadas causem tanto $A$ quanto $C$. A dificuldade, entretanto, é que a estratégia exige muita confiança em suas crenças sobre a estrutura das relações causais. Para saber mais, consulte @pearl_2000.

![](x-cause-y_dag.png)

# References {.unnumbered .unlisted}