O método que salvou a Ciência Política (I)
como a estatística resolveu a crise da explicação causal
Quando os números mentem
Nos anos 1980, a economia aplicada e as ciências sociais viviam uma crise de confiança.
Pesquisadores queriam saber se programas de treinamento profissional realmente ajudavam trabalhadores a conseguir empregos melhores. Para isso, economistas aplicavam modelos estatísticos sofisticados em “dados observacionais”. Isto é, não faziam um sorteio (randomizavam) quem participava e quem não participava dos programas.
Foi nesse contexto que Robert LaLonde publicou, em 1986, um estudo clássico: “Evaluating the Econometric Evaluations of Training Programs” (link aqui).
Ele comparou os resultados de modelos de regressão (um dos instrumentos mais usados em estatística e em ciência política) com os de um experimento controlado: o National Supported Work Demonstration, em que trabalhadores foram sorteados para participar ou não de um programa de treinamento.
O resultado foi frustrante: os modelos não experimentais deram estimativas muito diferentes das encontradas no experimento e, portanto, não confiáveis. Era como se dois termômetros medissem a mesma febre, mas mostrassem temperaturas totalmente distintas.
Narrativa I. Maria Leontina (1917, São Paulo - 1984, Rio de Janeiro)
Por que a nossa amada regressão não bastava mais
Para entender o tamanho do problema, vale então explicar o mais didaticamente que conseguir.
Um modelo de regressão é uma equação que relaciona uma variável de interesse (por exemplo, o salário após o curso de formação profissional) com outras variáveis explicativas (idade, escolaridade, experiência, raça, gênero etc.). A lógica é: se controlarmos por essas características, conseguimos isolar o efeito do curso (se ele serviu pra aumentar o salário do camarada).
Só que isso falha quando os grupos são muito diferentes.
Imagine que quase só pessoas mais jovens e escolarizadas se inscrevam no curso. O modelo precisa extrapolar, isto é, prever como seria o desempenho de trabalhadores mais velhos e menos escolarizados como se tivessem feito o curso. Esse “como se” depende de suposições; e qualquer erro na especificação da equação pode distorcer completamente os resultados.
Maria Leontina, Óleo sobre tela sem título, de 1956. Foto: Divulgação/Jaime Acioli.
Gêmeos estatísticos: a solução de dois economistas
Nos anos 1990, Rajeev Dehejia (link) e Sadek Wahba (link), então jovens economistas, retomaram os dados de LaLonde. Eles propuseram uma solução simples e elegante: o propensity score matching (PSM).
Dehejia, R. H., & Wahba, S. (1999). Causal effects in nonexperimental studies: Reevaluating the evaluation of training programs. Journal of the American Statistical Association, 94(448), 1053–1062. https://doi.org/10.2307/2669919
A ideia é substituir a regressão tradicional por uma estratégia diferente: em vez de tentar controlar por todas as variáveis ao mesmo tempo, o PSM resume todas elas em um único número (escore): a probabilidade de participar do programa (o chamado propensity score). Esse número é calculado para cada indivíduo com base nas características observadas.
Depois, cada trabalhador que fez o curso é comparado com um trabalhador que não fez, mas que tinha probabilidade parecida de ter feito. É como formar duplas de “gêmeos estatísticos”: trabalhadores com a mesma idade, escolaridade e histórico, onde a única diferença é que um fez o curso e o outro não.
Maria Leontina. Sem título. Giz de cera sobre papel
O que é o Propensity Score Matching?
Vamos por partes:
Propensity score: é a probabilidade de uma pessoa participar de um programa dado o seu perfil antes do tratamento (idade, escolaridade, renda anterior, etc.). Aqui, “tratamento” significa a intervenção ou política que se quer avaliar. No caso, o curso de treinamento.
Se um jovem de 20 anos, com ensino médio incompleto e renda muito baixa, tinha 80% de chance de ser incluído no programa, esse 0,8 é o seu propensity score.
Matching (emparelhamento): significa comparar participantes apenas com não participantes que tinham probabilidades parecidas de entrar no programa.
Em vez de comparar o jovem de 20 anos pobre com um homem de 50 anos rico, que obviamente vêm de mundos sociais diferentes, o PSM só compara o jovem com outros jovens de perfil parecido que, por acaso, não entraram no programa.
Assim, o PSM cria pares ou grupos mais “justos”.
Ele garante que a diferença final observada entre tratamento e controle não seja causada por características prévias, mas pelo efeito do programa.
Corridas justas: a lógica do matching em ação
Imagine duas corridas de atletismo. Se você simplesmente comparar todos os corredores que treinaram mais com os que treinaram menos, pode ser que um grupo seja cheio de atletas profissionais e o outro de iniciantes. A diferença de desempenho não viria só do treino, mas do nível inicial, do background.
O PSM faz um ajuste: ele monta corridas paralelas só com atletas de nível parecido (mesma idade, mesma experiência). Assim, a comparação revela melhor se a diferença de resultado vem do treino (o “tratamento”) e não de outras vantagens prévias.
Maria Leontina, Da paisagem e do tempo, 1956 Foto: Jaime Acioli
O experimento impossível: como replicar a randomização sem sorteio
Aplicando o PSM, Dehejia e Wahba encontraram estimativas muito próximas às do experimento verdadeiro. Ou seja, o PSM conseguiu replicar com dados observacionais, o que só era possível com sorteio. Esse foi o marco disruptivo: finalmente havia uma ferramenta que aumentava a confiança em estudos não experimentais.
Quando aplicaram o PSM ao mesmo conjunto de dados usado por Lalonde, os resultados foram impressionantes:
Os métodos tradicionais como regressões davam respostas muito diferentes do efeito verdadeiro revelado pelo experimento.
O PSM produziu estimativas quase idênticas ao benchmark experimental.
Isso foi uma revolução.
Pela primeira vez, mostrava-se de forma convincente que é possível chegar perto da verdade mesmo sem sorteio, desde que:
Sejam observadas variáveis relevantes (o que chamamos de “seleção em observáveis”).
Haja sobreposição entre os grupos, ou seja, participantes e não participantes sejam realmente comparáveis.
A caixa de ferramentas da causalidade: além do PSM
O artigo não só resgatou os dados de LaLonde como também devolveu esperança às ciências sociais: mesmo sem sorteio, era possível chegar a respostas confiáveis.
Mais ainda: o PSM abriu caminho para uma caixa de ferramentas de identificação causal.
Outros métodos ganharam espaço, cada um com seu exemplo típico:
· Diferenças-em-diferenças (DiD): compara a evolução de dois grupos ao longo do tempo, um com a política e outro sem.
Ex.: medir o impacto das cotas de gênero nas eleições legislativas em estados que adotaram versus os que não adotaram.· Regressão descontínua (RD): usa pontos de corte quase aleatórios.
Ex.: comparar candidatos que ganharam ou perderam por poucos votos para ver o efeito de ocupar o cargo (“incumbência”).· Experimentos naturais: aproveitam eventos fora do controle do pesquisador.
Ex.: chuvas que afetam a participação eleitoral (comparecimento às urnas) em algumas cidades, mas não em outras.
Todos esses métodos compartilham o mesmo objetivo: aproximar a lógica do experimento em situações reais.
(continua em outro post...)
#CienciaPolítica
#PropensityScore
#CausalInference
#Metodologia
#PesquisaBrasil
#StatisticsRevolution
#PoliticaPublica
#DataScience
#MethodologyMatters




