Análise de correspondência: ver a estrutura antes de explicar o efeito
Jean-Paul Benzécri e a crítica geométrica à estatística causal (1 de 3)
Série metodologia
Em 4 de janeiro de 2026 fiz uma busca na Web of Science no campo Topic (título, resumo e palavras-chave), restrita ao Social Sciences Citation Index (SSCI) e à área de Sociologia, com os termos regression, logit e multivariate analysis. Retornaram 7.798 artigos. Na mesma base, sob os mesmos critérios, a busca por multiple correspondence analysis ou geometric data analysis resultou em 191 artigos.
Essa proporção de aproximadamente 40 para 1 não reflete apenas diferenças de popularidade acadêmica entre técnicas estatísticas. Ela sinaliza a hegemonia de um “regime de inteligibilidade”: aquele que identifica análise quantitativa com estimação causal de efeitos marginais e que trata a regressão multivariada como mestra da vida.
A publicação prometida para agora, em 2026, de Pesquisa Quantitativa nas Ciências Sociais de Frédéric Lebaron, pela Edusp, apresenta de maneira mais sistemática uma tradição estatística até certo ponto antagônica à matriz hegemônica nas Ciências Sociais quantitativas: a Análise Geométrica de Dados (AGD) de Jean-Paul Benzécri.
Jean-Paul Benzécri (1932-2019) foi um matemático e professor no Institut de Statistique da Université de Paris.
O ponto central aqui é a recusa de um pressuposto: que o objetivo da estatística social seja sempre estimar efeitos causais. Para a Análise Geométrica de Dados (AGD), antes de explicar efeitos, é preciso (re)construir estruturas de relações. Antes de perguntar “quanto X afeta Y”, é preciso responder “como X, Y e Z organizam um determinado espaço social”.
Benzécri: estatística contra o primado do modelo
Jean-Paul Benzécri (1932-2019) desenvolveu a Análise Geométrica de Dados (AGD) a partir de uma crítica à estatística probabilística e inferencial. Em L’Analyse des Données (1973), ele formulou uma tese simples (e subversiva): o erro fundamental da estatística é começar pelo modelo, impondo uma explicação antes de entender como o fenômeno realmente se organiza (a formulação, acho, é intencionalmente polêmica; não é tão simples assim, mas vá lá).
Para Benzécri, a inferência causal pressupõe algo que raramente é satisfeito nas Ciências Sociais: um objeto empírico bem definido previamente.
Quando o(a) pesquisador(a) especifica um modelo de regressão, digamos:
Y = β₀ + β₁X₁ + β₂X₂ + ε
ele já decidiu que Y é a variável dependente, que X₁ e X₂ são os fatores causalmente relevantes, que a relação é aditiva e linear, e que os erros restantes são aleatórios e não seguem nenhum padrão.
Essas decisões, no entanto, tanto criam o objeto empírico quanto o descrevem.
O problema então surge quando a estrutura do fenômeno social não corresponde aos pressupostos do modelo. Em grande parte dos casos, não sabemos de antemão se as relações são lineares, se as variáveis são separáveis e se existe uma hierarquia causal clara entre elas.
Por exemplo, em estudos sobre voto parlamentar, não é claro se a ideologia explica o voto ou se tanto a ideologia quanto o voto expressam a posição (subalterna ou central) que o parlamentar ocupa no “campo político” (i.e., nas relações com seus pares).
A Análise Geométrica de Dados nasce, assim, como uma estatística “pré-modelo”, cujo objetivo não é testar hipóteses causais, mas reconstruir a estrutura empírica do fenômeno. Só depois de visualizar essa estrutura, identificar suas oposições constitutivas e seus agrupamentos é que se pode formular hipóteses causais informadas pelo comportamento real dos dados. Sensato.
Benzécri, porém, nunca foi incorporado ao cânone da estatística mainstream anglo-saxã, não aparece nos principais manuais, mas tornou-se um pilar metodológico central na sociologia de Pierre Bourdieu e de inspiração bourdieusiana (Lebaron, Rouanet, Le Roux, Duval, Gaxie).
PCA, AC e ACM: decomposição espectral sem hierarquia causal
Do ponto de vista formal, a Análise Geométrica de Dados compartilha com a Análise de Componentes Principais (PCA) o uso de decomposições espectrais (um procedimento matemático que transforma muitos dados em alguns eixos resumidos) para explorar a estrutura de dados multivariados. A PCA trabalha com variáveis numéricas, maximizando a variância explicada (capturando o máximo possível das diferenças observadas entre os casos) por combinações lineares ortogonais (novas variáveis criadas a partir das originais, que não se repetem nem se sobrepõem), os “componentes principais”. Em termos mais simples, trata-se de reorganizar os dados para identificar as direções principais ao longo das quais os casos mais se diferenciam entre si.
A Análise de Correspondência (AC) e a Análise de Correspondência Múltipla (ACM) estendem esse princípio às variáveis categóricas, operando sobre matrizes de contingência (tabelas que mostram como categorias diferentes aparecem juntas) ou matrizes indicadoras completas (tabelas grandes de zeros e uns que registram a presença ou ausência de cada categoria para cada caso). A métrica relevante aqui é a distância qui-quadrado. A variância (o grau de diferença entre os casos observados) dá lugar ao conceito de inércia, uma medida que indica o quanto as categorias se afastam do que seria esperado ao acaso, ou seja, o quão fortemente elas estão associadas entre si
Do ponto de vista técnico, a ACM decompõe o conjunto das associações entre categorias e identifica eixos que resumem as principais oposições estruturais dos dados. Os eixos fatoriais que emergem não correspondem a variáveis latentes pré-definidas pelo pesquisador, mas a oposições estruturais emergentes, construídas a partir da totalidade das associações observadas nos dados.
Figura 3. Biplot da Análise de Correspondência Múltipla dos fatores associados ao estresse e a comportamentos relacionados ao medo de gatos durante exames veterinários. Os pontos representam as observações, posicionadas no espaço fatorial de acordo com o perfil comportamental dos animais. As setas vermelhas indicam as variáveis com maior contribuição para a formação das duas primeiras dimensões (Dim1 e Dim2), permitindo identificar padrões de associação entre características dos gatinhos, condições de manejo do veterinário e respostas comportamentais. Tateo, A., et al. (2021). Factors influencing stress and fear-related behaviour of cats during veterinary examinations. Italian Journal of Animal Science, 20(1). https://doi.org/10.1080/1828051X.2020.1870175
Saindo do mundo dos gatos e voltando à ciência política: imagine um estudo sobre elites políticas com variáveis como origem social (baixa/média/alta), formação superior (Direito/Economia/Engenharia), setor da carreira profissional (público/privado) e posição ideológica (esquerda/centro/direita). Na regressão, o pesquisador escolheria uma dessas como variável dependente (digamos, posição ideológica) e testaria se origem social e formação a “explicam”.
Na ACM, todas as variáveis entram simetricamente no “modelo”. O método revela, por exemplo, que existe um eixo que opõe ‘origem alta + Economia + setor privado + direita’ versus ‘origem popular + Direito + setor público + esquerda’. Essa “estrutura relacional” não foi imposta pelo modelo, pela hipótese previamente, mas emergiu dos dados. E só depois de visualizá-la o pesquisador pode então formular suas hipóteses causais.
Contra a estatística causal: Análise Geométrica de Dados versus Rubin Causal Model
O Rubin Causal Model (RCM) tem origem no artigo seminal de Donald Rubin, “Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”, publicado em 1974 no Journal of Educational Psychology.
Rubin formalizou matematicamente a intuição de que a inferência causal requer comparação entre estados potenciais do mundo: o que acontece quando um sujeito recebe um tratamento versus o que aconteceria se o mesmo sujeito não o recebesse.
Essa estrutura conceitual, que Rubin desenvolveu ao longo das décadas seguintes, tornou-se conhecida como Potential Outcomes Framework (Estrutura de Resultados Potenciais) e foi sistematizada no livro Causal Inference for Statistics, Social, and Biomedical Sciences (2015), escrito com Guido Imbens, seu colega de Harvard e colaureado do Prêmio Nobel de Economia em 2021 justamente por contribuições à econometria causal.
Paralelamente, o cientista da computação Judea Pearl, da UCLA, desenvolveu, nos anos 1990 e 2000, uma abordagem complementar baseada em grafos causais (causal diagrams ou Directed Acyclic Graphs (DAGs)), formalizada em Causality: Models, Reasoning, and Inference (2000). Pearl ofereceu uma linguagem gráfica para representar estruturas causais e identificar estratégias de controle estatístico baseada em quais variáveis incluir em modelos de regressão para “bloquear” caminhos espúrios e isolar efeitos causais.
Fonte: Exemplo de grafo acíclico direcionado https://hazelcast.com/foundations/distributed-computing/directed-acyclic-graph/
Essas duas tradições, tanto o Potential Outcomes Framework de Rubin/Imbens como os Causal Graphs de Pearl, convergiram nas últimas décadas para formar o que hoje se chama causal inference, hegemônico em Economia, Ciência Política, Epidemiologia e partes da Sociologia.
A lógica é a seguinte: cada unidade (indivíduo, escola, município) possui dois resultados potenciais: Y₁ se recebe o tratamento, Y₀ se não recebe.
O efeito causal individual é Y₁ - Y₀.
Como nunca observamos ambos simultaneamente (problema fundamental da inferência causal), estimamos o efeito médio do tratamento (ATE, Average Treatment Effect) através de diferenças entre grupos tratados e controle, sob o pressuposto de independência condicional (também chamado de unconfoundedness ou pressuposto de não-confundimento): controlando por covariáveis X, a atribuição do tratamento torna-se “como se” aleatória.
Por exemplo: imagine avaliar o impacto de um programa de bolsas de estudo (tratamento) no desempenho escolar (resultado). Comparar simplesmente bolsistas e não-bolsistas produziria estimativas enviesadas, pois bolsistas tendem a ter renda familiar menor. A estratégia de causal inference seria controlar por renda, escolaridade dos pais e notas prévias, assumindo que, condicionalmente a essas variáveis, receber a bolsa é independente de outros fatores não observados que afetam o desempenho. Técnicas como propensity score matching (que eu tratei aqui e aqui), difference-in-differences ou regression discontinuity design operacionalizam essa lógica.
Essa ontologia (a ideia básica que um método tem sobre como o mundo funciona) é extremamente poderosa para problemas bem definidos: impacto de um programa de transferência de renda, efeito de uma reforma eleitoral, consequências de uma política educacional, e assim por diante. São intervenções específicas, com fronteiras claras entre unidades tratadas e não tratadas, onde faz sentido perguntar “o que teria acontecido se...”.
Mas ela carrega um pressuposto: o fenômeno pode ser decomposto em efeitos de tratamento sobre unidades homogêneas. E é exatamente isso que a Análise Geométrica de Dados recusa.
Classes sociais, valores políticos, estilos de vida e trajetórias de elite não são “tratamentos”, mas “configurações”. Não existe um “efeito” de ser capitalista versus ser operário, porque essas posições de classe não são intervenções isoláveis. Elas implicam constelações inteiras de propriedades (renda, educação, práticas culturais, redes sociais, experiências de vida etc.) que se determinam mutuamente.
A estatística causal perguntaria: o que aconteceria se X fosse diferente, mantendo todo o resto constante?
A AGD responderia: meu bem, essa pergunta é mal colocada, porque “todo o resto” nunca é constante…
Mudar a formação educacional de alguém de Direito para Pedagogia não é apenas trocar um atributo, mas reconfigurar toda uma trajetória social que envolve origens familiares, redes de contato, disposições políticas, oportunidades de carreira etc.
Por que a crítica é estatística e não apenas “sociológica”
A crítica da Análise Geométrica de Dados ao Rubin Causal Model não é apenas ontológica ou filosófica, mas estatística.
O modelo causal pressupõe:
1. Separabilidade entre covariáveis: cada variável de controle pode ser ajustada independentemente das demais, isto é, cada fator é tratado como se pudesse ser isolado dos outros;
2. Estabilidade das relações condicionais: os coeficientes βᵢ são constantes para diferentes subgrupos, isto é, supõe-se que o efeito seja o mesmo para todos os tipos de pessoas ou casos;
3. Identificação por controle: incluir X no modelo “fecha” as portas traseiras causais, isto é, tenta impedir que outros fatores escondidos confundam a relação que se quer medir.
A Análise Geométrica de Dados parte da constatação empírica de que os dados sociais violam sistematicamente essas condições.
Propriedades sociais não são separáveis, elas formam pacotes estruturados de características (“configurações”). Um PhD em Economia de uma universidade de elite nos EUA não é apenas “mais educação”. É um marcador que sinaliza, ao mesmo tempo, origem de classe, redes internacionais e adesão a certa ortodoxia teórica.
Assim, ao impor um modelo causal ex ante, a inferência causal corre o risco de produzir resultados formalmente identificados, mas substantivamente vazios.
Podemos, por exemplo, estimar com grande precisão o “efeito” da ideologia partidária sobre o comportamento de voto parlamentar, controlando por distrito, escolaridade, idade e gênero. O coeficiente será estatisticamente identificável, robusto a diferentes especificações e publicável em um periódico de alto impacto. Mas ele diz muito pouco se ideologia, trajetória política, inserção partidária e tipo de carreira legislativa constituem, na prática, uma mesma configuração social, e não fatores independentes.
O resultado é estatisticamente válido, mas pobre em termos sociológicos. Ele mede uma variação paramétrica (isto é, a mudança estimada em um coeficiente quando uma variável varia marginalmente, mantendo todas as demais constantes) onde o objeto real é uma posição relacional no campo político.
A Análise Geométrica de Dados inverte a sequência: primeiro estrutura, depois, se for o caso, estabelece causalidade.
Tabacchi, G., Navarra, G.A., Scardina, A. et al. A multiple correspondence analysis of the fear of falling, sociodemographic, physical and mental health factors in older adults. Sci Rep 15, 6341 (2025). https://doi.org/10.1038/s41598-025-89702-w
Bourdieu, Lebaron e a estatística dos espaços sociais
Essa é a razão pela qual a Análise Geométrica de Dados foi incorporada por Pierre Bourdieu e seus sócios. Campos sociais, tais como o campo artístico, o campo acadêmico, o campo político, não são mecanismos causais lineares. São “espaços estruturados de posições”. Agentes ocupam posições definidas relacionalmente (pela posse diferencial de capitais, atributos, “características”), não isoladamente.
Logo, a estatística adequada a esse objeto não é a regressão, mas a análise geométrica.
Em A Distinção, Bourdieu usa ACM para mapear o espaço dos estilos de vida na França dos anos 1960-1970, revelando como gostos culturais, práticas de lazer e consumo alimentar organizam-se em torno de dois eixos principais: volume global de capital (alto contra baixo) e composição do capital (predominância de capital cultural ou econômico).
Legenda explicativa: A linha pontilhada indica a estrutura relacional entre posição social e comportamento político: em posições mais dominadas, com maior peso do capital cultural relativo, observa-se maior propensão ao voto à esquerda; à medida que se avança para posições com maior capital econômico e maior volume total de capital, cresce a propensão ao voto à direita.
Estrutura antes do efeito
Concluindo didaticamente: a estatística geométrica não promete inferência causal estrita nem previsão pontual. Ela promete algo mais básico e, talvez, mais raro: objetos empíricos bem construídos.
Isso não significa renunciar à causalidade. Significa reconhecer que, para fenômenos sociais complexos e relacionais, a identificação de efeitos causais pressupõe uma etapa anterior, que é a reconstrução da estrutura do espaço social no qual esses efeitos operam.
Nesse sentido, a crítica geométrica à estatística causal não é um ataque à causalidade, mas uma advertência metodológica: sem estrutura, os efeitos não são compreensíveis.
Nota: Esta série de três textos ao longo das próximas semanas desenvolvem ideias que não couberam no Prefácio que escrevi ao livro do Lebaron que sairá pela Edusp em 2026.






Texto traz uma contribuição muito interessante para a reflexão metodológica sobre causalidade e estrutura dos dados.
A distância entre as duas abordagens estatísticas não é tão grande quanto pode parecer. Entendo que a AGD se apresenta como uma ferramenta mais robusta para a mensuração de variáveis estruturais, enquanto os modelos regressivos tradicionais tendem, muitas vezes, a priorizar a identificação em detrimento de uma discussão mais aprofundada sobre mensuração.
Minha percepção é que a AGD propõe um framework poderoso para mensurar fenômenos sociais complexos, que frequentemente são captados apenas por proxies parciais na Ciência Social mais ortodoxa.
Me pergunto então até que ponto fenômenos de mensuração mais direta e simples — como voto, decisões ou fluxos econômicos / administrativos— refletem de fato variáveis sociais substantivas e importantes per se, ou se constituem apenas como proxies incompletas dos fenômenos centrais das Ciências Sociais que a AGD mensuraria com maior potência.
Como comentei em outro fórum, acho que boa parte das críticas é compartilhada pela comunidade de inferência causal. Descrição é importante; não é crível identificação causal controlando para tudo que é relevante com regressão (mesmo matching sozinho não é bem visto); e algumas perguntas causais não são bem definidas (seu exemplo do capitalista e operário), pois não é claro o que é manipulável na variável.