GPT como assistente de pesquisa: um guia realista para cientistas (políticos)
O que pesquisadores(as) podem (e não podem) esperar do Chat GPT na pesquisa em ciência política?
Existe hoje um entusiasmo com o uso de modelos generativos na pesquisa empírica em ciência política. Mas esse entusiasmo convive com uma dúvida bastante legítima: o que exatamente esses modelos entregam? Onde falham? E, principalmente, que é o ponto que me interessa aqui: a partir do uso de IA, o que muda na rotina de quem coleta, limpa e organiza grandes volumes de informação?
Um artigo publicado em PS: Political Science & Politics oferece uma resposta até o momento (dezembro de 2025) bastante útil.
Lee, Kyuwon, Simone Paci, Jeongmin Park, Hye Young You e Sylvan Zheng (2025), “Applications of GPT in Political Science Research: Extracting Information from Unstructured Text”, PS: Political Science & Politics. Volume 58 , Issue 4 , October 2025 , pp. 630 - 640.
Lee e colaboradores analisaram quatro aplicações concretas do GPT-4 em tarefas clássicas de pesquisa empírica. [DOI: 10.1017/S1049096525000046]. O resultado foi um diagnóstico das vantagens e também dos problemas desse emprego de IA.
ChatGPT como assistente de pesquisa
Exemplo 1: Documentos militares da Segunda Guerra e a limpeza de OCR
O primeiro caso é muito interessante para historiadores, inclusive. Os cinco pesquisadores trabalharam com cinco caixas de relatórios semanais do Army Service Forces, guardados no Arquivo Nacional dos EUA em College Park, Maryland. São documentos de agosto de 1944 a janeiro de 1946 sobre incidentes raciais envolvendo militares. Eles contêm descrições detalhadas de confrontos, datas, locais, pessoas envolvidas e medidas tomadas pelas autoridades.
Mas… como sabemos bem, documentos antigos escaneados produzem um texto OCR cheio de erros. Muitos. É enlouquecedor. Softwares gratuitos como o Tesseract geram textos úteis, mas com muito “ruído”, isto é, problemas no reconhecimento de caracteres ou palavras completas. Ferramentas comerciais como o Google Cloud Vision têm mais qualidade, mas exigem acesso a APIs pagas e processamento prévio das imagens.
A solução testada foi simples: pegar o texto estropiado do Tesseract e pedir ao Chat GPT-4 que o limpasse. O prompt era direto: “não mude o conteúdo, apenas remova ruído; mantenha as referências entre parênteses como (A-2)”.
Os resultados foram, segundo eles, ótimos. A taxa de erro caiu para cerca de 6% quando comparada ao texto do Google Cloud Vision usado como padrão de referência. Processaram uma caixa inteira: 20 pastas, 997 imagens. Mas a contribuição do GPT foi além da limpeza. O modelo também extraiu automaticamente informações estruturadas de cada incidente: localização (acerto de 98%), ator principal (90%) e alvo (85%).
Um exemplo concreto: “Dois soldados negros e suas esposas reclamaram na estação Greyhound em Atlanta que foram maltratados por um motorista de ônibus a caminho de Fort Benning, Geórgia, em 16 de agosto. Um dos soldados sentou-se ao lado de um soldado branco com permissão deste. Quando o motorista observou as ações do negro, xingou-o, fez com que se movesse e, quando os negros desembarcaram do ônibus em protesto numa parada perto de Atlanta, recusou-se a devolver suas passagens.”
O GPT identificou corretamente: local (Atlanta/Fort Benning), atores (soldados negros e motorista de ônibus), alvo (soldados negros).
Esse tipo de extração permite, então, construir bases de dados simples com informações básicas sobre padrões de discriminação racial, geografia dos conflitos e resposta institucional das Forças Armadas.
Exemplo 2: Atas de comitês federais e a política no interior da política burocrática
O segundo caso examinou os Federal Advisory Committees (FACs), estruturas que funcionam como conselhos independentes de agências federais nos EUA. Esses comitês realizam mais de 5 mil reuniões públicas por ano, reunindo membros indicados, funcionários de agências e representantes de grupos de interesse para discutir políticas públicas.
As atas dessas reuniões contêm muita informação sobre quem participa da formulação de políticas. Mas estão (como sempre…) em PDFs semiestruturados, com formatos variáveis entre agências. Os autores focaram em 79 atas de dois comitês da EPA, o Clean Air Scientific Advisory Committee e o Science Advisory Boards, e suas atividades entre 2017 e 2023.
O GPT-4 foi instruído a criar tabelas CSV com três colunas: nome, afiliação e posição (membro, staff da agência, participante externo). O prompt especificava: “remova prefixos e sufixos como PhD ou MPH; remova vírgulas que não sejam delimitadores; preencha todas as posições”.
A taxa de sucesso foi alta. Foram 75 de 79 atas processadas corretamente. Os quatro erros ocorreram porque o prompt inicial não incluía todos os rótulos possíveis de posição (como “invited speaker”). Adicionar um simples “etc.” ao final da lista resolveu o problema.
Um detalhe interessante para nós que quase nunca temos financiamento do CNPq: o custo. Processar uma ata com 50 mil caracteres (cinco a seis páginas) custou 30 centavos. Multiplicado por 79 atas: menos de US$ 25. Compare isso com a grana de contratar assistentes para ler, identificar e tabular essas informações manualmente.
Os dados resultantes permitiram aos pesquisadores documentar algo antes invisível ou só apreensível com muito trabalho manual: a participação significativa de grupos de interesse em reuniões da EPA. Estudos anteriores sobre os Federal Advisory Committees focavam apenas nos membros oficiais nomeados pelas agências. Aqui, pela primeira vez, foi possível mapear sistematicamente os participantes “voluntários”.
Exemplo 3: Fontes jornalísticas e a construção da narrativa climática
O terceiro caso é o mais sofisticado metodologicamente. A tarefa era identificar todas as fontes citadas em artigos de jornal. Parece simples, mas não é. Fontes aparecem de múltiplas formas ao longo do texto, com variações de nome, títulos diferentes e contextos diversos.
Os autores desenvolveram um processo em três etapas sequenciais. Primeiro prompt: identificar todas as citações e atribuições no texto. Segundo prompt: agregar essas menções por pessoa ou organização. Terceiro prompt: estruturar tudo em JSON* com campos padronizados (nome, título, organização, tipo de documento, resumo da contribuição).
* JSON é um formato que transforma texto corrido em campos organizados que podem ser importados para planilhas e softwares estatísticos. É a diferença entre ter um parágrafo descritivo e ter dados tabulados prontos para análise quantitativa...
Eles testaram esses comandos com 50 artigos e extraíram 214 fontes. Uma validação feita por checadores humanos contratados através de plataformas especializadas em tarefas de verificação online de dados mostrou taxas de erro abaixo de 5% em todas as categorias: falsos positivos (fonte inventada), fontes ausentes (fonte real não capturada) e detalhes incorretos (nome ou afiliação errados).
A maioria dos erros ocorreu em casos ambíguos. Por exemplo: “O presidente Xi Jinping da China prometeu repetidamente avançar com medidas em seu país para conter a poluição que altera o clima”. O GPT às vezes interpretava Xi como uma fonte citada; outras vezes, apenas como uma entidade mencionada. A fronteira entre citação e menção é, para ele ou ela, que não é inteligente, nem entende contexto, nebulosa.
Depois da validação, os autores escalaram a tarefa: 5.795 artigos do New York Times sobre mudança climática (entre 2012-2022). Resultado: 31.431 fontes extraídas. Custo total: US$ 1.300. Usaram o modelo GPT-4 Turbo (ver as diferenças entre eles aqui: https://platform.openai.com/docs/models).*
* Para contextualizar: processar um documento de 50 mil caracteres (5-6 páginas) custa cerca de 30 centavos.
Uma vez construída essa base, ela permitiu perguntas específicas: quais tipos de especialistas dominam a cobertura climática? Há variação temporal na diversidade de fontes? Organizações ambientalistas aparecem mais ou menos que representantes da indústria? Cientistas naturais são mais citados que cientistas sociais? Tudo isso se torna, helàs!, empiricamente verificável.
Exemplo 4: Biografias políticas e replicação de trabalho humano
O quarto caso replica um esforço manual anterior. Montano, Beatrice, Simone Paci e Chiara Superti (2024), “The Mayor’s Daughter: How Patriarchal Norms Moderate the Daughter’s Effect on Mayoral Policy Making”, investigaram se ter uma filha influenciava políticas pró-mulheres de prefeitos italianos. Para isso, precisavam saber quantos filhos cada prefeito tinha e quantas eram meninas.
Não existe base biográfica centralizada com essas informações na Itália (nem, dúvido, em lugar algum, exceto, talvez, UK). A solução original foi bem trabalhosa: três assistentes de pesquisa realizaram buscas sistemáticas no Google para 1.800 prefeitos, checando até os 20 primeiros resultados. Total: mais de 7.300 páginas de Internet revisadas manualmente entre julho de 2023 e fevereiro de 2024.
A replicação automatizada usou GPT-4 Turbo. Os pesquisadores rasparam os mesmos links originais e alimentaram o texto no modelo com prompts específicos por prefeito (incluindo nome e município). O prompt instruía: “informe se há informação sobre filhos; se sim, quantos e quantas filhas; se mencionar netos, assuma pelo menos um filho; infira gênero pelos nomes”.
Comparando com os dados humanos, o GPT-4 superou os codificadores originais em precisão. Erros humanos ficaram entre 6-7% dependendo da categoria; erros do GPT-4 ficaram entre 3-4%. Quando havia discordância, uma terceira rodada de codificação humana (com novos assistentes) arbitrou (isso é importante!). Em apenas sete casos do total, as três rodadas discordaram.
Os erros do GPT-4 eram previsíveis, pois exigiam interpretações complexas. Exemplo: “Alessandro Zanonato, 35 anos, é o filho único do prefeito e vive com Chiara, advogada como ele, e duas filhas”. O modelo interpretou como três filhos do prefeito (um filho + duas filhas). Na verdade, as duas eram filhas do filho, portanto netas. Destaque-se que o texto é bem confuso mesmo.
Esse tipo de erro foi recorrente. Quando a informação estava codificada indiretamente ou com múltiplos níveis de parentesco, o GPT falhava. Mas a taxa geral de erro foi baixa e para tornou a ferramenta útil.
Quando o GPT falha (e por quê)
Quatro limitações estruturais foram identificadas no artigo.
1. Primeiro, sensibilidade extrema ao prompt (isto é, às instruções que damos à máquina).
A performance do negócio varia drasticamente com pequenas mudanças na formulação do comando. Não existe “o” prompt correto; existe um processo iterativo de refinamento. Isso é metodologia, pode ser ensinado, merece ser discutido, não é mero detalhe técnico de programador.
2. Segundo, degradação da compreensão com textos longos.
Mesmo dentro da janela de contexto (a caixinha), o modelo perde coerência conforme o documento cresce. No caso italiano, quanto maior o texto fonte, mais erros. Recomendação dos autores: trabalhe sempre abaixo de metade do limite anunciado. Dá mais trabalho, mas funciona.
3. Terceiro, inconsistência estrutural.
O modelo às vezes ignora instruções que damos a ele: troca colunas, omite campos, inventa categorizações. Rodar de novo o mesmo prompt geralmente resolveu, mas evidencia uma instabilidade da coisa.
4. Quarto, autoavaliação do GPT sobre seu próprio serviço não é lá muito confiável.
Quando o GPT-4 declarava confiança abaixo de 100%, a taxa de erro subia para 27%. Mas metade dos erros recebeu confiança de 100%. Usar a autoavaliação como filtro é problema certo.
Um alerta metodológico: a engenharia de prompt não é um detalhe
A formulação do prompt determina diretamente a qualidade dos resultados. Não se trata de acessório, é uma parte central de agora em diante da metodologia de pesquisa.
Os autores recomendam incluir sempre três componentes:
(1) descrição clara do contexto (para que serve, o que quero estudar, etc.) e objetivo da tarefa específica que o GPT deve realizar,
(2) especificação detalhada do formato de saída esperado, os resultados que você quer e como quer, com exemplos de como cada campo deve ser, e
(3) instruções sobre casos ambíguos ou padrões comuns no corpus estudado.
No caso das atas da EPA, bastou adicionar “etc.” ao final da lista de posições possíveis para resolver erros recorrentes. Na extração de fontes jornalísticas, dividir a tarefa em três prompts sequenciais (identificar citações, agregar menções, estruturar em JSON) foi decisivo para reduzir a taxa de erro. Prompt engineering é um processo iterativo de teste, ajuste e validação. Quem usa GPT para coleta de dados precisa documentar esse processo com o mesmo rigor que documenta qualquer outro procedimento metodológico.
O que isso muda, na prática?
A tecnologia não substitui análise conceitual, julgamento metodológico ou responsabilidade ética. Mas transforma, concretamente, a viabilidade de certas perguntas empíricas.
Projetos que antes exigiam equipes grandes e financiamento também grande tornam-se acessíveis a pesquisadores individuais (mestrandas, doutorandas) ou grupos pequenos. A automação pode então, otimisticamente, deslocar o trabalho humano da codificação repetitiva para a validação qualificada do que foi feito e para sofisticar cada vez mais o desenho de pesquisa.
Isso importa em qualquer campo de pesquisa em que a documentação é volumosa, heterogênea e muito raramente padronizada. Ciências humanas, por exemplo. O GPT pode assim, se bem usado, expandir o alcance da pesquisa sem substituir o(a) pesquisador(a). Pode funcionar como um “multiplicador de capacidades”, mas não pode ser um agente que toma decisões sozinho.
A pesquisa científica continua exigindo sensibilidade teórica, leitura cuidadosa e capacidade de interpretar o texto à luz do contexto, em nosso caso, o mundo político. Como sabemos, “Garbage in, garbage out” (GIGO).
Nossa imaginação sociopolítica é, pelo menos até agora, insubstituível.
#CiênciaPolítica
#MetodologiaDePesquisa
#InteligênciaArtificial
#GPT
#PesquisaEmpírica
#BigData
#ColetaDeDados
#LLMs
#AcademicResearch
#PoliticalScience


Ótimo texto, obrigado por compartilhar sua leitura. A questão do prompting como metodologia é necessária para demonstrar que o envolvimento humano de curadoria é essencial.