Métodos de avaliação de políticas públicas — Notas de Aula

Como saber se uma política pública realmente funcionou? Essa pergunta parece simples, mas ela está no centro de uma das tarefas mais difíceis da economia do setor público. Governos criam impostos, subsídios, regulações e programas com objetivos declarados bastante claros. Ainda assim, entre a intenção da política e seu resultado final existe um intervalo decisivo: o comportamento das pessoas, a presença de outros fatores atuando ao mesmo tempo e a dificuldade de distinguir coincidência de causa.

Pense em uma situação comum no debate público. Uma nova regra é criada, alguns indicadores melhoram e o governo anuncia que a política foi bem-sucedida. Mas essa melhora foi realmente produzida pela intervenção estatal? Ou teria acontecido de qualquer forma, por mudanças econômicas, tecnológicas ou sociais que ocorreram ao mesmo tempo? É essa dúvida que dá unidade ao capítulo.

O ponto de partida de Rosen é claro: em políticas públicas, não basta descrever o que aconteceu depois de uma medida. É preciso descobrir o que a medida causou. Essa mudança de foco parece pequena, mas transforma completamente a análise. Em vez de simplesmente observar resultados, o economista passa a perguntar qual seria a comparação correta, quais mecanismos estão em jogo e que método pode separar o efeito da política do ruído do mundo real.

Essa exigência leva naturalmente ao primeiro instrumento do capítulo: a teoria. Antes de medir qualquer efeito, é preciso saber o que procurar, quais relações são plausíveis e por que a intuição, sozinha, costuma ser insuficiente.

2.2 O papel da teoria

A teoria econômica é o ponto de partida da análise, não porque ofereça uma fotografia completa da realidade, mas porque organiza o problema. Um modelo teórico não existe para reproduzir o mundo em todos os seus detalhes. Ele existe para destacar mecanismos essenciais, simplificar relações complexas e indicar onde estão as perguntas importantes. Sem essa estrutura inicial, a observação empírica corre o risco de se tornar uma coleção desordenada de fatos.

Isso aparece com clareza quando se discute o efeito de impostos sobre a oferta de trabalho. À primeira vista, a conclusão parece imediata: se o governo reduz o imposto sobre a renda, o trabalhador fica com uma parcela maior do salário e, portanto, terá mais incentivo para trabalhar. Essa é a intuição mais comum no debate político. O problema é que ela enxerga apenas uma parte da história.

A teoria mostra que uma mudança tributária desse tipo aciona, ao mesmo tempo, duas forças distintas. De um lado, surge o efeito substituição. Como o ganho líquido por hora aumenta, o lazer se torna relativamente mais caro, e isso tende a incentivar mais trabalho. De outro, surge o efeito renda. Como a pessoa passa a dispor de mais recursos, pode decidir consumir mais tempo livre, trabalhando menos. A mesma política, portanto, pode empurrar o comportamento em direções opostas.

É exatamente aqui que a teoria se revela útil. Ela obriga o analista a abandonar conclusões lineares e a reconhecer ambiguidades que o senso comum costuma ignorar. Em vez de responder de forma apressada se a redução de impostos aumenta ou diminui o trabalho, a teoria mostra por que essa pergunta não pode ser respondida apenas pela intuição.

O mesmo raciocínio vale para políticas que parecem ainda mais óbvias. A exigência de equipamentos de segurança em automóveis, como cintos e airbags, parece um caso em que não haveria nada a discutir empiricamente. Se o carro fica mais seguro, vidas serão salvas. No entanto, a teoria chama atenção para um efeito indireto importante: quando o motorista se sente mais protegido, pode assumir mais riscos ao dirigir. A medida continua podendo salvar vidas, mas o resultado final talvez não coincida perfeitamente com a intenção original. A política altera a proteção, mas também altera incentivos.

A teoria, portanto, cumpre uma dupla função. Primeiro, ela oferece um ponto de partida para pensar o problema. Segundo, ela mostra por que esse ponto de partida não basta. Ao revelar ambiguidades e efeitos concorrentes, a teoria prepara o terreno para a etapa seguinte. Se os mecanismos apontam em direções diferentes, já não é mais possível decidir no quadro negro. Torna-se necessário recorrer à evidência empírica. Mas, antes disso, é preciso enfrentar uma dificuldade básica: observar associação entre duas variáveis não significa descobrir uma relação causal entre elas.

2.3 Causalidade versus correlação

Uma das tentações mais comuns na análise de políticas públicas é tomar uma correlação como se fosse prova de causalidade. Quando duas variáveis se movem juntas, o impulso inicial é supor que uma provocou a outra. O capítulo mostra que esse salto é perigoso. Em uma realidade social complexa, muitas coisas acontecem simultaneamente, e o fato de andarem juntas não significa que estejam ligadas por causa e efeito.

O exemplo do casamento e dos salários ajuda a enxergar o problema. Suponha que os dados mostrem que homens casados ganham, em média, mais do que homens solteiros. Seria correto concluir que o casamento aumenta o salário? A conclusão parece tentadora, mas é frágil. Pode existir um terceiro fator, menos visível, afetando os dois resultados ao mesmo tempo. Características como disciplina, ambição, estabilidade emocional ou capacidade de organização podem aumentar tanto a probabilidade de êxito no mercado de trabalho quanto a probabilidade de casamento.

Esse tipo de situação mostra por que a correlação pode enganar. O problema não está apenas em observar duas variáveis associadas, mas em ignorar fatores omitidos que ajudam a explicar ambas. Quando isso acontece, o analista pode atribuir à política ou ao fenômeno errado um efeito que, na verdade, tem outra origem.

Essa limitação muda o foco da pergunta. Já não basta saber se duas coisas caminham juntas. A pergunta passa a ser mais exigente: o que teria acontecido se a variável de interesse não tivesse mudado? Essa formulação nos leva ao conceito de contrafactual, que é o coração de toda inferência causal séria.

Suponha que um governo crie um programa de treinamento profissional e que, algum tempo depois, os participantes apresentem salários mais altos. Isso não prova, por si só, que o curso funcionou. A economia pode ter melhorado no período. As empresas podem ter ampliado contratações. Além disso, os participantes podem já ter sido, desde o início, mais motivados do que os não participantes. Comparar antes e depois, ou comparar participantes com não participantes, ainda é insuficiente.

O que realmente interessaria saber é outra coisa: o que teria acontecido com esses mesmos participantes, naquele mesmo momento histórico, se eles não tivessem feito o curso? Esse mundo alternativo não pode ser observado diretamente. E é justamente por isso que a avaliação de políticas públicas se torna um problema metodológico sofisticado. Se a pergunta correta é contrafactual, o desafio passa a ser construir uma comparação crível para esse cenário não observado.

Conceito-chave — Contrafactual

Contrafactual é a descrição do que teria acontecido com o mesmo grupo na ausência da política. Como esse cenário alternativo não pode ser observado diretamente, toda avaliação séria precisa construir uma comparação crível para ele. Sem um contrafactual plausível, a análise não consegue separar efeito real de coincidência.

A partir daqui, o texto avança de forma natural. Uma vez compreendido o problema da causalidade, surge a próxima questão: qual é a melhor estratégia para aproximar esse contrafactual? A resposta mais limpa é o experimento aleatorizado.

2.4 Estudos experimentais

Os estudos experimentais aparecem no capítulo como a resposta metodológica mais próxima do ideal causal. Seu formato mais conhecido é o experimento aleatorizado, ou randomized controlled trial, geralmente abreviado como RCT. A ideia central é simples: se não podemos observar a mesma pessoa em dois mundos paralelos, podemos ao menos criar dois grupos comparáveis por sorteio e observar o que acontece com cada um deles.

Voltemos ao exemplo do programa de treinamento profissional. O desenho ideal seria selecionar um conjunto de indivíduos elegíveis e sortear quem receberá a vaga no curso e quem ficará fora. O primeiro grupo se torna o grupo de tratamento. O segundo, o grupo de controle. Como a seleção foi aleatória, a tendência é que ambos os grupos sejam semelhantes, em média, tanto nas características observáveis quanto nas não observáveis. Se, depois da intervenção, o grupo tratado apresentar resultados melhores, a diferença observada pode ser atribuída com muito mais confiança ao programa.

É por isso que os RCTs são frequentemente tratados como benchmark da inferência causal. Eles não são importantes apenas porque usam sorteio, mas porque o sorteio reduz drasticamente o problema da seleção. Em vez de comparar pessoas que escolheram participar com pessoas que não escolheram, o pesquisador compara grupos formados por uma regra externa, impessoal e aleatória.

Um bom exemplo da aplicação desse método aparece em estudos associados a Esther Duflo, Abhijit Banerjee e Michael Kremer na avaliação de políticas de educação e combate à pobreza. Em vários casos, escolas, famílias ou comunidades foram distribuídas aleatoriamente entre tratamento e controle para avaliar intervenções como reforço escolar, distribuição de material didático, programas de tutoria ou incentivos à frequência. A força desses estudos está justamente em permitir uma comparação muito mais limpa entre quem recebeu e quem não recebeu a política.

A utilidade dos RCTs, contudo, não elimina seus limites. O primeiro é ético. Nem toda política pode ser sorteada. Não seria aceitável negar deliberadamente um serviço essencial apenas para produzir um experimento melhor. O segundo é prático. Políticas públicas frequentemente já estão em andamento quando o pesquisador chega, o que impede o desenho experimental desde o início. O terceiro limite está na validade externa. Uma intervenção que funcionou em uma região, em um momento histórico e sob certo desenho institucional pode não produzir o mesmo resultado em outro contexto.

Existe ainda um problema adicional. Mesmo quando o RCT mostra com clareza que houve efeito, ele nem sempre esclarece totalmente o mecanismo. Um programa pode elevar renda ou melhorar aprendizagem sem revelar, de forma completa, por qual canal isso ocorreu. Os participantes estudaram mais? Os professores mudaram comportamento? As famílias passaram a acompanhar mais de perto os alunos? O experimento melhora muito a identificação causal, mas nem sempre resolve sozinho a interpretação substantiva do fenômeno.

Essa combinação de força e limitação explica por que os RCTs ocupam um lugar especial. Eles funcionam como referência metodológica. São o ideal contra o qual outros métodos são frequentemente comparados. Mas justamente porque nem sempre são viáveis, a pesquisa aplicada precisa recorrer a outras estratégias. É aqui que entram, primeiro, os estudos observacionais e, depois, os quase-experimentos, que tentam aproximar a lógica experimental dentro das restrições do mundo real.

2.5 Estudos observacionais

Na maior parte das políticas públicas, o pesquisador não encontra um laboratório. Encontra uma realidade já em curso. A política foi implementada, os indivíduos não foram sorteados e os dados disponíveis refletem escolhas, restrições e contextos diversos. É nesse cenário que surgem os estudos observacionais.

Sua importância é enorme. Eles permitem estudar políticas que já aconteceram, situações em larga escala e fenômenos que jamais poderiam ser produzidos em ambiente experimental. Em termos práticos, boa parte do conhecimento aplicado em economia do setor público depende desse tipo de evidência. O problema é que, justamente por nascerem no mundo real, esses estudos enfrentam comparações muito mais difíceis.

Quando comparamos grupos observados, quase nunca estamos comparando unidades realmente equivalentes. Quem participa de um programa pode ser diferente de quem não participa. Estados que adotam certa política podem ser diferentes dos que não adotam. Escolas com turmas menores podem atender famílias distintas daquelas atendidas por escolas com turmas maiores. Em todos esses casos, a diferença observada no resultado pode refletir não apenas o efeito da política, mas também diferenças prévias entre os grupos.

A econometria entra nesse ponto como tentativa de disciplinar a comparação. Ao usar regressões múltiplas, o pesquisador busca controlar fatores observáveis que podem influenciar o resultado, como idade, escolaridade, renda ou composição familiar. Esse esforço é útil porque reduz parte da heterogeneidade entre os grupos e melhora a qualidade da inferência.

Mas a utilidade do método vem acompanhada de uma limitação importante. Controlar variáveis observáveis não elimina o risco de viés causado por fatores não observados. Sempre pode haver algo relevante fora da base de dados: motivação, talento, capital social, preferências, qualidade institucional local. Se esses elementos omitidos afetam tanto a variável explicativa quanto o resultado, a estimativa permanece contaminada.

A lição é clara. Os estudos observacionais são indispensáveis, mas exigem prudência. Eles ampliam muito o alcance da análise empírica, mas não resolvem automaticamente o problema da identificação causal. Essa tensão entre necessidade prática e fragilidade metodológica explica por que a economia aplicada avançou em outra direção: buscar, dentro da própria realidade, situações que imitem parcialmente a lógica do experimento. É essa busca que estrutura os quase-experimentos.

2.6 Estudos quase-experimentais

Os quase-experimentos nascem de um impasse. Os RCTs são fortes, mas muitas vezes inviáveis. Os estudos observacionais são necessários, mas frequentemente vulneráveis a vieses de seleção e variáveis omitidas. Diante disso, economistas passaram a procurar situações em que o próprio mundo social, por acidente ou por desenho institucional, produzisse algo próximo a uma atribuição aleatória.

Essa é a lógica unificadora dos quase-experimentos. O pesquisador não controla a realidade, mas explora suas fraturas, suas regras, seus choques externos e suas comparações naturais. Em vez de criar um laboratório, ele procura circunstâncias em que a própria vida social gerou uma oportunidade de identificação mais convincente.

2.6.1 Diferenças em diferenças

Uma das estratégias mais conhecidas é o método de diferenças em diferenças. Seu ponto de partida é um problema muito comum: observar uma mudança depois de uma política e atribuí-la automaticamente à política. A técnica existe justamente para evitar esse erro.

Imagine um estado que aumente o imposto sobre bebidas alcoólicas com o objetivo de reduzir mortes de adolescentes no trânsito. Se as mortes caírem no ano seguinte, a conclusão apressada seria dizer que a medida funcionou. Mas isso ainda não resolve o problema causal. Talvez as mortes já estivessem caindo em todo o país por outros motivos, como mudanças tecnológicas nos veículos, campanhas nacionais ou alterações na fiscalização.

O que o método propõe é uma comparação em duas etapas. Primeiro, mede-se a mudança no estado que adotou a política, antes e depois da intervenção. Depois, mede-se a mesma mudança em estados semelhantes que não adotaram a política. O efeito estimado é a diferença entre essas duas variações. Em linguagem simples, a pergunta é esta: o que mudou no grupo tratado além daquilo que já estava mudando também no grupo de comparação?

Esse tipo de desenho foi amplamente usado em avaliações de políticas estaduais e federais, justamente porque muitos governos implementam mudanças em momentos diferentes. A utilidade do método está em tentar descontar tendências gerais do ambiente. Seu limite, porém, está em uma hipótese forte: a de que, sem a política, os grupos comparados seguiriam trajetórias paralelas. Quando essa condição é plausível, o método se torna muito informativo. Quando não é, a inferência perde força.

2.6.2 Variáveis instrumentais

Outra estratégia importante é o uso de variáveis instrumentais. Ela surge quando a variável que queremos estudar está profundamente misturada a fatores não observados, tornando a comparação direta pouco confiável.

Pense na relação entre tamanho de turma e desempenho escolar. Se alunos em turmas menores obtêm notas melhores, isso não prova que a turma menor causou o bom desempenho. Famílias mais engajadas podem buscar escolas específicas, investir mais em acompanhamento e, ao mesmo tempo, acabar em ambientes com classes menores. A relação observada pode refletir não o tamanho da turma em si, mas o perfil das famílias.

A ideia do instrumento é encontrar uma fonte externa de variação que altere o tamanho das turmas sem estar ligada, por outros caminhos, ao desempenho dos alunos. Flutuações demográficas inesperadas podem cumprir esse papel em certos contextos. Se uma coorte excepcionalmente grande entra na escola, as turmas ficam maiores por uma razão externa ao esforço dos pais ou à motivação dos alunos.

Esse exemplo ajuda a visualizar a lógica do método. O pesquisador deixa de comparar simplesmente turmas grandes e pequenas. Ele passa a explorar apenas a parte da variação do tamanho da turma que veio de uma força externa ao problema original. A utilidade do método está justamente em extrair, do mundo real, uma variação mais limpa da variável de interesse. Seu limite é que encontrar um instrumento verdadeiramente válido é difícil. A técnica é poderosa, mas só funciona bem quando a justificativa do instrumento é forte tanto do ponto de vista teórico quanto empírico.

2.6.3 Regressão descontínua

A regressão descontínua parte de outro tipo de oportunidade analítica: regras institucionais baseadas em pontos de corte. Em muitas políticas públicas, o acesso a um programa depende de uma nota, uma renda, uma idade ou algum outro limiar administrativo. Nesses casos, indivíduos muito próximos da fronteira tendem a ser bastante parecidos, embora recebam tratamentos diferentes por uma diferença mínima na regra.

Considere um programa de reforço escolar obrigatório para alunos que obtiveram nota abaixo de determinado limite. Comparar todos os alunos que fizeram reforço com todos os que não fizeram seria inadequado, porque os grupos são muito diferentes em desempenho prévio. Mas comparar um aluno que tirou 49 com outro que tirou 50 pode ser muito mais informativo. Eles provavelmente são semelhantes em vários aspectos, mas a regra os tratou de maneira distinta.

Esse tipo de desenho foi usado em estudos clássicos sobre programas educacionais e elegibilidade a benefícios públicos. A força do método está em explorar o fato de que, perto da linha de corte, uma diferença mínima pode funcionar quase como um acaso administrativo. Assim, a fronteira se transforma em uma oportunidade valiosa para identificar efeitos causais. Seu limite é que a inferência tende a valer com mais segurança para aquela região próxima ao limiar. O método oferece forte credibilidade local, mas nem sempre permite generalizações amplas.

2.6.4 Limites dos quase-experimentos

Os quase-experimentos representam um enorme avanço metodológico porque aproximam a pesquisa aplicada do ideal experimental sem exigir controle total sobre a realidade. Ainda assim, eles não eliminam a necessidade de julgamento crítico.

Todos esses métodos dependem de hipóteses fortes: trajetórias paralelas, instrumentos válidos, ausência de manipulação da regra de corte, comparabilidade entre grupos. Se essas condições falham, a aparência de rigor pode ser enganosa. Além disso, mesmo quando a identificação é convincente, permanece a questão da generalização. Um resultado encontrado em certo contexto institucional pode não se repetir em outro.

A principal lição desse bloco é que os quase-experimentos não substituem o raciocínio. Eles o exigem ainda mais. Não basta aplicar uma técnica. É preciso entender por que ela funciona, em que condições funciona e até onde sua conclusão pode ser levada. Esse cuidado prepara a etapa final do capítulo: reunir o que foi aprendido e reconhecer tanto o valor quanto os limites do conhecimento empírico em políticas públicas.

2.7 Conclusões

O percurso do capítulo tem uma lógica clara. Ele começa mostrando que a teoria é necessária porque organiza o problema e revela ambiguidades invisíveis ao senso comum. Em seguida, mostra que a teoria, sozinha, não decide a questão, porque efeitos opostos podem operar simultaneamente. Daí surge a necessidade da evidência empírica. Mas a evidência só é útil se for capaz de enfrentar o problema da causalidade, e não apenas descrever correlações.

É nesse ponto que entram os métodos. Os RCTs oferecem a forma mais limpa de aproximação do contrafactual e, por isso, funcionam como referência metodológica. Os estudos observacionais ampliam enormemente o campo de investigação, embora tragam consigo o risco persistente de viés. Os quase-experimentos surgem como resposta engenhosa a esse impasse, explorando situações do mundo real que permitem comparações mais convincentes.

A mensagem final do capítulo não é a de que existe um método perfeito. É a de que boas políticas exigem boa inferência, e boa inferência exige disciplina intelectual. O analista sério não se satisfaz com slogans, com sequências temporais simples nem com a frase confortável de que "os dados mostram". Ele quer saber o que está sendo comparado, qual mecanismo está em jogo, que limitações permanecem e até onde a conclusão pode ser sustentada.

A pergunta final, portanto, permanece aberta e necessária: se descobrir causas já é difícil dentro da pesquisa cuidadosa, por que o debate público costuma parecer tão seguro quando afirma saber exatamente o que funciona?

Referência: Rosen, H. & Gayer, T. Public Finance, 8ª ed., Capítulo 2 — Tools of Positive Analysis.