Voltar ao Blog
Tecnologia
5 min de leitura

Por que ChatGPT Alucina Jurisprudência (e Como Resolver no Trabalho Jurídico)

E
Equipe Juspilot
28 de abril, 2026

A pergunta "ChatGPT cita precedente que não existe?" tem uma resposta técnica antes de ter uma resposta prática. E a resposta técnica não é "às vezes ele erra". É "ele nunca consultou nada, ele gerou o que provavelmente vem depois".

Entender essa diferença muda tudo no uso da IA em trabalho jurídico, porque define quando ela ajuda e quando ela vira passivo.

O que um LLM faz quando você pede uma jurisprudência

Modelos de linguagem como ChatGPT, Claude e Gemini são treinados para prever o próximo token de uma sequência de texto. Quando você pergunta "cite uma decisão do STJ sobre prescrição em ação de cobrança", o modelo não abre uma base de dados, não consulta site de tribunal, não verifica nada. Ele produz a sequência de palavras estatisticamente mais provável dado o contexto da conversa.

O resultado se parece com uma decisão real. Tem número de processo no formato esperado, ministro relator com nome plausível, ementa em linguagem jurídica adequada, data coerente. O problema é que "se parece" não é "é". O número de processo pode não existir. O ministro pode nunca ter relatado aquele tema. A ementa pode misturar trechos de decisões diferentes.

Isso não é bug. É exatamente o que o modelo foi treinado para fazer.

O caso público que vale citar

Em 2023, no caso Mata v. Avianca, advogados nos Estados Unidos apresentaram peça em tribunal federal com seis precedentes citados. Os seis foram inventados pelo ChatGPT. Nomes de partes, números, ementas, citações internas, tudo gerado pelo modelo com aparência convincente. O juiz pediu cópia das decisões, os advogados consultaram o ChatGPT de novo, o modelo "confirmou" que as decisões existiam e gerou trechos adicionais. As sanções vieram em seguida.

O caso virou referência porque mostra dois pontos. Primeiro, que a alucinação é difícil de detectar a olho desarmado, especialmente para quem não conferiu cada citação contra a fonte. Segundo, que a "confirmação" do modelo sobre o conteúdo gerado é mais alucinação, não validação.

Por que isso é mais grave em direito brasileiro

Três fatores aumentam o custo do erro no contexto nacional:

Precedentes vinculantes. Súmula vinculante, ARE com repercussão geral, RR com efeito vinculante em matéria trabalhista. Citar precedente inexistente em peça que invoca essa força não é só vexame, é erro técnico que abre flanco para a parte adversa demonstrar que a tese se sustenta em ar.

Prazo precluso. Petição protocolada com citação inventada não pode ser "consertada" depois sem custo. A correção, se possível, vira embargos de declaração, agravo, ou retificação que coloca a estratégia em xeque.

Sigilo profissional e responsabilidade civil. O Estatuto da OAB, art. 32, e o CC, art. 186, vinculam o advogado a deveres de zelo. Citação fabricada por delegação a uma ferramenta não afasta a responsabilidade do profissional que assinou a peça.

A correção é arquitetural, não de prompt

Há uma diferença grande entre "perguntar ao modelo" e "modelo busca e depois responde".

A primeira abordagem é o ChatGPT padrão. O modelo gera texto sem consultar nada. Pode acertar quando o tema é frequente no corpus de treino e a citação é reproduzida com fidelidade, mas a margem de alucinação está sempre presente, especialmente em jurisprudência específica ou recente.

A segunda abordagem é RAG (Retrieval-Augmented Generation). Antes de gerar a resposta, um sistema de busca consulta uma base curada e recupera os trechos relevantes. O modelo recebe esses trechos como contexto e responde com base neles, com citação vinculada à fonte. Se a busca não encontra nada, a resposta é "não encontrei", não "vou inventar".

A diferença não é de qualidade do modelo. É de sistema.

Como o Juspilot resolve

A pesquisa jurisprudencial do Juspilot é construída sobre uma base curada de STJ, STF e TST com monitoramento de status (vigente, superada, cancelada). A busca é híbrida: 70% semântica via embeddings em pgvector, 30% full-text, com reranking via Cohere. Quando o advogado pergunta sobre um precedente, o sistema recupera os trechos da base, e a resposta vem com link clicável para a decisão original.

Sem citação verificável, a sugestão não vira peça. O fluxo no editor de minutas deixa cada precedente sugerido vinculado à fonte original na base, não ao texto gerado pelo modelo. O advogado clica, lê a ementa, decide.

A escolha de modelo é multi-provider (OpenAI, Anthropic, Google, Cohere, DeepSeek). Quando um modelo degrada em qualidade, troca-se sem refazer fluxo. A base de jurisprudência segue intacta porque é independente do modelo.

Quando ChatGPT direto ainda faz sentido

Não é o caso de banir LLMs do dia a dia jurídico. Há tarefas onde o modelo solto entrega bem:

  • Brainstorm de tese antes da pesquisa (o advogado valida depois).
  • Redação preliminar de e-mail ao cliente sobre andamento.
  • Resumo de texto livre que o próprio advogado já leu.
  • Tradução de termo técnico, glossário, paráfrase.
  • Revisão de coesão e clareza de minuta já redigida.

A linha que separa uso seguro de uso arriscado é direta: enquanto o resultado for verificado pelo próprio advogado contra a fonte, o LLM ajuda. Quando o resultado entra em peça com citação que ninguém confere, vira passivo.

O ponto prático

A alucinação de jurisprudência não se resolve com "prompt melhor" nem com "modelo mais novo". Resolve-se com arquitetura: base curada, busca antes da geração, citação vinculada à fonte. Para quem trabalha com peças que vão para tribunal, a diferença entre uma plataforma com RAG sobre base verificada e um chat genérico não é de conveniência. É de risco.

Se você está avaliando como sair dessa exposição, vale testar o Analyze e o Drafts com casos reais do escritório por sete dias, sem cartão.

#chatgpt
#alucinação
#jurisprudência
#ia jurídica
#rag
#modelos de linguagem

Pronto para aplicar esses insights?

Junte-se a centenas de escritórios que já operam com inteligência artificial.

Experimentar Gratuitamente