Na prática, qual IA entende o Direito brasileiro?
A grande maioria dos advogados brasileiros já usam inteligência artificial generativa no dia a dia. Mas uma pergunta que vem ganhando espaço entre os operadores do Direito: “as respostas geradas pela IA que uso são confiáveis?”. Em 2025, tribunais brasileiros já multaram advogados por apresentar petições com jurisprudência inventada por IA generativa. Precedentes falsos, leis inexistentes, argumentos superados. O impacto não é só técnico: é profissional, ético e pode custar caro.
Por isso, decidimos ir além de observar. Reunimos 48 advogados de todo o país ecomparamos, de forma independente e cega, a qualidade das respostas de quatro sistemas de IA em tarefas reais da advocacia. Nosso compromisso foi de lançar luz sobre uma questão urgente: quando confiança é inegociável, como escolher a IA jurídica certa? O estudo foi criado para ajudar cada profissional a fazer escolhas mais embasadas, porque cada peça, cada argumento e cada decisão carrega a sua assinatura.
O estudo foi concebido para refletir situações reais do cotidiano jurídico brasileiro, comparando o desempenho da Jus IA com o de três sistemas de IA generalistas de uso difundido, ChatGPT em suas versões paga e gratuita, ambas usando GPT5 e Gemini versão 2.5 Pro. O foco foi avaliar a qualidade das respostas produzidas por cada sistema, considerando não apenas o acerto técnico, mas também a completude, a clareza e a confiabilidade das informações apresentadas.
A metodologia adotada partiu de cinco intenções de uso:
No contexto deste estudo, chamamos de intenção de uso o propósito funcional da interação com a IA, isto é, o tipo de atividade profissional que orienta a interação com a ferramenta e o formato esperado da resposta.
Para cada uma dessas intenções, foram criados casos práticos, inspirados em usos reais do Jus IA e adaptados a diferentes áreas do Direito. Todos os casos foram submetidos aos quatro sistemas conversacionais, com instruções idênticas e neutras, para evitar qualquer viés no resultado.
As respostas foram avaliadas às cegas por 48 advogados brasileiros, de diferentes regiões, níveis de experiência e especializações. Nenhum avaliador sabia que estava analisando respostas de sistemas de IA, nem a qual sistema cada resposta pertencia.
Cada resposta foi avaliada com base em quatro critérios:
![]()
![]()
Podemos observar resultados que mostram a porcentagem de desempenho nas intenções de uso analisadas. Em comparação a outras IAs generalistas, o Jus IA mantém o desempenho melhor em todos os critérios, com uma diferença maior em “pesquisar precedentes e casos similares”. Em “gerar e ajustar documento” é onde vemos uma flutuação menor de desempenhos nas intenções de uso, demonstrando ser um ponto a ser melhorado em todas as IAs, sejam jurídicas ou generalistas.
![]()
Em questões de critérios, com as médias e desvio padrão de cada, os resultados apontam que o Jus IA performou melhor em todas as dimensões avaliadas, com diferenças mais expressivas nos critérios de corretude e confiabilidade. Os sistemas conversacionais generalistas demonstraram bom desempenho de linguagem, especialmente em fluidez e completude, mas maior variabilidade entre casos e maior propensão a erros jurídicos.
Para aprofundar ainda mais os resultados apresentados, mostramos aqui exemplos de alguns critérios e intenções de uso de forma mais específica, adicionando uma camada complementar aos dados apresentados acima e prezando pela transparência dos resultados do estudo.
![]()
Jus IA performa melhor no critério de confiabilidade em todas as intenções de uso. “Entender conceito jurídico” é uma das intenções em que a diferença de desempenho de Jus IA frente às outras soluções é mais relevante.
![]()
“Gerar e ajustar documento” é uma intenção de uso em que o desempenho de Jus IA é inferior ao de outras soluções para o critério de fluidez. O resultado é em partes justificado pelo foco do produto em corretude e confiabilidade de informações, que pode comprometer a naturalidade dos textos. Aqui, o Gemini mostra o melhor desempenho.
![]()
Jus IA performa melhor que outras IAs generalistas no critério de corretude em todas as intenções de uso. A intenção exibida aqui, de “analisar e resumir documentos” exemplifica um resultado que se repete nas demais intenções.
![]()
Jus IA empata com outras IAs no critério de completude para a intenção de “analisar e resumir documentos”, sendo esse critério o que menos mostra oscilação entre as médias das IAs.
De modo geral, os dados reforçam que a especialização do sistema é determinante para a qualidade percebida da resposta jurídica, sobretudo em tarefas que exigem precisão normativa, interpretação de precedentes e contextualização de conceitos. Também é importante observar que sistemas treinados com base normativa e dogmática produzem respostas mais corretas e confiáveis, porém menos fluídas em alguns contextos.
Para o futuro, pretendemos ampliar o estudo, em número de casos, avaliadores e inclusão de outras ferramentas de IA, mantendo nosso rigor e foco em qualidade.