Análise Comparativa do Desempenho de Chatgpt, Deepseek e Gemini Como Apoio Aos Processos de Ensino-aprendizagem

Autores

  • Fabiano Nimitti
  • João Gabriel Carvalho Rocha
  • Lucas Witson Bomfim Mwamakamba
  • Wilson Fabiano Ilha de Lima
  • Anne Suely Pinto Savall
  • Ana Paula Pesarico

Palavras-chave:

Inteligência, artificial, Educação, Tecnologia, Estratégias, Ensino

Resumo

Em 2022, a OpenAI mostrou ao mundo o poder de uma das primeiras inteligências artificias generativas (IA) que possuíam fluidez na comunicação, o ChatGPT. Desde então, diversas empresas do ramo têm lançado seus próprios modelos de linguagem, como o DeepSeek de empresa homônima e o Gemini do Google. Esses modelos mudaram a forma como interagimos com a tecnologia, automatizando tarefas e apoiando atividades complexas, como criação de textos e código de programação. Nesse contexto, essas IAs possuem aplicações relevantes, sobretudo no âmbito educacional, atuando como ferramentas de apoio ao processo de ensino-aprendizagem, oferecendo explicações personalizadas, auxiliando na resolução de exercícios, criando materiais de estudo adaptados ao nível do aluno e estimulando o pensamento crítico com questionamentos e cenários hipotéticos interativos. Todavia, esses modelos não são capazes de admitir desconhecimento o que podem provocar o fenômeno denominado alucinação. Assim sendo, buscando quantificar e qualificar a capacidade dessas IAs em aplicações educacionais, este trabalho se baseia na comparação entre as 3 principais IAs utilizadas no Brasil (ChatGPT, DeepSeek e Gemini), levando em conta os seguintes fatores: capacidade de explicação concisa e coerente, criação de resumos em tópicos para rápida conferência, e resolução de questões. Além disso, para garantir objetividade, foi mensurando a frequência de alucinações, a taxa de acertos em questões e o desempenho ao longo de múltiplas interações. Para testar se as IAs poderiam explicar determinado conteúdo de forma correta, foram selecionados alguns tópicos da área de biologia e física, sendo 10 conteúdos de cada área, comparando sempre as explicações com livros didáticos para ter certeza da exatidão da IA. Para avaliar a explicação didática utilizou-se o prompt: Quero que atue como professor didático e explique sobre x com ênfase em y, sendo x o conteúdo e y o tema específico. Nessa avaliação, o ChatGPT mostrou-se possuir a maior capacidade explicativa, apresentando alucinações em pequenas situações pontuais em cerca de 5% dos conteúdos solicitados e apenas nos tópicos relacionados à biologia. Ademais, o ChatGPT mostrou-se superior em termos didáticos, criando analogias e situações hipotéticas para melhor elucidar o aprendizado. O DeepSeek e Gemini apresentaram padrões de alucinações semelhantes em cerca de 10% dos conteúdos abordados em ambas as matérias, e não foram efetivos na criação de analogias e situações hipotéticas. Para comparar a capacidade de síntese e criação de resumos em tópicos aplicou-se o seguinte prompt: Vou te fornecer textos referentes aos conteúdos que estou estudando no momento, quero que você realize um resumo conciso e coerente, baseado no formato em tópicos e subtópicos sem adicionar qualquer informação que não estejam nos textos bases que te passei. Além disso, você deve se ater em manter os títulos e subtítulos iguais. Como resultado, o ChatGPT conseguiu elaborar os resumos mais completos, mantendo sempre os principais conceitos de cada texto que lhe foi fornecido. Entretanto, após cerca de 22 rodadas fornecendo textos na mesma conversa, o ChatGPT apresentou incoerências no modelo que devolvia os resumos, passando a confundir tópicos ou apresentar resumos em texto corrido. O DeepSeek apresentou desempenho semelhante ao do ChatGPT nesse quesito, porém, em raros casos omitia conceitos importantes dos conteúdos, e que obviamente deveriam estar explícitos nos resumos gerados. O DeepSeek, assim como o ChatGPT, apresentou problemas quando a conversa estava chegando próximo de 25 rodadas. Nesse ponto, o DeepSeek passou a inserir, de forma aleatória, palavras em língua inglesa nos resumos. Em ambos os casos, esse problema foi facilmente resolvido simplesmente criando um novo chat de conversa com a IA e reenviando o prompt de comando para ela. O Gemini não apresentou essa limitação. No entanto, seus resumos mostraram-se excessivamente extensos, evidenciando baixa capacidade de síntese. Por fim, para avaliar a capacidade de resolução de questões, foi utilizado um banco com 100 questões objetivas com 4 alternativas de cada uma das grandes áreas informadas anteriormente, totalizando 200 questões. Além do mais, foi passado para as IAs uma questão de cada vez e o seguinte prompt foi utilizado: Vou te enviar algumas questões, quero resolva e me informe o gabarito. Nesses pontos, as 3 IAs obtiveram desempenho semelhantes, com o Deepseek acertando o gabarito em 98% das vezes, seguido pelo ChatGPT com 96% de acerto e por fim o Gemini com 95,5%. Portanto, embora as três IAs apresentem potencial desempenho em diferentes aspectos, o ChatGPT destacou-se pelo apoio didático, o DeepSeek pela confiabilidade em resolução de questões e o Gemini pela constância ao longo de interações prolongadas. Assim sendo, as 3 IAs demonstraram que podem ser aliadas ao processo de ensino-aprendizagem desde que utilizadas de forma crítica e reflexiva.

Downloads

Os dados de download ainda não estão disponíveis.

Downloads

Publicado

2025-10-24

Como Citar

Análise Comparativa do Desempenho de Chatgpt, Deepseek e Gemini Como Apoio Aos Processos de Ensino-aprendizagem. Anais do Salão Inovação, Ensino, Pesquisa e Extensão, [S. l.], v. 1, n. 17, 2025. Disponível em: https://periodicos.unipampa.edu.br/index.php/SIEPE/article/view/120895. Acesso em: 14 maio. 2026.