ChatGPT ‘leva bomba’ em prova de título em gastroenterologia

Diana Swift

2 de junho de 2023

Dr. Arvind J. Trindade

O ChatGPT, um popular modelo de processamento de linguagem de inteligência artificial, foi reprovado várias vezes na prova de autoavaliação de gastroenterologia em um estudo recente.

As versões 3 e 4 do chatbot obtiveram apenas 65% e 62%, respectivamente, na prova de autoavaliação do American College of Gastroenterology (ACG). O percentual mínimo para passar na prova é de 70%.

"Espera-se que um médico pontue 99%, ou pelo menos 95%", disse em entrevista ao Medscape o primeiro autor Dr. Arvind J. Trindade, diretor regional de endoscopia da Northwell Health (região central) nos Estados Unidos.

O estudo foi publicado on-line em 22 maio de no periódico American Journal of Gastroenterology.

O Dr. Arvind e colaboradores fizeram o estudo em meio a um número cada vez maior de relatos de estudantes que usam a ferramenta em várias áreas acadêmicas, como direito e medicina, e em meio ao crescente interesse no potencial do chatbot na formação médica.

"Eu vi estudantes de gastroenterologia digitando perguntas no ChatGPT. Eu queria saber o grau de exatidão na gastroenterologia — se fosse usado na formação médica e no atendimento do paciente", disse o Dr. Arvind, que também é professor associado do Feinstein Institutes for Medical Research, nos EUA. "Segundo nossa pesquisa, o ChatGPT não deve ser usado para a formação médica em gastroenterologia neste momento, e tem um longo caminho a percorrer antes de ser implementado no campo da saúde."

Mau desempenho

Os pesquisadores testaram as duas versões do ChatGPT na 2021 and 2022 online ACG Self-Assessment Test, uma prova de múltipla escolha com o objetivo de avaliar qual seria o desempenho de um candidato à prova de título de gastroenterologia do American Board of Internal Medicine nos Estados Unidos.

As questões referentes à escolha de imagens foram excluídas do estudo. Entre as que permaneceram, as perguntas e as opções de resposta foram copiadas e coladas diretamente no ChatGPT, que gerou respostas e explicações. A resposta correspondente foi selecionada no site do ACG.

Das 455 perguntas formuladas, o ChatGPT-3 respondeu corretamente 296 e o ChatGPT-4 acertou 284. Não houve padrão discernível do tipo de pergunta que o ChatGPT respondeu incorretamente, mas perguntas sobre o tempo de acompanhamento dos vários tipos de doença, diagnóstico e esquemas farmacológicos foram respondidas incorretamente.

As razões para o mau desempenho da ferramenta podem estar no grande modelo de linguagem estrutural do ChatGPT, escreveram os pesquisadores. O modelo foi treinado com informações disponíveis gratuitamente — não especificamente na literatura médica e nem em materiais que exigem assinaturas de periódicos médicos pagos — para ser um programa interativo de propósito geral.

Além disso, o ChatGPT pode usar informações de várias fontes, inclusive de fontes que não são médicas ou são quase médicas, ou fontes desatualizadas, que podem induzir a erros, observaram. O ChatGPT-3 foi atualizado pela última vez em junho de 2021 e o ChatGPT-4 em setembro de 2021.

"O ChatGPT não consegue compreender intrinsecamente um problema", disse o Dr. Arvind. "Sua função básica é prever a próxima palavra em uma cadeia de texto para produzir a resposta esperada, independentemente dessa resposta ser factualmente correta ou não."

Pesquisas anteriores

Em um estudo anterior, o ChatGPT conseguiu ter êxito em partes da prova de licenciamento em medicina.

O ChatGPT pode ter tido um melhor desempenho nestas provas porque as informações avaliadas podem ter estado mais amplamente disponíveis para o treinamento da linguagem do ChatGPT, disse o Dr. Arvind. "Além disso, a nota para passar na prova de licenciamento em medicina é menor em relação ao percentual de perguntas respondidas corretamente", disse o pesquisador.

O ChatGPT parece ser melhor em ajudar a informar os pacientes do que nas provas de medicina. O ChatGPT deu respostas geralmente satisfatórias a consultas comuns de pacientes sobre a colonoscopia em um estudo e sobre o carcinoma hepatocelular e a cirrose hepática em outro estudo.

Para que o ChatGPT tenha valor na formação médica, as "futuras versões precisariam ser atualizadas com recursos médicos, como artigos de periódicos, diretrizes de sociedades e bancos de dados médicos, como o UpToDate", disse o Dr. Arvind. "Com formação médica direcionada para a gastroenterologia, pode ser uma futura ferramenta para o treinamento ou uso pelos pacientes neste campo, mas não como está agora. Antes de poder ser usado na gastroenterologia, precisa ser validado."

Dito isso, observou pesquisador, a formação médica evoluiu dos livros didáticos e revistas impressas para englobar dados de periódicos publicados na internet e diretrizes de conduta de sites especializados. Se devidamente preparados, recursos como ChatGPT podem ser logicamente a próxima etapa.

Este estudo não recebeu financiamento. O Dr. Arvind J. Trindade presta consultoria para as empresas Pentax Medical, Boston Scientific, Lucid Diagnostic e Exact Science e recebe subsídios de pesquisa da empresa Lucid Diagnostics.

Am J Gastroenterol. Publicado on-line em 22 de maio de 2023. Abstract

Diana Swift é jornalista médica freelance e mora em Toronto.

Este conteúdo foi originalmente publicado no Medscape

Siga o Medscape em português no Facebook, no Twitter e no YouTube

Comente

3090D553-9492-4563-8681-AD288FA52ACE
Comentários são moderados. Veja os nossos Termos de Uso

processing....