
Dr. Arvind J. Trindade
O ChatGPT, um popular modelo de processamento de linguagem de inteligência artificial, foi reprovado várias vezes na prova de autoavaliação de gastroenterologia em um estudo recente.
As versões 3 e 4 do chatbot obtiveram apenas 65% e 62%, respectivamente, na prova de autoavaliação do American College of Gastroenterology (ACG). O percentual mínimo para passar na prova é de 70%.
"Espera-se que um médico pontue 99%, ou pelo menos 95%", disse em entrevista ao Medscape o primeiro autor Dr. Arvind J. Trindade, diretor regional de endoscopia da Northwell Health (região central) nos Estados Unidos.
O estudo foi publicado on-line em 22 maio de no periódico American Journal of Gastroenterology.
O Dr. Arvind e colaboradores fizeram o estudo em meio a um número cada vez maior de relatos de estudantes que usam a ferramenta em várias áreas acadêmicas, como direito e medicina, e em meio ao crescente interesse no potencial do chatbot na formação médica.
"Eu vi estudantes de gastroenterologia digitando perguntas no ChatGPT. Eu queria saber o grau de exatidão na gastroenterologia — se fosse usado na formação médica e no atendimento do paciente", disse o Dr. Arvind, que também é professor associado do Feinstein Institutes for Medical Research, nos EUA. "Segundo nossa pesquisa, o ChatGPT não deve ser usado para a formação médica em gastroenterologia neste momento, e tem um longo caminho a percorrer antes de ser implementado no campo da saúde."
Mau desempenho
Os pesquisadores testaram as duas versões do ChatGPT na 2021 and 2022 online ACG Self-Assessment Test, uma prova de múltipla escolha com o objetivo de avaliar qual seria o desempenho de um candidato à prova de título de gastroenterologia do American Board of Internal Medicine nos Estados Unidos.
As questões referentes à escolha de imagens foram excluídas do estudo. Entre as que permaneceram, as perguntas e as opções de resposta foram copiadas e coladas diretamente no ChatGPT, que gerou respostas e explicações. A resposta correspondente foi selecionada no site do ACG.
Das 455 perguntas formuladas, o ChatGPT-3 respondeu corretamente 296 e o ChatGPT-4 acertou 284. Não houve padrão discernível do tipo de pergunta que o ChatGPT respondeu incorretamente, mas perguntas sobre o tempo de acompanhamento dos vários tipos de doença, diagnóstico e esquemas farmacológicos foram respondidas incorretamente.
As razões para o mau desempenho da ferramenta podem estar no grande modelo de linguagem estrutural do ChatGPT, escreveram os pesquisadores. O modelo foi treinado com informações disponíveis gratuitamente — não especificamente na literatura médica e nem em materiais que exigem assinaturas de periódicos médicos pagos — para ser um programa interativo de propósito geral.
Além disso, o ChatGPT pode usar informações de várias fontes, inclusive de fontes que não são médicas ou são quase médicas, ou fontes desatualizadas, que podem induzir a erros, observaram. O ChatGPT-3 foi atualizado pela última vez em junho de 2021 e o ChatGPT-4 em setembro de 2021.
"O ChatGPT não consegue compreender intrinsecamente um problema", disse o Dr. Arvind. "Sua função básica é prever a próxima palavra em uma cadeia de texto para produzir a resposta esperada, independentemente dessa resposta ser factualmente correta ou não."
Pesquisas anteriores
Em um estudo anterior, o ChatGPT conseguiu ter êxito em partes da prova de licenciamento em medicina.
O ChatGPT pode ter tido um melhor desempenho nestas provas porque as informações avaliadas podem ter estado mais amplamente disponíveis para o treinamento da linguagem do ChatGPT, disse o Dr. Arvind. "Além disso, a nota para passar na prova de licenciamento em medicina é menor em relação ao percentual de perguntas respondidas corretamente", disse o pesquisador.
O ChatGPT parece ser melhor em ajudar a informar os pacientes do que nas provas de medicina. O ChatGPT deu respostas geralmente satisfatórias a consultas comuns de pacientes sobre a colonoscopia em um estudo e sobre o carcinoma hepatocelular e a cirrose hepática em outro estudo.
Para que o ChatGPT tenha valor na formação médica, as "futuras versões precisariam ser atualizadas com recursos médicos, como artigos de periódicos, diretrizes de sociedades e bancos de dados médicos, como o UpToDate", disse o Dr. Arvind. "Com formação médica direcionada para a gastroenterologia, pode ser uma futura ferramenta para o treinamento ou uso pelos pacientes neste campo, mas não como está agora. Antes de poder ser usado na gastroenterologia, precisa ser validado."
Dito isso, observou pesquisador, a formação médica evoluiu dos livros didáticos e revistas impressas para englobar dados de periódicos publicados na internet e diretrizes de conduta de sites especializados. Se devidamente preparados, recursos como ChatGPT podem ser logicamente a próxima etapa.
Este estudo não recebeu financiamento. O Dr. Arvind J. Trindade presta consultoria para as empresas Pentax Medical, Boston Scientific, Lucid Diagnostic e Exact Science e recebe subsídios de pesquisa da empresa Lucid Diagnostics.
Am J Gastroenterol. Publicado on-line em 22 de maio de 2023. Abstract
Diana Swift é jornalista médica freelance e mora em Toronto.
Este conteúdo foi originalmente publicado no Medscape
Siga o Medscape em português no Facebook, no Twitter e no YouTube
Créditos:
Imagem principal: Wanan Yossingkum/Dreamstime
Imagem 1: Feinstein Institutes for Medical Research
Medscape Notícias Médicas © 2023 WebMD, LLC
Citar este artigo: ChatGPT ‘leva bomba’ em prova de título em gastroenterologia - Medscape - 2 de junho de 2023.
Comente