Дослідження, проведене педіатрами з дитячого медичного центру Коена в Нью-Йорку, проливає світло на поточні обмеження великих мовних моделей, таких як ChatGPT, у галузі медицини, особливо при діагностиці дитячих захворювань. Результати дослідження виявляють значний розрив між потенціалом і поточними можливостями таких інструментів штучного інтелекту в медичній діагностиці.
У ході дослідження ChatGPT був протестований на 100 випадкових педіатричних випадках, і було виявлено, що його ефективність у постановці точних діагнозів значно нижче, з показником точності всього 17%. Це підкреслює складність діагностики дитячих захворювань, що вимагає тонкого розуміння різних симптомів у контексті віку пацієнта.
Методологія включала постановку запитань у ChatGPT про” диференціальний діагноз “та “остаточний діагноз” для кожного випадку. Потім відповіді оцінювали два незалежні педіатри, які не брали участі у дослідженні. Ці відповіді були класифіковані як “правильні”, “неправильні” або “неповні діагнози”.
Примітно, що навіть серед 17 випадків, коли діагноз ChatGPT був визнаний правильним, тільки в 11 був виявлений клінічний зв’язок з точним діагнозом, і в них теж були помилки. Це відкриття має вирішальне значення, оскільки воно підкреслює проблеми, з якими стикається ШІ при розумінні та обробці складної медичної інформації.
Висновок дослідження очевидний: в цей час ChatGPT і аналогічні інструменти штучного інтелекту ненадійні для цілей медичної діагностики. Однак дослідники також припускають, що при більш цілеспрямованому навчанні та вдосконаленні технології штучного інтелекту точність таких інструментів може бути підвищена в майбутньому.
Це дослідження служить нагадуванням про важливість людського досвіду в охороні здоров’я та необхідність ретельного розгляду при інтеграції інструментів штучного інтелекту в медичну практику. Хоча ШІ потенційно може допомогти в медичній діагностиці, вкрай важливо, щоб ці інструменти використовувалися з обережністю і в поєднанні з професійним медичним висновком.