Chat GPT-4 на рівні лікарів-експертів може впоратись в оцінці зору – дослідження

Іван Гавриляк

18 квiтня, 18:55 glavcom.ua

Chat GPT-4 на рівні лікарів-експертів може впоратись в оцінці зору – дослідження

фото: Depositphotos

GPT-4 показав кращі результати, ніж стажери та молодші лікарі, правильно відповівши на 60 з 87 запитань

Нещодавнє дослідження Школи клінічної медицини Кембриджського університету показало, що OpenAI GPT-4 показали майже такі ж результати в офтальмологічній оцінці, як і експерти в цій галузі, повідомляє Engadget з посиланням на Financial Times.

У дослідженні, опублікованому в PLOS Digital Health, дослідники протестували LLM, його попередника GPT-3.5, PaLM 2 від Google та LLaMA від Meta за допомогою 87 запитань з множинним вибором. П'ять експертів-офтальмологів, три офтальмологи-стажисти та два неспеціалізовані молодші лікарі отримали однаковий іспит. Питання були взяті з підручника для тестування студентів-практикантів з усіх питань, від чутливості до світла до уражень. Вміст підручника не є загальнодоступним, тому дослідники вважають, що магістри не могли навчатися за ним раніше. ChatGPT, оснащений GPT-4 або GPT-3.5, мав три спроби відповісти остаточно, інакше його відповідь позначалася як нульова.

GPT-4 показав кращі результати, ніж стажери та молодші лікарі, правильно відповівши на 60 з 87 запитань. Хоча це значно вище, ніж середній показник молодших лікарів (37 правильних відповідей), він лише трохи випередив середній показник трьох стажерів (59,7). У той час як один експерт-офтальмолог правильно відповів лише на 56 запитань, п'ятеро інших отримали в середньому 66,4 правильних відповідей, випередивши машину. PaLM 2 отримав 49 балів, а GPT-3.5 – 42. LLaMa набрала найнижчий бал – 28, що нижче, ніж у молодших лікарів. Варто зазначити, що ці випробування відбулися в середині 2023 року.

Хоча ці результати мають потенційні переваги, існує також чимало ризиків і занепокоєнь. Дослідники зазначають, що в дослідженні було запропоновано обмежену кількість запитань, особливо в певних категоріях, а це означає, що фактичні результати можуть бути різними. Магістранти також мають схильність до «галюцинацій» або вигадок. Одна справа, якщо це несуттєвий факт, але стверджувати про наявність катаракти або раку – зовсім інша історія. Як і в багатьох випадках використання LLM, системам також бракує нюансів, що створює додаткові можливості для неточності.

Нагадаємо, що раніше напередодні чотириденного вигнання генерального директора OpenAI Сема Альтмана Кілька дослідників OpenAI (лабораторії досліджень штучного інтелекту) написали листа до ради директорів, у якому попередили про потужне відкриття у сфері штучного інтелекту, яке може загрожувати людству. Про це пише Reuters із посиланням на два джерела, знайомі з питанням.

В OpenAI відмовилися відповідати на запит журналістів, однак у внутрішньому повідомленні для співробітників визнали проєкт під назвою Q* (вимовляється як Q-Star), який може стати проривом у тривалих пошуках компанією так званого універсального штучного інтелекту (AGI) – автономної ШІ-системи, яка перевершує людину у виконанні більшості економічно цінних завдань. З допомогою величезних обчислювальних ресурсів нова модель змогла б вирішити певні математичні завдання.

Читайте також: