Rola modeli językowych w medycynie – przewaga w teorii, ograniczenia w praktyce
Sztuczna inteligencja skuteczniejsza niż lekarze w testach wiedzy klinicznej
Nowe badanie przeprowadzone przez naukowców z Universität Marburg oraz Universitätsklinikum Gießen und Marburg (UKGM) wskazuje, że duże modele językowe (LLM) mogą osiągać wyższą skuteczność w standaryzowanych testach wiedzy medycznej niż lekarze i studenci medycyny. Wyniki te rodzą istotne pytania o rolę sztucznej inteligencji w praktyce klinicznej, jednocześnie podkreślając ograniczenia tych systemów w podejmowaniu rzeczywistych decyzji terapeutycznych.
W artykule:
- Rola modeli językowych w medycynie klinicznej
- Metodologia badania i charakterystyka uczestników
- Porównanie wyników AI i lekarzy
- Ograniczenia modeli AI w praktyce klinicznej
- Potencjalne zastosowania w codziennej pracy lekarza
- Przyszłość integracji sztucznej inteligencji w ochronie zdrowia
Czy systemy sztucznej inteligencji są już zdolne do lepszego odtwarzania wiedzy medycznej niż lekarze? Zespół badaczy z Universität Marburg oraz Universitätsklinikum Gießen und Marburg (UKGM) podjął próbę odpowiedzi na to pytanie, analizując zdolność 13 najbardziej znanych, publicznie dostępnych modeli językowych do przetwarzania i stosowania wiedzy klinicznej dotyczącej ostrego uszkodzenia nerek (AKI).
Badanie, prowadzone przez dr. Philippa Russa, objęło porównanie wyników modeli AI z grupą 123 ochotników, wśród których znaleźli się studenci medycyny oraz lekarze specjalizujący się w chorobach wewnętrznych. Uczestnicy ci brali udział w 131. Jahreskongress der Deutschen Gesellschaft für Innere Medizin (DGIM) – jednym z największych kongresów internistycznych w Europie, który odbył się w maju 2025 roku w Wiesbaden i zgromadził około 9000 uczestników. Wyniki badania zostały opublikowane w czasopiśmie „Scientific Reports”.
Przewaga maszyn w standaryzowanym teście wiedzy
Zarówno modele językowe, jak i uczestnicy badania rozwiązywali identyczny test wiedzy w języku niemieckim, obejmujący dwa realistyczne przypadki kliniczne oraz 15 pytań wielokrotnego wyboru dotyczących uszkodzenia nerek.
Wyniki okazały się jednoznaczne. Modele językowe uzyskały średnio 90% poprawnych odpowiedzi, podczas gdy uczestnicy kongresu osiągnęli jedynie 49%. Co istotne, kilka modeli AI odpowiedziało prawidłowo na wszystkie pytania, wykonując zadanie w znacznie krótszym czasie niż lekarze.
Znaczenie wyników i ograniczenia interpretacyjne
Autorzy badania podkreślają, że wyniki te potwierdzają zdolność dużych modeli językowych do bardzo precyzyjnego odtwarzania wiedzy medycznej zgodnej z aktualnymi wytycznymi w warunkach standaryzowanych.
Jednocześnie zaznaczają, że wysoka skuteczność w testach nie przekłada się bezpośrednio na zdolność do podejmowania samodzielnych decyzji klinicznych. Prof. dr med. Ivica Grgic, nefrolog i ekspert w dziedzinie AI, podkreśla, że kluczowe znaczenie nadal ma kliniczne doświadczenie oraz zdolność do kompleksowej oceny pacjenta. Odpowiedzialność za proces terapeutyczny pozostaje wyłącznie po stronie lekarza.
Znaczenie dla praktyki klinicznej
Dr Philipp Russ zwraca uwagę, że modele językowe mogą pełnić istotną funkcję wspierającą w praktyce klinicznej, szczególnie w zakresie szybkiego dostępu do aktualnej wiedzy medycznej. Ich zastosowanie może przyczynić się do poprawy efektywności pracy lekarzy, redukcji czasu potrzebnego na wyszukiwanie informacji oraz zwiększenia zgodności decyzji z obowiązującymi wytycznymi.
Jednakże systemy te mają również istotne ograniczenia. Mogą generować błędne lub nieprecyzyjne informacje (tzw. halucynacje), nie są zdolne do pełnego uchwycenia kontekstu psychospołecznego pacjenta, a przede wszystkim nie posiadają zdolności empatii ani percepcji klinicznej opartej na badaniu fizykalnym. Model językowy nie widzi, nie słyszy i nie odczuwa pacjenta, co stanowi fundamentalną barierę w zastąpieniu lekarza.
Perspektywy rozwoju i wyzwania systemowe
W świetle aktualnych danych sztuczna inteligencja powinna być traktowana przede wszystkim jako narzędzie wspomagające proces decyzyjny, a nie jego substytut. Dynamiczny rozwój technologii AI utrudnia jednak przewidywanie przyszłych kierunków jej zastosowania.
Istotnym wyzwaniem pozostaje ograniczona liczba badań klinicznych oceniających realne zastosowanie tych systemów w praktyce medycznej. Kluczowe pytania dotyczą stopnia autonomii przyszłych systemów AI, ich integracji z systemami opieki zdrowotnej oraz społecznej akceptacji dla ich wykorzystania.
Integracja sztucznej inteligencji w medycynie powinna przebiegać stopniowo, z uwzględnieniem rygorystycznej oceny naukowej, regulacyjnej oraz etycznej.
Źródło
Scientific Reports, AI language models outperform physicians in standardized clinical knowledge tests.
DOI: https://www.nature.com/articles/s41598-026-46846-7




