
AI, GAN i CATSI: rewolucyjne metody radzenia sobie z brakami danych w dokumentacji medycznej
Zespół badaczy z National Institute of Health Data Science na Uniwersytecie Pekińskim oraz z Departamentu Epidemiologii Klinicznej i Statystyki Biomedycznej w Peking University People’s Hospital przeprowadził kompleksowy przegląd systematyczny metod radzenia sobie z brakującymi danymi w elektronicznej dokumentacji medycznej (EDM). Wyniki badania, opublikowane w czasopiśmie Health Data Science, wskazują na rosnącą skuteczność metod uczenia maszynowego w porównaniu z tradycyjnymi podejściami statystycznymi w zarządzaniu problemem brakujących danych.
Wyzwania związane z brakującymi danymi w EDM
Elektroniczna dokumentacja medyczna stanowi obecnie podstawę nowoczesnych badań medycznych, umożliwiając prowadzenie analiz w zakresie badań klinicznych, skuteczności leczenia czy badań genetycznych. Jednym z najpoważniejszych wyzwań pozostają jednak brakujące dane, które mogą prowadzić do zniekształcenia wyników i zmniejszenia wiarygodności analiz.
Przeanalizowano 46 prac naukowych opublikowanych w latach 2010–2024, porównując tradycyjne metody statystyczne, takie jak wielokrotne imputacje za pomocą równani łańcuchowych (Multiple Imputation by Chained Equations, MICE), z nowoczesnymi podejściami uczenia maszynowego, w tym z sieciami generatywnymi (Generative Adversarial Networks, GAN) oraz metodą najbliższych sąsiadów (k-Nearest Neighbors, KNN).
Wyniki badania
Badania wykazały, że techniki uczenia maszynowego, w szczególności metody oparte na GAN oraz imputacja szeregów czasowych uwzględniająca kontekst (Context-Aware Time-Series Imputation, CATSI), przewyższają tradycyjne podejścia statystyczne zarówno w analizach danych podłużnych, jak i przekrojowych.
- Dane podłużne: Najlepsze wyniki osiągnęły metody Med.KNN oraz CATSI.
- Dane przekrojowe: W przypadku danych tego typu skuteczniejsze okazały się probabilistyczna analiza składowych głównych (Probabilistic Principal Component Analysis, PCA) oraz metoda MICE.
„Metody uczenia maszynowego wykazują znaczący potencjał w rozwiązywaniu problemu brakujących danych w EDM” – zauważyła dr Huixin Liu, profesor nadzwyczajna w Peking University People’s Hospital. „Jednak żadna z metod nie stanowi rozwiązania uniwersalnego, co podkreśla potrzebę opracowania standardowych analiz porównawczych dla różnorodnych zbiorów danych i scenariuszy braków”.
Wyboista droga do standardów
Mimo obiecujących wyników badanie wskazuje na kilka kluczowych wyzwań:
- heterogeniczność zbiorów danych EDM,
- ograniczona przejrzystość modeli uczenia maszynowego,
- brak uniwersalnych standardów oceny skuteczności metodologii.
Dr Shenda Hong, profesor asystent w National Institute of Health Data Science, podkreślił znaczenie dalszych badań: „Naszym ostatecznym celem jest stworzenie powszechnie akceptowanego protokołu do zarządzania brakującymi danymi w EDM, co zapewni większą wiarygodność i powtarzalność wyników w badaniach medycznych”.
Znaczenie dla cyfrowej opieki zdrowotnej
Przedstawione wyniki stanowią istotny krok w kierunku rozwiązania jednego z najważniejszych wyzwań w badaniach cyfrowej opieki zdrowotnej. Oferują również wskazówki, które mogą pomóc w ograniczeniu wpływu niedoborów danych na analizy medyczne.
Źródło: Health Data Science
DOI: 10.34133/hds.0176