
Sztuczna inteligencja w biomedycynie: klucz do analizy milionów pojedynczych komórek
udzki organizm składa się z około 75 bilionów pojedynczych komórek. Jaką funkcję pełni każda z nich? Jak różnią się komórki zdrowej osoby od tych, które pochodzą od osoby chorej? Aby odpowiedzieć na te pytania, konieczne jest analizowanie i interpretowanie ogromnych ilości danych. W tym celu coraz częściej wykorzystuje się metody uczenia maszynowego. Naukowcy z Technische Universität München (TUM) i Helmholtz Munich przetestowali obiecujące podejście oparte na uczeniu samonadzorowanym na przykładzie ponad 20 milionów komórek.
Postępy w technologii analizy pojedynczych komórek
W ostatnich latach osiągnięto znaczne postępy w technologii analizy pojedynczych komórek. Umożliwiło to badanie tkanek na poziomie indywidualnych komórek i określanie różnorodnych funkcji poszczególnych typów komórek. Przykładowo, takie analizy mogą być używane do wykazania, jak palenie tytoniu, rak płuc czy COVID-19 zmieniają struktury komórkowe w płucach, poprzez porównanie ich z komórkami zdrowymi.
Jednak równolegle z rozwojem technologii generowane są coraz większe ilości danych. Metody uczenia maszynowego mogą pomóc w reinterpretacji istniejących zbiorów danych, identyfikacji znaczących informacji z rozpoznanych wzorców oraz ich zastosowaniu w innych obszarach badawczych.
Nowe podejście: uczenie samonadzorowane
Profesor Fabian Theis, specjalista w dziedzinie matematycznego modelowania systemów biologicznych, wraz z zespołem przeprowadził badanie, aby sprawdzić, czy uczenie samonadzorowane lepiej nadaje się do analizy dużych zbiorów danych w porównaniu z tradycyjnymi metodami. Wyniki badań zostały opublikowane w czasopiśmie Nature Machine Intelligence.
Uczenie samonadzorowane operuje na nieoznaczonych danych, co oznacza, że nie wymaga ręcznego przypisywania danych do określonych grup przed rozpoczęciem analizy. Dzięki temu możliwe jest wykorzystanie ogromnych ilości nieprzypisanych danych do budowania solidnych reprezentacji złożonych zbiorów danych.
Dwie kluczowe metody wykorzystywane w uczeniu samonadzorowanym to:
- Uczenie maskowane: Część danych wejściowych jest celowo ukrywana, a model trenuje się tak, aby zrekonstruował brakujące fragmenty.
- Uczenie kontrastowe: Model uczy się łączyć podobne dane w grupy i oddzielać od siebie dane różniące się.
Obie metody przetestowano na ponad 20 milionach pojedynczych komórek, porównując wyniki z klasycznymi metodami uczenia. Analizowano zadania takie jak przewidywanie typów komórek czy rekonstrukcja ekspresji genów.
Szansa na rozwój wirtualnych komórek
Wyniki badań wskazują, że uczenie samonadzorowane szczególnie dobrze sprawdza się w zadaniach transferowych, gdzie informacje z większych baz danych są wykorzystywane na mniejszych zbiorach danych. Dodatkowo, metoda ta wykazuje obiecujące rezultaty w tzw. przewidywaniach zero-shot, czyli przy zadaniach, które nie były wcześniej trenowane. Porównanie między uczeniem maskowanym a kontrastowym wykazało, że uczenie maskowane lepiej nadaje się do dużych zbiorów danych z pojedynczymi komórkami.
Na podstawie zgromadzonych danych naukowcy pracują nad stworzeniem tzw. wirtualnych komórek – zaawansowanych modeli komputerowych, które mogą odwzorowywać różnorodność komórek w różnych zbiorach danych. Modele te mogą być szczególnie przydatne w analizie zmian komórkowych, takich jak te obserwowane w chorobach nowotworowych. Wyniki badań dostarczają cennych wskazówek, jak efektywnie trenować i ulepszać takie modele.
Źródło: Technische Universität München