Jak terapeuta wykryje uzależnienie mieszane przy rzadkich objawach?
Coraz więcej zespołów chce użyć uczenia maszynowego, aby szybciej wychwycić osoby z ryzykiem uzależnienia mieszanego. To trudny obszar. Występują rzadkie klasy, współwystępowanie problemów i niepełne dane. Dobra ocena modelu zaczyna się od właściwych metryk.
W tym tekście dowiesz się, jak poprawnie sformułować problem, jak wybrać metryki i jak przełożyć wyniki na decyzje kliniczne. Pokażę też listę kontrolną, która ułatwia ocenę w praktyce.
Jak sformułować problem ML dla uzależnień mieszanych?
Najczęściej jako klasyfikację wieloetykietową ryzyka w określonym oknie czasowym.
Uzależnienie mieszane oznacza współwystępowanie różnych uzależnień, także behawioralnych. To sugeruje wiele etykiet jednocześnie. Najpierw zdefiniuj cel kliniczny. Czy model ma wspierać przesiew, triage czy planowanie terapii. Zdecyduj o horyzoncie prognozy, na przykład ryzyko w ciągu najbliższych miesięcy. Zmapuj każdą substancję lub zachowanie do oddzielnej etykiety. Zadbaj o jasną definicję pozytywów. Opisz brakujące etykiety i możliwy błąd oznaczeń. Zaplanuj walidację z podziałem po osobie i czasie, aby uniknąć przecieku informacji między zbiorem uczącym a testowym.
Czy wybrać klasyfikację wieloklasową czy wieloetykietową?
W praktyce wybierz wieloetykietową, bo problemy często współwystępują.
Klasy wieloklasowe wykluczają się, a uzależnienie mieszane rzadko jest „jednym typem”. Wieloetykietowość pozwala ocenić ryzyko dla wielu kategorii naraz, na przykład alkohol, opioidy, hazard. Gdy potrzebujesz jednej decyzji „czy obecne jest uzależnienie mieszane”, rozważ układ hierarchiczny. Najpierw model ogólny, potem modele per typ. Dzięki temu lepiej uchwycisz współwystępowanie i zależności między etykietami.
Które metryki uwzględnią nierównowagę klas i współwystępowanie?
Stosuj metryki per etykieta i per przykład, z naciskiem na makro średnie i krzywe precyzja-recall.
Nierównowaga klas jest normą. Rzadkie etykiety wymagają metryk odpornych na przewagę klasy negatywnej. Sprawdź:
- F1 macro i recall macro. Traktują każdą etykietę po równo, także rzadkie.
- AUCPR per etykieta oraz średnie makro z AUCPR. Lepiej oddają skuteczność dla rzadkich klas niż ROC.
- Balanced accuracy per etykieta. Uśrednia czułość i swoistość.
- Metryki przykład-owe dla współwystępowania, na przykład Jaccard index, F1 example-based, Hamming loss i subset accuracy. Pokazują, czy cały „zestaw” etykiet dla osoby jest trafny.
- Analizy par współwystępujących etykiet. Warto mierzyć wyniki na najczęstszych parach lub triadach, bo to one tworzą profil kliniczny uzależnienia mieszanego.
Jak stosować precyzję, czułość i F1 przy uzależnieniu mieszanym?
Raportuj je per etykieta i w ujęciach micro, macro oraz ważonym, dobierając progi do celu klinicznego.
Czułość mówi, ile przypadków wykrywasz. Precyzja, ile alarmów jest trafnych. F1 łączy oba. Dla przesiewu dąż do wysokiej czułości, akceptując więcej fałszywych alarmów. Dla ograniczonych zasobów lepsza jest wyższa precyzja. Dobieraj próg osobno dla każdej etykiety na podstawie krzywej precyzja-recall i kosztów błędów. Raportuj też F1 micro, który akcentuje częstsze etykiety, oraz F1 macro, które docenia rzadkie. W multietykietowości sensowna jest też miara Jaccarda na poziomie osoby.
Czy AUC-ROC jest miarodajny przy silnie niezbalansowanych danych?
Tylko częściowo. Może zawyżać ocenę skuteczności.
AUC-ROC liczy powierzchnię dla czułości i odsetka fałszywych alarmów. Przy bardzo rzadkich klasach nawet słaby model potrafi mieć wysoki ROC. Dlatego traktuj ROC jako metrykę pomocniczą. Zawsze zestawiaj go z AUCPR, czułością przy ustalonym poziomie fałszywych alarmów i F1 macro. To da pełniejszy obraz.
Kiedy warto użyć krzywej precyzja-recall zamiast ROC?
Gdy pozytywów jest mało i liczy się efektywne wykrywanie przypadków.
AUCPR skupia się na trafieniach w klasie pozytywnej. Dlatego jest bardziej informacyjny przy rzadkich zdarzeniach, typowych dla uzależnienia mieszanego. Na podstawie krzywej PR wybierzesz próg, który zapewni oczekiwane obciążenie systemu i odpowiednią liczbę wykrytych osób. Dodatkowo porównaj kilka punktów pracy, na przykład wysoką czułość do wstępnego przesiewu oraz wyższą precyzję dla kwalifikacji do pogłębionej oceny.
Jak ocenić kalibrację modelu i wiarygodność progów decyzyjnych?
Użyj Brier score, krzywych kalibracji i wskaźników typu ECE. Weryfikuj progi na danych zewnętrznych.
Model powinien podawać wiarygodne prawdopodobieństwa. Sprawdź, czy ryzyko 20 procent faktycznie oznacza około 20 procent częstości. Wykonaj wykresy kalibracji i licz Brier score oraz Expected Calibration Error. Oceń kalibrację dla każdej etykiety i w podgrupach, na przykład wiek, płeć. Jeśli potrzeba, zastosuj korektę, na przykład skalowanie izotoniczne lub Platta. Progi decyzyjne ustalaj na zbiorze walidacyjnym, a potem potwierdzaj na danych z innej placówki lub w innym czasie.
Jak połączyć metryki techniczne z użytecznością kliniczną modelu?
Przełóż wyniki na obciążenie pracy, korzyść netto i scenariusze decyzji.
Same metryki nie wystarczą. Pokaż, ilu dodatkowych pacjentów wykryje model na 100 osób i ile wygeneruje fałszywych alarmów. Użyj analizy krzywej decyzyjnej, aby oszacować korzyść netto przy różnych progach. Zsymuluj przepływ pacjenta, na przykład wejście do grupy wsparcia lub konsultacji. Oceń wpływ na zasoby. Zadbaj o równość działania w podgrupach. To pozwala dopasować punkt pracy modelu do realnych możliwości zespołu terapeutycznego.
Jak przygotować listę kontrolną do oceny modelu w praktyce?
Zdefiniuj cel, metryki i walidację krok po kroku, z naciskiem na rzadkie i współwystępujące etykiety.
- Cel kliniczny i horyzont czasu. Jasny opis populacji i definicji pozytywów.
- Etykiety. Lista typów uzależnień i ich reguły oznaczeń, także przy brakach w danych.
- Podział danych. Walidacja grupowana po osobie i placówce. Test w przesunięciu czasowym.
- Nierównowaga. W uczeniu stosuj wagi lub resampling. W ocenie raportuj macro i per etykieta.
- Zestaw metryk. Recall, precision, F1 per etykieta. F1 macro, micro i ważone. AUCPR per etykieta i średnie makro. Jaccard, F1 example-based, Hamming loss, subset accuracy.
- Kalibracja. Brier score, ECE, wykresy kalibracji. Korekta kalibracji, jeśli potrzeba.
- Progi. Wybór na krzywych PR według kosztów błędów i obciążenia pracy. Oddzielne progi per etykieta.
- Użyteczność kliniczna. Analiza decyzyjna, symulacja obciążenia, wskaźniki na 100 badanych.
- Równość działania. Wyniki w podgrupach demograficznych i klinicznych.
- Odporność. Walidacja zewnętrzna, monitoring dryfu i ponowna kalibracja.
- Dokumentacja. Opis danych, metryk, progów i ograniczeń w języku zrozumiałym dla zespołu.
Dobrze dobrane metryki pozwalają zobaczyć nie tylko trafność, lecz także realny wpływ modelu na pracę z osobami z uzależnieniem mieszanym. Połączenie AUCPR, F1 macro, metryk przykład-owych i oceny kalibracji ułatwia wybór rozsądnego progu. To przekłada się na wcześniejsze wykrycie, lepszy triage i bezpieczne wdrożenie.
Przetestuj te metryki na swoich danych i ustal progi wspólnie z zespołem klinicznym, aby model realnie wspierał decyzje.
Chcesz lepiej wykrywać rzadkie i współwystępujące uzależnienia? Sprawdź listę kontrolną i rekomendowane metryki (F1 macro, AUCPR, Jaccard) oraz przykład, ile dodatkowych pacjentów wykryje model na 100 osób: https://alkovip.pl/uzaleznienie-mieszane-od-alkoholu-i-hazardu/.



