Uczenie maszynowe na urządzeniach o ograniczonych zasobach to jeden z trudniejszych problemów współczesnej inżynierii AI. Tradycyjne podejście zakłada scentralizowanie danych na serwerze – co jest efektywne, ale problematyczne z punktu widzenia prywatności. Federated learning (uczenie sfederowane) miało być odpowiedzią na ten problem, jednak w praktyce napotykało na poważne ograniczenia wydajnościowe. Badacze z MIT opublikowali metodę, która te ograniczenia znacząco redukuje.
Czym jest federated learning i gdzie tkwi problem?
W klasycznym federated learning serwer centralny rozsyła model do sieci urządzeń. Każde urządzenie trenuje model lokalnie na własnych danych, po czym odsyła tylko aktualizacje parametrów – nie surowe dane. Dane nigdy nie opuszczają urządzenia, co stanowi fundament ochrony prywatności użytkownika.
Problem polega na heterogeniczności sieci. Smartwatch, czujnik IoT czy tani telefon mają zupełnie inne możliwości obliczeniowe, pamięciowe i łącznościowe niż laptop czy stacja robocza. Kiedy serwer czeka na najwolniejsze urządzenia, cały proces treningu zwalnia. Jeśli słabsze urządzenia nie nadążają, są pomijane – a ich dane nigdy nie trafiają do modelu. To powoduje opóźnienia, marnowanie zasobów i pogarsza jakość finalnego modelu.
Trzy kluczowe innowacje frameworku FTTE
Zespół z MIT opracował framework o nazwie FTTE (Federated Training with Targeted Efficiency), który wprowadza trzy mechanizmy rozwiązujące powyższe problemy.
- Selektywna dystrybucja parametrów: zamiast przesyłać cały model do każdego urządzenia, serwer wyznacza mniejszy podzbiór parametrów dopasowany do możliwości pamięciowych najsłabszego urządzenia w sieci. Specjalna procedura przeszukiwania dobiera te parametry tak, by zmaksymalizować dokładność modelu przy zadanym budżecie pamięciowym.
- Semi-asynchroniczne aktualizacje serwera: serwer nie czeka na odpowiedź od wszystkich urządzeń. Zamiast tego kumuluje aktualizacje aż do osiągnięcia określonego progu, a następnie kontynuuje rundę treningu. Pozwala to szybszym urządzeniom pracować bez przestojów.
- Ważenie aktualizacji według czasu: aktualizacje otrzymane wcześniej mają mniejszy wpływ na model niż te świeższe. Starsze dane mogą spowalniać trening i obniżać dokładność, więc ich waga jest redukowana automatycznie.
Jak wyjaśnia Irene Tenison, doktorantka z wydziału EECS i główna autorka pracy: celem było włączenie do treningu nawet najsłabszych urządzeń, bez zmuszania mocniejszych do bezczynnego oczekiwania.
Wyniki testów – liczby mówią same za siebie
Badacze przetestowali FTTE w symulacjach obejmujących setki heterogenicznych urządzeń, różne architektury modeli i zróżnicowane zestawy danych. Wyniki są następujące:
| Metryka | Zmiana względem standardowego federated learning |
|---|---|
| Czas treningu do zbieżności | Skrócony o 81% |
| Zużycie pamięci na urządzeniu | Zmniejszone o 80% |
| Rozmiar przesyłanych danych (payload komunikacyjny) | Zmniejszony o 69% |
| Dokładność modelu | Zbliżona do innych metod – niewielkie obniżenie |
Warto odnotować, że metoda wiąże się z pewnym kompromisem: dokładność modelu jest nieznacznie niższa niż w tradycyjnym podejściu synchronicznym. Autorzy argumentują jednak, że w wielu zastosowaniach – szczególnie tych wymagających szybkiej reakcji i działania na urządzeniach z baterią – nieznaczna utrata precyzji jest akceptowalna w zamian za drastyczny wzrost wydajności. FTTE dobrze skaluje się też wraz z rozmiarem sieci – im więcej urządzeń, tym większe zyski wydajnościowe.
Praktyczne zastosowania
Potencjalne obszary wdrożeń są wszędzie tam, gdzie prywatność danych jest priorytetem, a dane nie mogą opuścić urządzenia użytkownika:
- Ochrona zdrowia: smartwatche i biosensory mogą lokalnie trenować modele do monitorowania zdrowia (tętno, sen, stres) bez przesyłania danych medycznych do chmury.
- Finanse: urządzenia mobilne mogą uczestniczyć w treningu modeli wykrywania oszustw czy analizy zachowań bez ujawniania danych transakcyjnych.
- Przemysłowy IoT: czujniki w fabrykach mogą współtworzyć modele predykcyjnego utrzymania ruchu, zachowując dane operacyjne na miejscu.
- Urządzenia konsumenckie: aplikacje na słuchawkach, opaskach fitness czy smartfonach mogą personalizować modele bez synchronizacji z zewnętrznymi serwerami.
Autorzy wskazują też na kierunki dalszych prac: chcą zbadać, jak FTTE może wspierać personalizację modeli na poziomie pojedynczego urządzenia (zamiast optymalizacji uśrednionej wydajności dla całej sieci) oraz przeprowadzić eksperymenty na rzeczywistym sprzęcie, a nie tylko w symulacjach.
Kontekst regulacyjny i kierunek rozwoju AI
Rosnące wymagania regulacyjne – takie jak europejskie RODO czy AI Act – zwiększają presję na to, by systemy AI były projektowane z myślą o prywatności od samego początku. Centralizacja danych treningowych staje się coraz trudniejsza do uzasadnienia w kontekście wrażliwych sektorów. Metody takie jak FTTE wpisują się w szerszy trend privacy-by-design w inżynierii systemów AI.
„To praca o tym, by przenieść AI na małe urządzenia, gdzie obecnie nie jest możliwe uruchamianie tak potężnych modeli. Nosimy te urządzenia przy sobie na co dzień. AI musi móc działać na tych urządzeniach, nie tylko na ogromnych serwerach i GPU.” – Irene Tenison, MIT EECS
Praca zostanie zaprezentowana na IEEE International Joint Conference on Neural Networks. Badania były częściowo finansowane z Takeda PhD Fellowship. Poza Tenison, w zespole znaleźli się Anna Murphy (Lincoln Laboratory), Charles Beauville z EPFL/Flower Labs oraz prof. Lalana Kagal z CSAIL MIT.
Źródła
- MIT News – Enabling privacy-preserving AI training on everyday devices
- ToolHunt – Enabling Privacy-Preserving AI Training on Everyday Devices
- EurekAlert – Federated Constrained (MIT, materiały prasowe)






