Przełomowy projekt OMAI: nowa era transparentnej sztucznej inteligencji w nauce

Amerykańska National Science Foundation (NSF) oraz korporacja NVIDIA przyznały łącznie 152 miliony dolarów na realizację pięcioletniego programu Open Multimodal AI Infrastructure to Accelerate Science (OMAI). Ten ambitny projekt, kierowany przez Allen Institute for AI (AI2), ma na celu stworzenie w pełni otwartej infrastruktury sztucznej inteligencji dla wspierania odkryć naukowych.

Wielospecjalistyczny zespół badawczy

OMAI jest prowadzony przez dr. Noaha Smitha z AI2 oraz Uniwersytetu Waszyngtońskiego, a w jego realizacji uczestniczą eksperci z pięciu instytucji amerykańskich. Kluczową rolę odgrywa dr Sarah Dreier z Uniwersytetu Nowego Meksyku – jedyna politolog w zespole, która odpowiada za kurację danych i dostosowanie modeli do praktycznych potrzeb naukowych. Jej zadaniem będzie opracowanie zbiorów danych odpowiednich dla analiz literatury naukowej i generowania kodu, co wymaga połączenia wiedzy z zakresu nauk społecznych z zaawansowanymi technikami przetwarzania języka naturalnego.

W zespole znajdą się również specjaliści z Uniwersytetu Waszyngtońskiego (Hanna Hajishirzi), Uniwersytetu Hawajów (Travis Mandel) oraz Uniwersytetu New Hampshire (Samuel Carton). Tak zróżnicowana grupa ekspertów ma zapewnić interdyscyplinarne podejście do tworzenia modeli AI dla różnych dziedzin nauki.

Główne założenia techniczne projektu

OMAI wyróżnia się na tle innych inicjatyw sztucznej inteligencji poprzez radykalne podejście do transparentności danych. Tradycyjne duże modele językowe są trenowane na danych z otwartego internetu, co wprowadza szum, uprzedzenia i całkowity brak wglądu w źródła informacji. Dla badań naukowych, gdzie wymagana jest reprodukcyjalność i możliwość audytu, takie podejście jest niewystarczające.

Projekt przewiduje opracowanie modeli obsługujących dane multimodalne – kombinujące tekst, kod, obrazy i inne typy informacji naukowych. Takie rozwiązania pozwolą na bardziej kompleksową analizę danych badawczych, łącząc różne rodzaje źródeł w sposób dotychczas nieosiągalny dla tradycyjnych systemów AI.

Proweniencja danych jako fundament

Jednym z kluczowych elementów OMAI jest implementacja systemu proweniencji danych – szczegółowego śledzenia pochodzenia, przekształceń i historii każdego fragmentu informacji. W kontekście naukowym proweniencja danych to dokumentacja tego, skąd pochodzą dane, kto je zebrał, w jakim celu i jakie modyfikacje zostały wprowadzone w trakcie przetwarzania.

Takie podejście rozwiązuje jeden z największych problemów współczesnej sztucznej inteligencji – kryzys reprodukcyjalności. Statystyki pokazują, że integracja metod AI w badaniach naukowych zwiększyła wskaźnik niereprodukcyjalności z 50% do 70%. Oznacza to, że siedem z dziesięciu badań wykorzystujących AI może zawierać wyniki, których nie da się wiarygodnie powtórzyć przez innych naukowców.

Praktyczne zastosowania w różnych dyscyplinach

Modele OMAI będą zaprojektowane specjalnie z myślą o przepływach pracy naukowej. Mają one pomagać badaczom w analizowaniu rozległej literatury, generowaniu kodu do analizy danych, wizualizacji wyników oraz łączeniu nowych odkryć z wcześniejszymi pracami. Szczególne zastosowania obejmują:

Nauki o materiałach – analiza struktur molekularnych i przewidywanie właściwości nowych materiałów
Badania nad białkami – przewidywanie funkcji białek na podstawie ich struktury przestrzennej
Badania energetyczne – optymalizacja procesów magazynowania i przekształcania energii
Nauki społeczne – analiza dużych zbiorów tekstów i dokumentów o znaczeniu politycznym czy społecznym

Otwartość jako strategia rozwoju

W przeciwieństwie do własnościowych rozwiązań oferowanych przez duże korporacje technologiczne, OMAI opiera się na filozofii open science. Wszystkie modele, dane treningowe, kod i dokumentacja będą dostępne publicznie, co umożliwi niezależną weryfikację, modyfikację i rozszerzanie przez społeczność naukową.

Takie podejście nawiązuje do wcześniejszych sukcesów AI2, takich jak modele z rodziny OLMo (Open Language Models), które już teraz konkurują z własnościowymi rozwiązaniami przy jednoczesnym zachowaniu pełnej transparentności. OLMo 2 32B, najnowszy model z tej rodziny, przewyższa GPT-3.5 Turbo w wielu standardowych testach, wymagając przy tym tylko jednej trzeciej mocy obliczeniowej porównywalnych modeli.

Wpływ na przyszłość badań naukowych

OMAI może fundamentalnie zmienić sposób prowadzenia badań naukowych w erze sztucznej inteligencji. Projekt adresuje kluczowe wyzwania współczesnej nauki: brak transparentności algorytmów AI, trudności z reprodukcją wyników oraz ograniczony dostęp do zaawansowanych narzędzi obliczeniowych.

Przewidywany harmonogram zakłada udostępnienie pierwszego dużego modelu około 18 miesięcy od rozpoczęcia pięcioletniego programu. W międzyczasie zespół będzie stopniowo publikować zbiory danych, kod i inne zasoby, umożliwiając społeczności naukowej aktywne uczestnictwo w rozwoju projektu.

Inicjatywa OMAI reprezentuje nowe podejście do rozwoju sztucznej inteligencji w nauce – oparte na współpracy, transparentności i otwartym dostępie do narzędzi badawczych. Jeśli projekt odniesie sukces, może stać się modelem dla przyszłych inicjatyw łączących zaawansowane technologie AI z rygorystycznymi standardami naukowymi.

Przełomowy projekt OMAI: nowa era transparentnej sztucznej inteligencji w nauce

Wielospecjalistyczny zespół badawczy

Główne założenia techniczne projektu

Proweniencja danych jako fundament

Praktyczne zastosowania w różnych dyscyplinach

Otwartość jako strategia rozwoju

Wpływ na przyszłość badań naukowych

Źródła

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Wielospecjalistyczny zespół badawczy

Główne założenia techniczne projektu

Proweniencja danych jako fundament

Praktyczne zastosowania w różnych dyscyplinach

Otwartość jako strategia rozwoju

Wpływ na przyszłość badań naukowych

Źródła

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane posty

Pliki Cookie

Przegląd Prywatności

Niezbędne Cookies

Cookie preferencji

Marketingowe Cookies