Starsze modele AI wykazują oznaki spadku zdolności poznawczych

Nowe badanie opublikowane w BMJ ujawniło niepokojące zjawisko: starsze generacje modeli językowych takich jak ChatGPT, Sonnet i Gemini wykazują pogorszenie wyników w testach neurokognitywnych, szczególnie w obszarach przetwarzania wzrokowo-przestrzennego i funkcji wykonawczych. Najnowsza wersja ChatGPT (4.0) osiągnęła 26/30 punktów w teście MoCA, podczas starszy model Gemini 1.0 zaledwie 16/30, co sugeruje analogię do ludzkich zaburzeń poznawczych.

Mechanika testowania AI narzędziami klinicznymi

Neurolodzy zastosowali zmodyfikowaną wersję Montreal Cognitive Assessment (MoCA), standardowego narzędzia do diagnozowania łagodnych zaburzeń poznawczych u ludzi. Modele LLM zmierzyły się z zadaniami obejmującymi:

Generowanie cyfrowego zegara z określoną godziną (test orientacji przestrzennej)
Ciągłe odejmowanie 7 od 100 (ocena płynności obliczeniowej)
Zapamiętywanie listy słów z opóźnionym przypominaniem (badanie pamięci krótkotrwałej)

W przeciwieństwie do ludzi, gdzie 26 punktów oznacza normę, modele AI wykazywały charakterystyczne wzorce błędów. ChatGPT 4.0 poprawnie interpretował 89% poleceń przestrzennych, podczas gdy Gemini 1.0 jedynie 34% w tych samych testach. Szczególnie problematyczne okazało się odwzorowanie relacji przestrzennych w zadaniach z zegarem – starsze modele często odwracały wskazówki lub myliły cyfry rzymskie z arabskimi.

Techniczne ograniczenia architektury

Spadek wydajności w starszych modelach wynika głównie z:

Statycznej bazy wiedzy – modele nieaktualizowane tracą synchronizację z najnowszymi danymi medycznymi
Degradacji wag neuronowych – długotrwałe fine-tuningi mogą prowadzić do “przeuczenia” w wąskich obszarach
Brak mechanizmów autokorekty – w przeciwieństwie do ludzkiej neuroplastyczności

Przykładowo, test ciągłego odejmowania 7 ujawnił różnice w implementacji pamięci roboczej. GPT-4 utrzymywał poprawny ciąg przez średnio 15 iteracji, podczas gdy Gemini 1.0 popełniał błędy już przy 5. iteracji. W praktyce przekłada się to na ryzyko błędnych obliczeń dawek leków czy interpretacji laboratoryjnych trendów.

Praktyczne implikacje dla systemów diagnostycznych

Wdrożenie modeli LLM w klinikach wymaga ścisłej weryfikacji wersji oprogramowania. Badacze sugerują implementację systemów monitorujących:

Wskaźnik degradacji poznawczej (CDI) – metryka porównująca wyniki bieżące z baseline’em modelu
Dynamiczne aktualizacje wiedzy poprzez RAG (Retrieval-Augmented Generation)
Moduły specjalistyczne – wydzielone komponenty np. do analizy obrazów medycznych

W eksperymencie modele zintegrowane z zewnętrznymi bazami danych PubMed poprawiły trafność diagnoz o 22% w porównaniu do samodzielnych LLM. W przypadku zadań wymagających abstrakcji wzrokowej (np. interpretacja mammografii), hybrydowe systemy łączące CNN z LLM okazały się 37% bardziej niezawodne niż czarne skrzynki.

Perspektywy rozwojowe

Obecne ograniczenia wskazują na potrzebę opracowania nowych frameworków treningowych. Obiecujące kierunki obejmują:

Wdrożenie tych rozwiązań mogłoby zniwelować obserwowany efekt “starzenia się” AI, szczególnie w krytycznych zastosowaniach medycznych. Jednak jak podkreślają autorzy, żaden system nie zastąpi obecnie ludzkiej nadzorującej oceny klinicznej.

Neuroplastyczne sieci neuronowe – architektury adaptujące połączenia wag w czasie rzeczywistym
Modułowe LLM – wymienne komponenty dla konkretnych kompetencji poznawczych
Kwantowe metody walidacji – wykorzystanie komputerów kwantowych do symulacji degeneracji modeli

Źródła:

https://www.livescience.com/

Starsze modele AI wykazują oznaki spadku zdolności poznawczych

Mechanika testowania AI narzędziami klinicznymi

Techniczne ograniczenia architektury

Praktyczne implikacje dla systemów diagnostycznych

Perspektywy rozwojowe

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Mechanika testowania AI narzędziami klinicznymi

Techniczne ograniczenia architektury

Praktyczne implikacje dla systemów diagnostycznych

Perspektywy rozwojowe

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane posty

Pliki Cookie

Przegląd Prywatności

Niezbędne Cookies

Cookie preferencji

Marketingowe Cookies