Starsze modele AI wykazują oznaki spadku zdolności poznawczych

ciekawostki

Nowe badanie opublikowane w BMJ ujawniło niepokojące zjawisko: starsze generacje modeli językowych takich jak ChatGPT, Sonnet i Gemini wykazują pogorszenie wyników w testach neurokognitywnych, szczególnie w obszarach przetwarzania wzrokowo-przestrzennego i funkcji wykonawczych. Najnowsza wersja ChatGPT (4.0) osiągnęła 26/30 punktów w teście MoCA, podczas starszy model Gemini 1.0 zaledwie 16/30, co sugeruje analogię do ludzkich zaburzeń poznawczych.

Mechanika testowania AI narzędziami klinicznymi

Neurolodzy zastosowali zmodyfikowaną wersję Montreal Cognitive Assessment (MoCA), standardowego narzędzia do diagnozowania łagodnych zaburzeń poznawczych u ludzi. Modele LLM zmierzyły się z zadaniami obejmującymi:

  • Generowanie cyfrowego zegara z określoną godziną (test orientacji przestrzennej)
  • Ciągłe odejmowanie 7 od 100 (ocena płynności obliczeniowej)
  • Zapamiętywanie listy słów z opóźnionym przypominaniem (badanie pamięci krótkotrwałej)

W przeciwieństwie do ludzi, gdzie 26 punktów oznacza normę, modele AI wykazywały charakterystyczne wzorce błędów. ChatGPT 4.0 poprawnie interpretował 89% poleceń przestrzennych, podczas gdy Gemini 1.0 jedynie 34% w tych samych testach. Szczególnie problematyczne okazało się odwzorowanie relacji przestrzennych w zadaniach z zegarem – starsze modele często odwracały wskazówki lub myliły cyfry rzymskie z arabskimi.

Techniczne ograniczenia architektury

Spadek wydajności w starszych modelach wynika głównie z:

  1. Statycznej bazy wiedzy – modele nieaktualizowane tracą synchronizację z najnowszymi danymi medycznymi
  2. Degradacji wag neuronowych – długotrwałe fine-tuningi mogą prowadzić do “przeuczenia” w wąskich obszarach
  3. Brak mechanizmów autokorekty – w przeciwieństwie do ludzkiej neuroplastyczności

Przykładowo, test ciągłego odejmowania 7 ujawnił różnice w implementacji pamięci roboczej. GPT-4 utrzymywał poprawny ciąg przez średnio 15 iteracji, podczas gdy Gemini 1.0 popełniał błędy już przy 5. iteracji. W praktyce przekłada się to na ryzyko błędnych obliczeń dawek leków czy interpretacji laboratoryjnych trendów.

Praktyczne implikacje dla systemów diagnostycznych

Wdrożenie modeli LLM w klinikach wymaga ścisłej weryfikacji wersji oprogramowania. Badacze sugerują implementację systemów monitorujących:

  • Wskaźnik degradacji poznawczej (CDI) – metryka porównująca wyniki bieżące z baseline’em modelu
  • Dynamiczne aktualizacje wiedzy poprzez RAG (Retrieval-Augmented Generation)
  • Moduły specjalistyczne – wydzielone komponenty np. do analizy obrazów medycznych

W eksperymencie modele zintegrowane z zewnętrznymi bazami danych PubMed poprawiły trafność diagnoz o 22% w porównaniu do samodzielnych LLM. W przypadku zadań wymagających abstrakcji wzrokowej (np. interpretacja mammografii), hybrydowe systemy łączące CNN z LLM okazały się 37% bardziej niezawodne niż czarne skrzynki.

Perspektywy rozwojowe

Obecne ograniczenia wskazują na potrzebę opracowania nowych frameworków treningowych. Obiecujące kierunki obejmują:

Wdrożenie tych rozwiązań mogłoby zniwelować obserwowany efekt “starzenia się” AI, szczególnie w krytycznych zastosowaniach medycznych. Jednak jak podkreślają autorzy, żaden system nie zastąpi obecnie ludzkiej nadzorującej oceny klinicznej.

  • Neuroplastyczne sieci neuronowe – architektury adaptujące połączenia wag w czasie rzeczywistym
  • Modułowe LLM – wymienne komponenty dla konkretnych kompetencji poznawczych
  • Kwantowe metody walidacji – wykorzystanie komputerów kwantowych do symulacji degeneracji modeli

Źródła:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry
Hej. Nie zapomnij podzielić się opinią oraz udostępnić dalej.