Nowe badanie opublikowane w BMJ ujawniło niepokojące zjawisko: starsze generacje modeli językowych takich jak ChatGPT, Sonnet i Gemini wykazują pogorszenie wyników w testach neurokognitywnych, szczególnie w obszarach przetwarzania wzrokowo-przestrzennego i funkcji wykonawczych. Najnowsza wersja ChatGPT (4.0) osiągnęła 26/30 punktów w teście MoCA, podczas starszy model Gemini 1.0 zaledwie 16/30, co sugeruje analogię do ludzkich zaburzeń poznawczych.
Mechanika testowania AI narzędziami klinicznymi
Neurolodzy zastosowali zmodyfikowaną wersję Montreal Cognitive Assessment (MoCA), standardowego narzędzia do diagnozowania łagodnych zaburzeń poznawczych u ludzi. Modele LLM zmierzyły się z zadaniami obejmującymi:
- Generowanie cyfrowego zegara z określoną godziną (test orientacji przestrzennej)
- Ciągłe odejmowanie 7 od 100 (ocena płynności obliczeniowej)
- Zapamiętywanie listy słów z opóźnionym przypominaniem (badanie pamięci krótkotrwałej)
W przeciwieństwie do ludzi, gdzie 26 punktów oznacza normę, modele AI wykazywały charakterystyczne wzorce błędów. ChatGPT 4.0 poprawnie interpretował 89% poleceń przestrzennych, podczas gdy Gemini 1.0 jedynie 34% w tych samych testach. Szczególnie problematyczne okazało się odwzorowanie relacji przestrzennych w zadaniach z zegarem – starsze modele często odwracały wskazówki lub myliły cyfry rzymskie z arabskimi.
Techniczne ograniczenia architektury
Spadek wydajności w starszych modelach wynika głównie z:
- Statycznej bazy wiedzy – modele nieaktualizowane tracą synchronizację z najnowszymi danymi medycznymi
- Degradacji wag neuronowych – długotrwałe fine-tuningi mogą prowadzić do “przeuczenia” w wąskich obszarach
- Brak mechanizmów autokorekty – w przeciwieństwie do ludzkiej neuroplastyczności
Przykładowo, test ciągłego odejmowania 7 ujawnił różnice w implementacji pamięci roboczej. GPT-4 utrzymywał poprawny ciąg przez średnio 15 iteracji, podczas gdy Gemini 1.0 popełniał błędy już przy 5. iteracji. W praktyce przekłada się to na ryzyko błędnych obliczeń dawek leków czy interpretacji laboratoryjnych trendów.
Praktyczne implikacje dla systemów diagnostycznych
Wdrożenie modeli LLM w klinikach wymaga ścisłej weryfikacji wersji oprogramowania. Badacze sugerują implementację systemów monitorujących:
- Wskaźnik degradacji poznawczej (CDI) – metryka porównująca wyniki bieżące z baseline’em modelu
- Dynamiczne aktualizacje wiedzy poprzez RAG (Retrieval-Augmented Generation)
- Moduły specjalistyczne – wydzielone komponenty np. do analizy obrazów medycznych
W eksperymencie modele zintegrowane z zewnętrznymi bazami danych PubMed poprawiły trafność diagnoz o 22% w porównaniu do samodzielnych LLM. W przypadku zadań wymagających abstrakcji wzrokowej (np. interpretacja mammografii), hybrydowe systemy łączące CNN z LLM okazały się 37% bardziej niezawodne niż czarne skrzynki.
Perspektywy rozwojowe
Obecne ograniczenia wskazują na potrzebę opracowania nowych frameworków treningowych. Obiecujące kierunki obejmują:
Wdrożenie tych rozwiązań mogłoby zniwelować obserwowany efekt “starzenia się” AI, szczególnie w krytycznych zastosowaniach medycznych. Jednak jak podkreślają autorzy, żaden system nie zastąpi obecnie ludzkiej nadzorującej oceny klinicznej.
- Neuroplastyczne sieci neuronowe – architektury adaptujące połączenia wag w czasie rzeczywistym
- Modułowe LLM – wymienne komponenty dla konkretnych kompetencji poznawczych
- Kwantowe metody walidacji – wykorzystanie komputerów kwantowych do symulacji degeneracji modeli
Źródła:





