Zespół badaczy z University of Washington i Allen Institute for AI przedstawił OpenScholar – specjalistyczny model językowy zaprojektowany do syntezy literatury naukowej. W przeciwieństwie do komercyjnych rozwiązań, które potrafią halucynować cytaty w nawet 78-90% przypadków, OpenScholar osiąga dokładność porównywalną z ekspertami ludzkimi.
Architektura techniczna systemu
Fundament OpenScholar stanowi mechanizm retrieval-augmented generation (RAG) połączony z dedykowaną bazą danych OSDS (OpenScholar DataStore). Ta baza zawiera 45 milionów artykułów naukowych z otwartym dostępem oraz 236 milionów prekomputowanych embedingów akapitów, co czyni ją prawdopodobnie największą i najbardziej aktualną publiczną bazą publikacji naukowych.
Model wykorzystuje kompaktową architekturę z 8 miliardami parametrów (OpenScholar-8B). System działa w trzech etapach: wytrenowane retriever i reranker identyfikują istotne fragmenty tekstu, model generuje odpowiedź z cytowaniami, a następnie pętla self‑feedback iteracyjnie udoskonala wynik pod kątem faktyczności, kompletności i dokładności cytowań.
Problem halucynacji w modelach komercyjnych
Standardowe duże modele językowe wykazują znaczące problemy z wiarygodnością cytowań w kontekście naukowym. W badaniach GPT‑4o generował fałszywe lub błędne cytaty w 78‑90% przypadków, podczas gdy inne analizy wykazały, że GPT‑4 halucinował w 28,6% testów, a GPT‑3.5 w 39,6%. Co więcej, wśród rzeczywistych cytowań generowanych przez te modele, do 45% zawierało błędy takie jak nieprawidłowe daty publikacji czy błędne identyfikatory DOI.
Problem nasila się w przypadku mniej popularnych tematów badawczych. Podczas gdy dla szeroko badanych zagadnień jak depresja dokładność GPT‑4o sięgała 94%, dla niszowych zaburzeń odżywiania wskaźnik halucynacji wzrastał do 28‑29%.
Benchmark i wyniki ewaluacji
Zespół opracował ScholarQABench – pierwszy wielodomenowy benchmark do oceny systemów syntezy literatury naukowej. Zawiera on 2967 zapytań napisanych przez ekspertów oraz 208 rozbudowanych odpowiedzi obejmujących informatykę, fizykę, neuronaukę i biomedycynę.
W testach porównawczych 16 naukowców preferowało odpowiedzi OpenScholar nad tekstami przygotowane przez ekspertów dziedzinowych w 51% przypadków. Model osiągnął dokładność cytowań na poziomie specjalistów ludzkich, co stanowi przełom w kontekście automatyzacji przeglądów literatury.
Dostępność i zastosowania praktyczne
OpenScholar został udostępniony jako w pełni otwarty projekt – kod źródłowy, checkpointy modelu, indeks wyszukiwania i dane treningowe są publicznie dostępne bez opłat. Dostępne jest również demo online umożliwiające bezpośrednie testowanie systemu.
Głównym zastosowaniem jest wsparcie naukowców w nadążaniu za lawinowo rosnącą liczbą publikacji. System może być deployowany na własnej infrastrukturze, a metoda opisana w publikacji pozwala na zwiększenie kompetencji w zakresie przeglądów literatury w dowolnym modelu językowym. Projekt stanowił podstawę dla dalszych rozwiązań, w tym Deep Research Tulu (DR Tulu), który rozszerza możliwości o wieloetapowe wyszukiwanie i generowanie kompleksowych raportów badawczych.
Źródła
- Open-source AI tool beats giant LLMs in literature reviews – Nature News
- Synthesizing scientific literature with retrieval-augmented language models – Nature
- OpenScholar has been accepted to Nature – Allen Institute for AI
- AI model OpenScholar synthesizes scientific research – University of Washington





