OpenScholar: open-source'owy asystent AI dla naukowców ze stuprocentową dokładnością cytowań

Zespół badaczy z University of Washington i Allen Institute for AI przedstawił OpenScholar – specjalistyczny model językowy zaprojektowany do syntezy literatury naukowej. W przeciwieństwie do komercyjnych rozwiązań, które potrafią halucynować cytaty w nawet 78-90% przypadków, OpenScholar osiąga dokładność porównywalną z ekspertami ludzkimi.

Architektura techniczna systemu

Fundament OpenScholar stanowi mechanizm retrieval-augmented generation (RAG) połączony z dedykowaną bazą danych OSDS (OpenScholar DataStore). Ta baza zawiera 45 milionów artykułów naukowych z otwartym dostępem oraz 236 milionów prekomputowanych embedingów akapitów, co czyni ją prawdopodobnie największą i najbardziej aktualną publiczną bazą publikacji naukowych.

Model wykorzystuje kompaktową architekturę z 8 miliardami parametrów (OpenScholar-8B). System działa w trzech etapach: wytrenowane retriever i reranker identyfikują istotne fragmenty tekstu, model generuje odpowiedź z cytowaniami, a następnie pętla self‑feedback iteracyjnie udoskonala wynik pod kątem faktyczności, kompletności i dokładności cytowań.

Problem halucynacji w modelach komercyjnych

Standardowe duże modele językowe wykazują znaczące problemy z wiarygodnością cytowań w kontekście naukowym. W badaniach GPT‑4o generował fałszywe lub błędne cytaty w 78‑90% przypadków, podczas gdy inne analizy wykazały, że GPT‑4 halucinował w 28,6% testów, a GPT‑3.5 w 39,6%. Co więcej, wśród rzeczywistych cytowań generowanych przez te modele, do 45% zawierało błędy takie jak nieprawidłowe daty publikacji czy błędne identyfikatory DOI.

Problem nasila się w przypadku mniej popularnych tematów badawczych. Podczas gdy dla szeroko badanych zagadnień jak depresja dokładność GPT‑4o sięgała 94%, dla niszowych zaburzeń odżywiania wskaźnik halucynacji wzrastał do 28‑29%.

Benchmark i wyniki ewaluacji

Zespół opracował ScholarQABench – pierwszy wielodomenowy benchmark do oceny systemów syntezy literatury naukowej. Zawiera on 2967 zapytań napisanych przez ekspertów oraz 208 rozbudowanych odpowiedzi obejmujących informatykę, fizykę, neuronaukę i biomedycynę.

W testach porównawczych 16 naukowców preferowało odpowiedzi OpenScholar nad tekstami przygotowane przez ekspertów dziedzinowych w 51% przypadków. Model osiągnął dokładność cytowań na poziomie specjalistów ludzkich, co stanowi przełom w kontekście automatyzacji przeglądów literatury.

Dostępność i zastosowania praktyczne

OpenScholar został udostępniony jako w pełni otwarty projekt – kod źródłowy, checkpointy modelu, indeks wyszukiwania i dane treningowe są publicznie dostępne bez opłat. Dostępne jest również demo online umożliwiające bezpośrednie testowanie systemu.

Głównym zastosowaniem jest wsparcie naukowców w nadążaniu za lawinowo rosnącą liczbą publikacji. System może być deployowany na własnej infrastrukturze, a metoda opisana w publikacji pozwala na zwiększenie kompetencji w zakresie przeglądów literatury w dowolnym modelu językowym. Projekt stanowił podstawę dla dalszych rozwiązań, w tym Deep Research Tulu (DR Tulu), który rozszerza możliwości o wieloetapowe wyszukiwanie i generowanie kompleksowych raportów badawczych.

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Kliknij pojęcie, by przypomnieć sobie definicję.

self-feedback

Self-feedback to zdolność systemu AI do automatycznej oceny własnych wyników, analizowania kroków rozumowania oraz identyfikowania potencjalnych błędów lub luk logicznych....

Czytaj pełną definicję

Deep Research Tulu (DR Tulu)

Deep Research Tulu (DR Tulu) to pierwszy otwartoźródłowy model AI klasy deep research, zaprojektowany do prowadzenia długofalowych i złożonych badań...

Czytaj pełną definicję

OpenScholar: open-source’owy asystent AI dla naukowców ze stuprocentową dokładnością cytowań

Architektura techniczna systemu

Problem halucynacji w modelach komercyjnych

Benchmark i wyniki ewaluacji

Dostępność i zastosowania praktyczne

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Architektura techniczna systemu

Problem halucynacji w modelach komercyjnych

Benchmark i wyniki ewaluacji

Dostępność i zastosowania praktyczne

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane posty