OpenScholar: open-source’owy asystent AI dla naukowców ze stuprocentową dokładnością cytowań

zajawka nowosci

Zespół badaczy z University of Washington i Allen Institute for AI przedstawił OpenScholar – specjalistyczny model językowy zaprojektowany do syntezy literatury naukowej. W przeciwieństwie do komercyjnych rozwiązań, które potrafią halucynować cytaty w nawet 78-90% przypadków, OpenScholar osiąga dokładność porównywalną z ekspertami ludzkimi.

Architektura techniczna systemu

Fundament OpenScholar stanowi mechanizm retrieval-augmented generation (RAG) połączony z dedykowaną bazą danych OSDS (OpenScholar DataStore). Ta baza zawiera 45 milionów artykułów naukowych z otwartym dostępem oraz 236 milionów prekomputowanych embedingów akapitów, co czyni ją prawdopodobnie największą i najbardziej aktualną publiczną bazą publikacji naukowych.

Model wykorzystuje kompaktową architekturę z 8 miliardami parametrów (OpenScholar-8B). System działa w trzech etapach: wytrenowane retriever i reranker identyfikują istotne fragmenty tekstu, model generuje odpowiedź z cytowaniami, a następnie pętla self‑feedback iteracyjnie udoskonala wynik pod kątem faktyczności, kompletności i dokładności cytowań.

Problem halucynacji w modelach komercyjnych

Standardowe duże modele językowe wykazują znaczące problemy z wiarygodnością cytowań w kontekście naukowym. W badaniach GPT‑4o generował fałszywe lub błędne cytaty w 78‑90% przypadków, podczas gdy inne analizy wykazały, że GPT‑4 halucinował w 28,6% testów, a GPT‑3.5 w 39,6%. Co więcej, wśród rzeczywistych cytowań generowanych przez te modele, do 45% zawierało błędy takie jak nieprawidłowe daty publikacji czy błędne identyfikatory DOI.

Problem nasila się w przypadku mniej popularnych tematów badawczych. Podczas gdy dla szeroko badanych zagadnień jak depresja dokładność GPT‑4o sięgała 94%, dla niszowych zaburzeń odżywiania wskaźnik halucynacji wzrastał do 28‑29%.

Benchmark i wyniki ewaluacji

Zespół opracował ScholarQABench – pierwszy wielodomenowy benchmark do oceny systemów syntezy literatury naukowej. Zawiera on 2967 zapytań napisanych przez ekspertów oraz 208 rozbudowanych odpowiedzi obejmujących informatykę, fizykę, neuronaukę i biomedycynę.

W testach porównawczych 16 naukowców preferowało odpowiedzi OpenScholar nad tekstami przygotowane przez ekspertów dziedzinowych w 51% przypadków. Model osiągnął dokładność cytowań na poziomie specjalistów ludzkich, co stanowi przełom w kontekście automatyzacji przeglądów literatury.

Dostępność i zastosowania praktyczne

OpenScholar został udostępniony jako w pełni otwarty projekt – kod źródłowy, checkpointy modelu, indeks wyszukiwania i dane treningowe są publicznie dostępne bez opłat. Dostępne jest również demo online umożliwiające bezpośrednie testowanie systemu.

Głównym zastosowaniem jest wsparcie naukowców w nadążaniu za lawinowo rosnącą liczbą publikacji. System może być deployowany na własnej infrastrukturze, a metoda opisana w publikacji pozwala na zwiększenie kompetencji w zakresie przeglądów literatury w dowolnym modelu językowym. Projekt stanowił podstawę dla dalszych rozwiązań, w tym Deep Research Tulu (DR Tulu), który rozszerza możliwości o wieloetapowe wyszukiwanie i generowanie kompleksowych raportów badawczych.

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Kliknij pojęcie, by przypomnieć sobie definicję.

self-feedback
?
Self-feedback to zdolność systemu AI do automatycznej oceny własnych wyników, analizowania kroków rozumowania oraz identyfikowania potencjalnych błędów lub luk logicznych....
Czytaj pełną definicję
Deep Research Tulu (DR Tulu)
?
Deep Research Tulu (DR Tulu) to pierwszy otwartoźródłowy model AI klasy deep research, zaprojektowany do prowadzenia długofalowych i złożonych badań...
Czytaj pełną definicję

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry