PageIndex: Retrieval oparte na rozumowaniu zamiast podobieństwa wektorowego

PageIndex

Tradycyjne systemy RAG (Retrieval-Augmented Generation) opierają się na wyszukiwaniu wektorowym, które znajduje treść podobną do zapytania poprzez porównanie wektorów semantycznych. W praktyce oznacza to, że system często nie rozróżnia między tym, co podobne, a tym, co istotne dla konkretnego pytania. PageIndex, projekt open-source autorstwa zespołu VectifyAI, proponuje fundamentalnie inny podход: system retrieval, który funkcjonuje bardziej jak Expert w danej dziedzinie, poruszający się po dokumencie za pomocą strukturalnego wyszukiwania i logicznego rozumowania.

Problem z wektorowym wyszukiwaniem

Semantic search, choć powszechnie stosowany, ma istotne ograniczenia w kontekście złożonych, zawodowych dokumentów. Wyszukiwanie poprzez podobieństwo wektorowe to w gruncie rzeczy „vibe retrieval” – system wybiera fragmenty na podstawie tego, jak bliskie są odpowiadające im wektory, a nie na podstawie rzeczywistej relewancji merytorycznej. Dla dokumentów finansowych, regulacyjnych czy technicznych, które wymagają wieloetapowego rozumowania i kontekstu domeny, to podejście często zawodzi.

Reklama

PageIndex rozwiązuje ten problem poprzez wprowadzenie koncepcji reasoning-based RAG – systemu, który zamiast przeszukiwać wektory, przeprowadza hierarchiczne wyszukiwanie podobnie do tego, jak człowiek-ekspert czytałby dokument. System najpierw buduje strukturę dokumentu (jak spis treści zoptymalizowany dla LLM), a następnie inteligentnie przeszukuje to drzewo, aby znaleźć naprawdę istotne sekcje.

Kluczowe cechy architekury

PageIndex operuje na kilku zasadniczych założeniach, które odróżniają go od tradycyjnych podejść:

  • Bez wektorów – system nie wymaga bazy danych wektorowych ani infrastruktury do ich utrzymania. Wykorzystuje zamiast tego strukturę dokumentu i rozumowanie LLM.
  • Bez sztucznego fragmentacji – tradycyjne systemy dzielą dokumenty na sztucznie określone chunki. PageIndex respektuje naturalną hierarchię sekcji i podsekcji dokumentu.
  • Przezroczyste wyszukiwanie – zamiast „magicznego” scoringu wektorowego, retrieval opiera się na explicitnym rozumowaniu, które można śledzić i interpretować.

Proces indexowania przebiega dwuetapowo. Najpierw system generuje strukturę drzewiasta dokumentu – semantyczne reprezentacje hierarchii zawartości, zbliżone do spisu treści, ale przystosowane do pracy z modelami językowymi. Każdy węzeł zawiera tytuł sekcji, podsumowanie zawartości i indeksy stronic. Następnie, podczas wyszukiwania, LLM „myśli” poprzez drzewo, oceniając, które gałęzie są najbardziej obiecujące dla danego zapytania, a następnie wgłębiając się w relewantne podsekcje.

Praktyczne zastosowania i wyniki

PageIndex sprawdza się szczególnie dobrze w scenariuszach zawierających długie, złożone dokumenty: raporty finansowe, zgłoszenia regulacyjne (SEC filings), teksbooks akademickie czy instrukcje techniczne. Każdy z tych typów wymaga zrozumienia kontekstu i struktury, aby prawidłowo odpowiadać na pytania.

Konkretnym przykładem jest projekt Mafin 2.5, model RAG dedykowany analizie dokumentów finansowych, zasilany przez PageIndex. W benchmark’u FinanceBench osiągnął dokładność 98,7% – wynik istotnie przewyższający tradycyjne systemy oparte na wektorowych bazach danych. Hierarchiczna indeksacja PageIndex umożliwia precyzyjną nawigację po złożonych raportach finansowych i ekstrakcję rzeczywiście istotnych fragmentów.

Wdrażanie i integracja

PageIndex dostępny jest w kilka formach. Projekt open-source (Python, MIT License) pozwala na samodzielne hosting’owanie systemu lokalnie – wymagane jest tylko klucz OpenAI API i biblioteki z pliku requirements.txt. Podstawowe użycie sprowadza się do uruchomienia skryptu run_pageindex.py na wybranym PDF:

  • Obsługuje zarówno PDF jak i pliki Markdown
  • Umożliwia konfigurację modelu LLM, rozmiaru węzłów i opcji indeksacji
  • Niedawno wprowadzono PageIndex MCP – integrację z Claude, Cursor i innymi narzędziami obsługującymi MCP (Model Context Protocol)

Dla użytkowników preferujących gotowe rozwiązanie, VectifyAI oferuje usługę cloud’ową z dashboard’em i API, bez konieczności lokalnej konfiguracji.

PageIndex OCR – OCR dla długich kontekstów

Równolegle z głównym projektem zespół rozwijał PageIndex OCR – pierwsze narzędzie OCR zaprojektowane z myślą o długich dokumentach i zachowaniu ich globalnej struktury. Standardowe narzędzia OCR (z Mistrala czy Contextual AI) ekstrahują zawartość na poziomie strony, traciąc hierarchię i kontekst wielostrony. PageIndex OCR utrzymuje oryginalną strukturę dokumentu, co jest krytyczne dla prawidłowego funkcjonowania systemu indexowania.

Zbuduj własne, prywatne AI

Ten wpis to część naszej bazy projektów open-source. Jeśli szukasz innych modeli, które możesz uruchomić całkowicie offline na własnym sprzęcie, zajrzyj do naszego stale rosnącego Katalogu Lokalnych Narzędzi AI.

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Kliknij pojęcie, by przypomnieć sobie definicję.

Analiza dokumentów o strukturze hierarchicznej (Structured Document Analysis)
?
Analiza dokumentów o strukturze hierarchicznej (Structured Document Analysis) to proces polegający na systematycznym badaniu i interpretowaniu materiałów posiadających wyraźnie zdefiniowaną...
Czytaj pełną definicję
System RAG oparty na rozumowaniu logicznym (Reasoning-Based RAG)
?
Reasoning-Based RAG to zaawansowane podejście do systemów Retrieval-Augmented Generation, które zamiast polegać wyłącznie na prostym podobieństwie wektorowym, wykorzystuje procesy logicznego...
Czytaj pełną definicję
Wyszukiwanie oparte na strukturze drzewiastej (Tree-Based Retrieval)
?
Wyszukiwanie oparte na strukturze drzewiastej to zaawansowana metoda organizacji i pobierania informacji, która zamiast płaskiej listy fragmentów tekstu wykorzystuje hierarchiczną...
Czytaj pełną definicję
Wyszukiwanie eksperckie (Expert Retrieval)
?
Wyszukiwanie eksperckie (Expert Retrieval) to zaawansowana metoda pozyskiwania informacji, która wykorzystuje procesy rozumowania modeli językowych zamiast polegać wyłącznie na podobieństwie...
Czytaj pełną definicję
Fragmentacja dokumentów (Document Chunking)
?
Fragmentacja dokumentów (Document Chunking) to proces dzielenia dużych tekstów na mniejsze, zarządzalne jednostki, zwane fragmentami, w celu ich efektywnego przetwarzania...
Czytaj pełną definicję
System hierarchicznego indeksowania dokumentów (PageIndex)
?
PageIndex to system indeksowania dokumentów, który przekształca długie treści w hierarchiczną strukturę drzewa przypominającą inteligentny spis treści. Zamiast dzielić tekst...
Czytaj pełną definicję
Reklama

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry