PageIndex: Retrieval oparte na rozumowaniu zamiast podobieństwa wektorowego

Tradycyjne systemy RAG (Retrieval-Augmented Generation) opierają się na wyszukiwaniu wektorowym, które znajduje treść podobną do zapytania poprzez porównanie wektorów semantycznych. W praktyce oznacza to, że system często nie rozróżnia między tym, co podobne, a tym, co istotne dla konkretnego pytania. PageIndex, projekt open-source autorstwa zespołu VectifyAI, proponuje fundamentalnie inny podход: system retrieval, który funkcjonuje bardziej jak Expert w danej dziedzinie, poruszający się po dokumencie za pomocą strukturalnego wyszukiwania i logicznego rozumowania.

Problem z wektorowym wyszukiwaniem

Semantic search, choć powszechnie stosowany, ma istotne ograniczenia w kontekście złożonych, zawodowych dokumentów. Wyszukiwanie poprzez podobieństwo wektorowe to w gruncie rzeczy „vibe retrieval” – system wybiera fragmenty na podstawie tego, jak bliskie są odpowiadające im wektory, a nie na podstawie rzeczywistej relewancji merytorycznej. Dla dokumentów finansowych, regulacyjnych czy technicznych, które wymagają wieloetapowego rozumowania i kontekstu domeny, to podejście często zawodzi.

PageIndex rozwiązuje ten problem poprzez wprowadzenie koncepcji reasoning-based RAG – systemu, który zamiast przeszukiwać wektory, przeprowadza hierarchiczne wyszukiwanie podobnie do tego, jak człowiek-ekspert czytałby dokument. System najpierw buduje strukturę dokumentu (jak spis treści zoptymalizowany dla LLM), a następnie inteligentnie przeszukuje to drzewo, aby znaleźć naprawdę istotne sekcje.

Kluczowe cechy architekury

PageIndex operuje na kilku zasadniczych założeniach, które odróżniają go od tradycyjnych podejść:

Bez wektorów – system nie wymaga bazy danych wektorowych ani infrastruktury do ich utrzymania. Wykorzystuje zamiast tego strukturę dokumentu i rozumowanie LLM.
Bez sztucznego fragmentacji – tradycyjne systemy dzielą dokumenty na sztucznie określone chunki. PageIndex respektuje naturalną hierarchię sekcji i podsekcji dokumentu.
Przezroczyste wyszukiwanie – zamiast „magicznego” scoringu wektorowego, retrieval opiera się na explicitnym rozumowaniu, które można śledzić i interpretować.

Proces indexowania przebiega dwuetapowo. Najpierw system generuje strukturę drzewiasta dokumentu – semantyczne reprezentacje hierarchii zawartości, zbliżone do spisu treści, ale przystosowane do pracy z modelami językowymi. Każdy węzeł zawiera tytuł sekcji, podsumowanie zawartości i indeksy stronic. Następnie, podczas wyszukiwania, LLM „myśli” poprzez drzewo, oceniając, które gałęzie są najbardziej obiecujące dla danego zapytania, a następnie wgłębiając się w relewantne podsekcje.

Praktyczne zastosowania i wyniki

PageIndex sprawdza się szczególnie dobrze w scenariuszach zawierających długie, złożone dokumenty: raporty finansowe, zgłoszenia regulacyjne (SEC filings), teksbooks akademickie czy instrukcje techniczne. Każdy z tych typów wymaga zrozumienia kontekstu i struktury, aby prawidłowo odpowiadać na pytania.

Konkretnym przykładem jest projekt Mafin 2.5, model RAG dedykowany analizie dokumentów finansowych, zasilany przez PageIndex. W benchmark’u FinanceBench osiągnął dokładność 98,7% – wynik istotnie przewyższający tradycyjne systemy oparte na wektorowych bazach danych. Hierarchiczna indeksacja PageIndex umożliwia precyzyjną nawigację po złożonych raportach finansowych i ekstrakcję rzeczywiście istotnych fragmentów.

Wdrażanie i integracja

PageIndex dostępny jest w kilka formach. Projekt open-source (Python, MIT License) pozwala na samodzielne hosting’owanie systemu lokalnie – wymagane jest tylko klucz OpenAI API i biblioteki z pliku requirements.txt. Podstawowe użycie sprowadza się do uruchomienia skryptu run_pageindex.py na wybranym PDF:

Obsługuje zarówno PDF jak i pliki Markdown
Umożliwia konfigurację modelu LLM, rozmiaru węzłów i opcji indeksacji
Niedawno wprowadzono PageIndex MCP – integrację z Claude, Cursor i innymi narzędziami obsługującymi MCP (Model Context Protocol)

Dla użytkowników preferujących gotowe rozwiązanie, VectifyAI oferuje usługę cloud’ową z dashboard’em i API, bez konieczności lokalnej konfiguracji.

PageIndex OCR – OCR dla długich kontekstów

Równolegle z głównym projektem zespół rozwijał PageIndex OCR – pierwsze narzędzie OCR zaprojektowane z myślą o długich dokumentach i zachowaniu ich globalnej struktury. Standardowe narzędzia OCR (z Mistrala czy Contextual AI) ekstrahują zawartość na poziomie strony, traciąc hierarchię i kontekst wielostrony. PageIndex OCR utrzymuje oryginalną strukturę dokumentu, co jest krytyczne dla prawidłowego funkcjonowania systemu indexowania.

Zbuduj własne, prywatne AI

Ten wpis to część naszej bazy projektów open-source. Jeśli szukasz innych modeli, które możesz uruchomić całkowicie offline na własnym sprzęcie, zajrzyj do naszego stale rosnącego Katalogu Lokalnych Narzędzi AI.

Spis narzędzi

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Kliknij pojęcie, by przypomnieć sobie definicję.

Fragmentacja dokumentów (Document Chunking)

Fragmentacja dokumentów (Document Chunking) to proces dzielenia dużych tekstów na mniejsze, zarządzalne jednostki, zwane fragmentami, w celu ich efektywnego przetwarzania...

Czytaj pełną definicję

Hierarchiczna indeksacja dokumentów (Hierarchical Indexing)

Hierarchiczna indeksacja dokumentów to metoda organizowania danych, która polega na tworzeniu wielopoziomowych struktur odzwierciedlających relacje nadrzędności i podrzędności między informacjami....

Czytaj pełną definicję

Wyszukiwanie oparte na strukturze drzewiastej (Tree-Based Retrieval)

Wyszukiwanie oparte na strukturze drzewiastej to zaawansowana metoda organizacji i pobierania informacji, która zamiast płaskiej listy fragmentów tekstu wykorzystuje hierarchiczną...

Czytaj pełną definicję

Analiza dokumentów o strukturze hierarchicznej (Structured Document Analysis)

Analiza dokumentów o strukturze hierarchicznej (Structured Document Analysis) to proces polegający na systematycznym badaniu i interpretowaniu materiałów posiadających wyraźnie zdefiniowaną...

Czytaj pełną definicję

System RAG oparty na rozumowaniu logicznym (Reasoning-Based RAG)

Reasoning-Based RAG to zaawansowane podejście do systemów Retrieval-Augmented Generation, które zamiast polegać wyłącznie na prostym podobieństwie wektorowym, wykorzystuje procesy logicznego...

Czytaj pełną definicję

System hierarchicznego indeksowania dokumentów (PageIndex)

PageIndex to system indeksowania dokumentów, który przekształca długie treści w hierarchiczną strukturę drzewa przypominającą inteligentny spis treści. Zamiast dzielić tekst...

Czytaj pełną definicję

Problem z wektorowym wyszukiwaniem

Kluczowe cechy architekury

Praktyczne zastosowania i wyniki

Wdrażanie i integracja

PageIndex OCR – OCR dla długich kontekstów

Zbuduj własne, prywatne AI

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Problem z wektorowym wyszukiwaniem

Kluczowe cechy architekury

Praktyczne zastosowania i wyniki

Wdrażanie i integracja

PageIndex OCR – OCR dla długich kontekstów

Zbuduj własne, prywatne AI

Źródła

🧠 Utrwal wiedzę z tego artykułu!

Artur Kowynia

Dodaj komentarz Anuluj pisanie odpowiedzi

Powiązane posty