Tradycyjne systemy RAG (Retrieval-Augmented Generation) opierają się na wyszukiwaniu wektorowym, które znajduje treść podobną do zapytania poprzez porównanie wektorów semantycznych. W praktyce oznacza to, że system często nie rozróżnia między tym, co podobne, a tym, co istotne dla konkretnego pytania. PageIndex, projekt open-source autorstwa zespołu VectifyAI, proponuje fundamentalnie inny podход: system retrieval, który funkcjonuje bardziej jak Expert w danej dziedzinie, poruszający się po dokumencie za pomocą strukturalnego wyszukiwania i logicznego rozumowania.
Problem z wektorowym wyszukiwaniem
Semantic search, choć powszechnie stosowany, ma istotne ograniczenia w kontekście złożonych, zawodowych dokumentów. Wyszukiwanie poprzez podobieństwo wektorowe to w gruncie rzeczy „vibe retrieval” – system wybiera fragmenty na podstawie tego, jak bliskie są odpowiadające im wektory, a nie na podstawie rzeczywistej relewancji merytorycznej. Dla dokumentów finansowych, regulacyjnych czy technicznych, które wymagają wieloetapowego rozumowania i kontekstu domeny, to podejście często zawodzi.
PageIndex rozwiązuje ten problem poprzez wprowadzenie koncepcji reasoning-based RAG – systemu, który zamiast przeszukiwać wektory, przeprowadza hierarchiczne wyszukiwanie podobnie do tego, jak człowiek-ekspert czytałby dokument. System najpierw buduje strukturę dokumentu (jak spis treści zoptymalizowany dla LLM), a następnie inteligentnie przeszukuje to drzewo, aby znaleźć naprawdę istotne sekcje.
Kluczowe cechy architekury
PageIndex operuje na kilku zasadniczych założeniach, które odróżniają go od tradycyjnych podejść:
- Bez wektorów – system nie wymaga bazy danych wektorowych ani infrastruktury do ich utrzymania. Wykorzystuje zamiast tego strukturę dokumentu i rozumowanie LLM.
- Bez sztucznego fragmentacji – tradycyjne systemy dzielą dokumenty na sztucznie określone chunki. PageIndex respektuje naturalną hierarchię sekcji i podsekcji dokumentu.
- Przezroczyste wyszukiwanie – zamiast „magicznego” scoringu wektorowego, retrieval opiera się na explicitnym rozumowaniu, które można śledzić i interpretować.
Proces indexowania przebiega dwuetapowo. Najpierw system generuje strukturę drzewiasta dokumentu – semantyczne reprezentacje hierarchii zawartości, zbliżone do spisu treści, ale przystosowane do pracy z modelami językowymi. Każdy węzeł zawiera tytuł sekcji, podsumowanie zawartości i indeksy stronic. Następnie, podczas wyszukiwania, LLM „myśli” poprzez drzewo, oceniając, które gałęzie są najbardziej obiecujące dla danego zapytania, a następnie wgłębiając się w relewantne podsekcje.
Praktyczne zastosowania i wyniki
PageIndex sprawdza się szczególnie dobrze w scenariuszach zawierających długie, złożone dokumenty: raporty finansowe, zgłoszenia regulacyjne (SEC filings), teksbooks akademickie czy instrukcje techniczne. Każdy z tych typów wymaga zrozumienia kontekstu i struktury, aby prawidłowo odpowiadać na pytania.
Konkretnym przykładem jest projekt Mafin 2.5, model RAG dedykowany analizie dokumentów finansowych, zasilany przez PageIndex. W benchmark’u FinanceBench osiągnął dokładność 98,7% – wynik istotnie przewyższający tradycyjne systemy oparte na wektorowych bazach danych. Hierarchiczna indeksacja PageIndex umożliwia precyzyjną nawigację po złożonych raportach finansowych i ekstrakcję rzeczywiście istotnych fragmentów.
Wdrażanie i integracja
PageIndex dostępny jest w kilka formach. Projekt open-source (Python, MIT License) pozwala na samodzielne hosting’owanie systemu lokalnie – wymagane jest tylko klucz OpenAI API i biblioteki z pliku requirements.txt. Podstawowe użycie sprowadza się do uruchomienia skryptu run_pageindex.py na wybranym PDF:
- Obsługuje zarówno PDF jak i pliki Markdown
- Umożliwia konfigurację modelu LLM, rozmiaru węzłów i opcji indeksacji
- Niedawno wprowadzono PageIndex MCP – integrację z Claude, Cursor i innymi narzędziami obsługującymi MCP (Model Context Protocol)
Dla użytkowników preferujących gotowe rozwiązanie, VectifyAI oferuje usługę cloud’ową z dashboard’em i API, bez konieczności lokalnej konfiguracji.
PageIndex OCR – OCR dla długich kontekstów
Równolegle z głównym projektem zespół rozwijał PageIndex OCR – pierwsze narzędzie OCR zaprojektowane z myślą o długich dokumentach i zachowaniu ich globalnej struktury. Standardowe narzędzia OCR (z Mistrala czy Contextual AI) ekstrahują zawartość na poziomie strony, traciąc hierarchię i kontekst wielostrony. PageIndex OCR utrzymuje oryginalną strukturę dokumentu, co jest krytyczne dla prawidłowego funkcjonowania systemu indexowania.






