LightRAG to otwartoźródłowy system umożliwiający wzbogacenie generowania tekstu poprzez wyszukiwanie informacji (Retrieval-Augmented Generation, RAG). Projekt powstał na Uniwersytecie w Hongkongu i został zaprezentowany na konferencji EMNLP Paper. W przeciwieństwie do tradycyjnych podejść RAG, LightRAG łączy ekstrakcję grafu wiedzy z wyszukiwaniem wektorowym, osiągając lepsze wyniki przy jednoczesnym zmniejszeniu złożoności.
Jak działa system — od teorii do praktyki
Kluczową innowacją LightRAG jest automatyczne budowanie grafu zależności między pojęciami. Podczas indeksowania dokumentów system identyfikuje encje (osoby, organizacje, pojęcia) oraz relacje między nimi. Na tej podstawie tworzy strukturę pozwalającą na szybkie wyszukiwanie zarówno informacji szczegółowych, jak i złożonych powiązań między koncepcjami.
System oferuje sześć trybów wyszukiwania dostosowanych do różnych potrzeb:
- Lokalny (local) — skupia się na informacjach zależnych od kontekstu, idealne dla szczegółowych pytań
- Globalny (global) — wykorzystuje wiedzę z całego grafu, przydatny dla pytań o perspektywę ogólną
- Hybrydowy (hybrid) — łączy obie strategie, rekomendowany dla większości zastosowań
- Mix — integruje wyszukiwanie w grafie i wektorem dla złożonych zapytań
- Naiwny (naive) — proste wyszukiwanie wektorowe bez zaawansowanych technik
- Bypass — pominięcie wyszukiwania i bezpośrednie generowanie
Elastyczność w wyborze trybu pozwala dostosować system do konkretnych wymagań — od przeszukiwania dokumentacji technicznej po analizę materiałów prawnych, gdzie system wykazuje ponad przewagę nad konkurencyjnymi rozwiązaniami.
Elastyczność w wyborze technologii
LightRAG nie wymusza konkretnych narzędzi — obsługuje wielość modeli i baz danych. Można go zintegrować z modelami OpenAI, HuggingFace, czy lokalnie uruchamianymi modelami przez Ollama. Do kodowania tekstu na wektory system rekomenduje zaawansowane modele osadzające (embedding models), takie jak BGE-M3, zaś dla poprawy trafności wyników wspiera narzędzia do ponownego rankingowania odtworzonych dokumentów.
Pod względem przechowywania danych, system oferuje opcje od prostych plików JSON do rozwiązań klasy enterprise, takich jak PostgreSQL, MongoDB, czy dedykowane bazy grafowe Neo4J. Ta modularność sprawia, że LightRAG skaluje się od prototypów do systemów produkcyjnych bez konieczności przebudowy całej architekektury.
Wsparcie dla danych multimodalnych
Niedawna integracja z modułem RAG-Anything rozszerzyła możliwości systemu poza zwykły tekst. System potrafią przetwarzać dokumenty PDF, obrazy, tabele, a nawet równania matematyczne. Oznacza to, że inżynierowie mogą indeksować schematyczne rysunki, a analitycy — złożone tabele zawierające dane biznesowe, wszystko w ramach jednego ujednoliconego przepływu pracy.
Praktyczne zastosowania
System znalazł zastosowanie w analizie dokumentacji — zarówno w kontekście edukacyjnym, jak i biznesowym. Grupy zajmujące się wdrażaniem AI mogą wykorzystać LightRAG do budowania asystentów opartych na własnych zasobach — firmowe bazy wiedzy, instrukcje, artykuły techniczne stają się źródłem odpowiedzi generowanych przez model językowy.
Dla zespołów zajmujących się przeszukiwaniem informacji — od prawników analizujących umowy do badaczy recenzujących literaturę — system oferuje możliwość tworzenia struktur pomagających w szybkim odkrywaniu powiązań między różnymi fragmentami danych. Interfejs webowy umożliwia wizualizację i eksport zbudowanego grafu, ułatwiając weryfikację i udokumentowanie źródeł informacji.
Droga do produkcji — wsparcie dla systemów klasy enterprise
LightRAG nie jest tylko akademickim prototypem. System wspiera serwer REST API, interfejs Ollama-compatible pozwalający na integrację z istniejącymi platformami chatbot, oraz webowy interfejs użytkownika do zarządzania dokumentami i eksploracji grafu. Buforowanie wyników modeli językowych minimalizuje koszty operacyjne, a kontrola nad liczbą tokenów pozwala monitorować i planować budżety.
Możliwość usuwania dokumentów poprzez identyfikatory, edytowania encji i ich relacji, oraz eksportowania wyników w różnych formatach czyni system przydatnym dla zespołów wymagających pełnej kontroli nad danymi i procesami audytu.
| Aspekt | Możliwości |
|---|---|
| Tryby wyszukiwania | Local, global, hybrid, mix, naive, bypass |
| Formaty dokumentów | TXT, PDF, DOCX, PPTX, CSV, obrazy, tabele, równania |
| Bazy danych (grafy) | NetworkX, Neo4J, PostgreSQL-AGE, Memgraph |
| Bazy wektorowe | NanoVector, PGVector, Milvus, Faiss, Qdrant, Chroma, MongoDB |
| Modele LLM | OpenAI, HuggingFace, Ollama, LlamaIndex, API-compatible |
Źródła
- LightRAG — GitHub Repository
- LightRAG: Simple and Fast Retrieval-Augmented Generation — EMNLP Paper
- LearnOpenCV — LightRAG Guide





