Cache-Augmented Generation (CAG) to technika optymalizacji modeli językowych, która polega na wcześniejszym załadowaniu istotnej wiedzy bezpośrednio do okna kontekstowego w formie wstępnie obliczonej pamięci podręcznej klucz-wartość (KV cache). W przeciwieństwie do RAG, metoda ta całkowicie eliminuje proces dynamicznego wyszukiwania dokumentów w czasie rzeczywistym, co pozwala na znaczne zmniejszenie opóźnień i uproszczenie architektury systemu. Rozwiązanie to jest szczególnie efektywne w przypadkach, gdy baza wiedzy jest statyczna i mieści się w limicie kontekstu modelu.
Cache-Augmented Generation (CAG)
Reklama





