Współczesne systemy AI coraz częściej muszą radzić sobie z zadaniami wymagającymi autonomicznego myślenia i dynamicznego wyboru odpowiednich narzędzi. DeepAgent to nowatorskie rozwiązanie opracowane przez zespół z Uniwersytetu Ludów Chin, które zmienia podejście do budowy inteligentnych agentów poprzez jednolity proces rozumowania i automatyczną detekcję potrzebnych zasobów.
Od Sztywnych Przepływów do Autonomicznego Myślenia
Tradycyjne architektury agentów AI, takie jak ReAct, operują w oparciu o z góry zdefiniowane cykle działania: „Rozumuj – Działaj – Obserwuj”. DeepAgent odchodzi od tego paradygmatu, wprowadzając ujednolicony strumień myśli, w którym agent autonomicznie rozumuje problem, odkrywa potrzebne narzędzia i wykonuje działania w ramach jednego spójnego procesu. Taki model pozwala systemowi na globalną perspektywę całego zadania, zamiast działania w ramach sztywnego schematu.
System może pracować z ogromnym zbiorem narzędzi, od ponad 16 000 API dostępnych przez RapidAPI, po wyspecjalizowane zestawy dla konkretnych domen, takie jak wyszukiwanie internetowe, przeglądanie stron czy wykonywanie kodu.
Mechanizm Autonomicznego Foldowania Pamięci
Kluczową innowacją DeepAgent jest mechanizm „Autonomous Memory Folding” – algorytm, który pozwala agentowi na przeanalizowanie swojej działalności i krótką przerwę do refleksji, gdy napotka problem. System kompresuje historię interakcji w strukturalną, zainspirowaną biologią architekturę pamięci, umożliwiając agentowi ponowne rozważenie strategii bez utraty informacji.
Pamięć w DeepAgent składa się z trzech warstw:
- Pamięci epizodycznej – wysokopoziomowy dziennik kluczowych zdarzeń i ukończonych podtasków
- Pamięci roboczej – zawiera bieżące informacje, aktualny cel i krótkoterminowe plany
- Pamięci narzędziowej – konsoliduje wszystkie interakcje z narzędziami, umożliwiając agentowi uczenie się z doświadczenia
ToolPO: Uczenie Przez Wzmacnianie Dostosowane do Narzędzi
Do trenowania DeepAgent autorzy opracowali metodę o nazwie ToolPO – algorytm optymalizacji polityki dostosowany specjalnie dla nauki używania wielu narzędzi. System wykorzystuje symulator narzędzi oparty na modelach LLM, który naśladuje rzeczywiste interfejsy API, umożliwiając stabilny i efektywny trening.
Kluczowa innowacja ToolPO to przydzielanie precyzyjnego kredytu, system przyporządkowuje dokładne sygnały nagrody poszczególnym tokenom, które poprawnie wyzwalają narzędzia. Takie podejście zapewnia bardziej precyzyjny sygnał uczenia niż tradycyjne metody.
Rozszerzony Zakres Zastosowań
DeepAgent wykazuje zdolności we wszystkich głównych kategoriach zadań agentów AI. W benchmarkach dotyczących użycia narzędzi (ToolBench, API-Bank, TMDB, Spotify, ToolHop) przewyższa konkurencyjne rozwiązania. System radzi sobie również z zadaniami wcielonymi (ALFWorld – nawigacja w środowiskach tekstowych), przeglądaniem stron (WebShop – symulacja zakupów online) oraz zaawansowaną pracą badawczą (GAIA, Humanity’s Last Exam – wymagające wyszukiwania, VQA i wykonania kodu).
Elastyczność DeepAgent pozwala na łatwe skalowanie od specjalistycznych zestawów narzędzi po kolekcje API, co czyni go użytecznym zarówno dla wąskich zastosowań branżowych, jak i ogólnych zadań autonomicznego rozumowania.
Praktyczne Zastosowania i Perspektywy
DeepAgent otwiera nowe możliwości dla asystentów AI zdolnych do złożonego rozumowania. Może wspierać głębokie badania naukowe poprzez autonomiczne wyszukiwanie i analizę zasobów, automatyzować skomplikowane procesy biznesowe wymagające wieloetapowego planowania, czy też wspierać interfejsy dla użytkowników poprzez adaptacyjne odkrywanie odpowiednich funkcji. Mechanizm foldowania pamięci ma szczególne znaczenie dla długotrwałych interakcji, gdzie agent musi balansować między przechowywaniem danych a wydajnością przetwarzania.
Opublikowany kod źródłowy DeepAgent jest dostępny pod licencją MIT, z wsparciem dla modeli rozumowania takich jak Qwen3 i QwQ, co ułatwia eksperymentowanie i adaptację na potrzeby indywidualnych projektów.





