Flow-GRPO (Flow-based Group Refined Policy Optimization) to metoda łącząca uczenie przez wzmacnianie (RL) z modelami typu flow matching, umożliwiająca efektywne trenowanie za pomocą dwóch kluczowych strategii: (1) konwersji ODE na SDE (Ordinary Differential Equation do Stochastic Differential Equation), co zapewnia statystyczną eksplorację poprzez generowanie prób marginalnych na wszystkich etapach, oraz (2) mechanizmu outcome broadcasting, który dystrybuuje informację o końcowym wyniku zadania do wszystkich etapów decyzyjnych, eliminując problem rzadkich nagród. Technika ta poprawia zdolność uczenia się w złożonych, wieloetapowych zadaniach poprzez feedback hindsight, co jest analogiczne do ludzkiej zdolności nauki z doświadczenia.
Flow-GRPO
Źródło: arxiv.org



