policy optimization

Optymalizacja polityki (policy optimization) to rodzina algorytmów uczenia wzmocnionego, które polegają na bezpośrednim optymalizowaniu strategii działania agenta (polityki) w celu maksymalizacji oczekiwanej nagrody. W przeciwieństwie do metod opartych na wartościach, podejście to aktualizuje parametry sieci neuronowej w kierunku gradientu wydajności, co zapewnia większą stabilność i skuteczność w środowiskach o ciągłej przestrzeni stanów. Popularne przykłady tej metody, takie jak PPO, są powszechnie stosowane w robotyce oraz procesie dostrajania dużych modeli językowych (RLHF).

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry