Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO) to metoda dostrajania dużych modeli językowych do preferencji ludzkich, która stanowi prostszą i bardziej stabilną alternatywę dla uczenia ze wzmocnieniem (RLHF). Technika ta eliminuje konieczność trenowania osobnego modelu nagrody, bezpośrednio optymalizując politykę modelu za pomocą prostej funkcji straty klasyfikacji binarnej na podstawie par odpowiedzi wybranych i odrzuconych.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry