Direct Preference Optimization (DPO) to metoda dostrajania dużych modeli językowych do preferencji ludzkich, która stanowi prostszą i bardziej stabilną alternatywę dla uczenia ze wzmocnieniem (RLHF). Technika ta eliminuje konieczność trenowania osobnego modelu nagrody, bezpośrednio optymalizując politykę modelu za pomocą prostej funkcji straty klasyfikacji binarnej na podstawie par odpowiedzi wybranych i odrzuconych.
📖 Dowiedz się więcej w kontekście:
Reklama





