Language consistency reward (nagroda za spójność językową) to mechanizm stosowany w procesie uczenia wzmacniającego modeli DeepSeek-R1, mający na celu wyeliminowanie problemu mieszania różnych języków w odpowiedziach. Nagroda ta jest obliczana na podstawie proporcji słów w języku docelowym w procesie rozumowania (Chain of Thought), co promuje generowanie spójnych i czytelnych dla człowieka tekstów. Choć jej wprowadzenie może nieznacznie obniżyć precyzję w zadaniach logicznych, znacząco poprawia użyteczność modelu poprzez dopasowanie jego odpowiedzi do preferencji językowych użytkownika.
language consistency reward
Reklama





