Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench)

Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench) to jeden z pierwszych zestawów testowych zaprojektowanych specjalnie do oceny zdolności modeli językowych do prowadzenia wieloturowych konwersacji. Składa się on z 80 starannie opracowanych pytań obejmujących osiem kategorii tematycznych, takich jak kodowanie, matematyka czy odgrywanie ról, gdzie model musi odpowiedzieć na zapytanie wstępne oraz na powiązane z nim pytanie pomocnicze. Benchmark ten kładzie nacisk na sprawdzanie spójności dialogu, pamięci kontekstowej oraz umiejętności podążania za instrukcjami w dynamicznym przepływie rozmowy. Do oceny jakości odpowiedzi wykorzystuje się zaawansowane modele, takie jak GPT-4, które pełnią rolę sędziego w skali punktowej.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry