Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench) to jeden z pierwszych zestawów testowych zaprojektowanych specjalnie do oceny zdolności modeli językowych do prowadzenia wieloturowych konwersacji. Składa się on z 80 starannie opracowanych pytań obejmujących osiem kategorii tematycznych, takich jak kodowanie, matematyka czy odgrywanie ról, gdzie model musi odpowiedzieć na zapytanie wstępne oraz na powiązane z nim pytanie pomocnicze. Benchmark ten kładzie nacisk na sprawdzanie spójności dialogu, pamięci kontekstowej oraz umiejętności podążania za instrukcjami w dynamicznym przepływie rozmowy. Do oceny jakości odpowiedzi wykorzystuje się zaawansowane modele, takie jak GPT-4, które pełnią rolę sędziego w skali punktowej.
Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench)
Reklama





