Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench) to benchmark oceniający zdolności modeli językowych do prowadzenia wieloturowych konwersacji, składający się z 80 pytań z ośmiu kategorii tematycznych (np. kodowanie, matematyka, kreowanie ról). Benchmark ten wykorzystuje GPT-4 jako automatycznego sędziego do oceny jakości odpowiedzi w skali punktowej, kładąc nacisk na spójność dialogu i zgodność z instrukcjami. Jest szeroko uznany za standardowy zestaw testowy do porównywania praktycznych umiejętności rozmówczych modeli, choć krytykowany za ograniczoną liczbę pytań i potencjalne uprzedzenia związane z oceną przez GPT-4.
Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench)
Źródło: arxiv.org




