Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench)

Multi-Turn Benchmark for Evaluating Chatbots (MT-Bench) to benchmark oceniający zdolności modeli językowych do prowadzenia wieloturowych konwersacji, składający się z 80 pytań z ośmiu kategorii tematycznych (np. kodowanie, matematyka, kreowanie ról). Benchmark ten wykorzystuje GPT-4 jako automatycznego sędziego do oceny jakości odpowiedzi w skali punktowej, kładąc nacisk na spójność dialogu i zgodność z instrukcjami. Jest szeroko uznany za standardowy zestaw testowy do porównywania praktycznych umiejętności rozmówczych modeli, choć krytykowany za ograniczoną liczbę pytań i potencjalne uprzedzenia związane z oceną przez GPT-4.

Źródło: arxiv.org

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry