LMSYS Chatbot Arena to otwarta platforma służąca do oceny i porównywania dużych modeli językowych na podstawie rzeczywistych interakcji z użytkownikami. System opiera się na metodzie ślepych testów, w których człowiek rozmawia z dwoma anonimowymi modelami jednocześnie, a następnie wskazuje, która odpowiedź była lepsza. Na podstawie zebranych głosów generowany jest ranking Elo, który odzwierciedla faktyczną użyteczność i jakość sztucznej inteligencji w ocenach społeczności. Jest to obecnie jeden z najbardziej cenionych benchmarków, ponieważ pozwala mierzyć wydajność modeli w sposób trudniejszy do zmanipulowania niż tradycyjne testy statyczne.
Platforma oceny chatbotów na podstawie głosowań użytkowników (LMSYS Chatbot Arena)
Reklama





