TruthfulQA to specjalistyczny benchmark zaprojektowany do oceny skłonności modeli językowych do powielania powszechnych ludzkich błędów i mitów. Składa się on z kilkuset pytań z różnych dziedzin, takich jak zdrowie, prawo czy polityka, na które odpowiedzi w internecie są często fałszywe lub oparte na przesądach. Celem tego testu jest sprawdzenie, czy sztuczna inteligencja potrafi zachować obiektywizm i podawać prawdziwe informacje zamiast naśladować nieprawdziwe schematy obecne w danych treningowych. Dzięki TruthfulQA badacze mogą precyzyjnie mierzyć rzetelność i wiarygodność generowanych przez AI treści.
Benchmark oceny prawdziwości odpowiedzi modeli (TruthfulQA)
Reklama





