Software Engineering Benchmark (SWE-bench)

SWE-bench to zaawansowany benchmark zaprojektowany do oceny zdolności modeli językowych w rozwiązywaniu rzeczywistych problemów z zakresu inżynierii oprogramowania. Test polega na automatycznym naprawianiu błędów i wdrażaniu nowych funkcji w oparciu o autentyczne zgłoszenia oraz pull requesty z popularnych repozytoriów GitHub. W przeciwieństwie do prostych zadań programistycznych, wymaga on od AI zrozumienia rozbudowanych struktur kodu i poprawnej interakcji z wieloma plikami jednocześnie. Jest to kluczowe narzędzie do mierzenia autonomii systemów sztucznej inteligencji w procesie tworzenia i utrzymywania profesjonalnego oprogramowania.

Reklama

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry