SWE-bench to zaawansowany benchmark zaprojektowany do oceny zdolności modeli językowych w rozwiązywaniu rzeczywistych problemów z zakresu inżynierii oprogramowania. Test polega na automatycznym naprawianiu błędów i wdrażaniu nowych funkcji w oparciu o autentyczne zgłoszenia oraz pull requesty z popularnych repozytoriów GitHub. W przeciwieństwie do prostych zadań programistycznych, wymaga on od AI zrozumienia rozbudowanych struktur kodu i poprawnej interakcji z wieloma plikami jednocześnie. Jest to kluczowe narzędzie do mierzenia autonomii systemów sztucznej inteligencji w procesie tworzenia i utrzymywania profesjonalnego oprogramowania.
Software Engineering Benchmark (SWE-bench)
Reklama





