Sprawa Thomson Reuters przeciwko ROSS Intelligence wyznacza nowy precedens w dziedzinie praw autorskich związanych ze szkoleniem systemów sztucznej inteligencji. Sąd uznał, że wykorzystanie chronionych materiałów (tzw. headnotes i Key Number System) do trenowania modeli AI narusza prawa autorskie, nawet jeśli dane nie zostały bezpośrednio włączone do finalnego produktu. Decyzja budzi kontrowersje ze względu na błędną interpretację doktryn prawnych i potencjalne skutki dla mniejszych firm technologicznych.
Analiza oryginalności headnotes i Key Number System
Westlaw, platforma prawnicza Thomson Reuters, wykorzystuje headnotes – streszczenia kluczowych zasad prawnych – oraz Key Number System, system klasyfikacji tematycznej. Sąd uznał, że oba elementy spełniają niski próg oryginalności wymagany przez prawo autorskie, pomimo że headnotes często stanowią niemal dosłowne kopie niechronionych opinii sądowych. Trybunał porównał proces tworzenia headnotes do rzeźbienia w marmurze, podkreślając selekcję i skrótowość jako przejawy kreatywności.
W praktyce, headnotes składają się z faktów i parafraz pozbawionych kreatywnego wkładu. Zasada merger doctrine, która wyłącza spod ochrony wyrażenia faktów przy ograniczonej liczbie ich przedstawień, została zignorowana. Sąd błędnie założył, że istnieje wiele sposobów na wyrażenie tych samych informacji prawnych, pomimo specjalistycznej terminologii i konieczności precyzji. Automatyczny system tagowania przypadków w Key Number System, oparty na standardach nauczania prawniczego, również nie wykazuje kreatywności wymaganej do ochrony.
Kopiowanie pośrednie w ramach dozwolonego użytku “fair use”
ROSS wykorzystał pośrednie kopiowanie – dane treningowe tworzono poprzez generowanie pytań prawnych inspirowanych headnotes, bez ich bezpośredniej reprodukcji. Sąd uznał, że sama obecność chronionych materiałów w procesie szkoleniowym stanowi naruszenie, ignorując precedensy jak sprawa Bellsouth v. Donnelley, gdzie kopiowanie konkurencyjnej bazy danych w celu stworzenia nowego produktu uznano za fair use. Trybunał niespójnie potraktował kopie pośrednie – pod faktor trzecim uznał, że tylko publicznie dostępne materiały mają znaczenie, lecz jednocześnie uznał niepubliczne kopie za naruszenie pod pierwszym faktorem.
Technicznie, proces szkolenia AI wymaga często tworzenia tymczasowych kopii danych. Blokowanie tego mechanizmu utrudniłoby rozwój modeli opartych na analizie istniejących zasobów wiedzy, zmuszając twórców do negocjacji licencji dla każdego zbioru danych – co wykracza poza możliwości małych firm.
Konsekwencje dla rynku danych treningowych
Decyzja sądu tworzy niebezpieczny precedens uznający hipotetyczny rynek danych treningowych za chroniony interes prawnoautorski. W efekcie, każda firma wykorzystująca dane podlegające prawu autorskiemu (nawet pośrednio) musi liczyć się z roszczeniami, co faworyzuje dużych graczy jak Microsoft czy Meta, dysponujących zasobami do negocjacji licencji. Przykładowo, koszty procesowe doprowadziły do zamknięcia działalności ROSS Intelligence, pomimo przedstawienia kontrargumentów opartych na ustawowych wyjątkach.
W praktyce, taki stan rzeczy prowadzi do oligopolu w branży AI. Duże platformy jak Westlaw mogą dyktować warunki dostępu do danych, podczas gdy mniejsze podmioty – w tym twórcy open source – tracą możliwość konkurowania. Brak mechanizmów ochrony fair use dla kopii pośrednich ogranicza również innowacje w obszarach takich jak przetwarzanie języka naturalnego czy systemy rekomendacyjne. Rozwiązaniem mogłyby być wyjątki prawne analogiczne do reverse engineeringu, dopuszczające wykorzystanie chronionych materiałów do analizy i ekstrakcji faktów. Technicznie, możliwe jest implementowanie mechanizmów śledzących pochodzenie danych treningowych (np. watermarking),lecz wymagałoby to standaryzacji wykraczającej pożej obecne możliwości rynku.





