LeRobot idzie do szkoły nauki jazdy – największy otwarty zbiór danych do autonomicznej jazdy

ciekawostki

W marcu 2025 roku społeczność AI zajmująca się robotyką otrzymała dostęp do przełomowego zasobu – Learning to Drive (L2D), największego multimodalnego zbioru danych przeznaczonego do budowania otwartej inteligencji przestrzennej dla pojazdów autonomicznych. Zbiór ten oferuje pełne wsparcie dla modeli i pipeline’u treningowego LeRobot od Hugging Face.

Bezprecedensowa skala danych

L2D wyróżnia się na tle istniejących zbiorów danych do autonomicznej jazdy nie tylko swoją wielkością (ponad 1 PB danych), ale również kompleksowością. W przeciwieństwie do wcześniejszych zbiorów, które skupiały się głównie na zadaniach percepcji i planowania, L2D koncentruje się na uczeniu end-to-end, gdzie modele uczą się przewidywać działania bezpośrednio na podstawie danych sensorycznych.

Docelowo zbiór ma zawierać milion epizodów jazdy o łącznym czasie trwania ponad 5000 godzin i rozmiarze przekraczającym 90 TB. Dane zostały zebrane przy użyciu identycznych zestawów czujników zainstalowanych w 60 pojazdach elektrycznych używanych przez szkoły nauki jazdy w 30 niemieckich miastach w ciągu 3 lat.

Unikalne cechy zbioru danych

Kluczową cechą L2D jest podział na dwie grupy polityk jazdy: ekspertów (instruktorów jazdy) oraz uczniów (kursantów). Polityki ekspertów są uważane za optymalne, bez błędów w prowadzeniu pojazdu, podczas gdy polityki uczniów zawierają znane niedoskonałości. Obie grupy obejmują wszystkie scenariusze jazdy wymagane do uzyskania prawa jazdy w UE.

Każdy pojazd był wyposażony w sześć kamer RGB rejestrujących otoczenie w zakresie 360°, GPS do śledzenia lokalizacji, IMU do zbierania dynamiki pojazdu oraz interfejs CAN do odczytu prędkości, pedałów gazu/hamulca, kąta skrętu, kierunkowskazów i biegu.

Instrukcje w języku naturalnym

Unikalnym aspektem L2D jest włączenie instrukcji w języku naturalnym dla każdego epizodu jazdy, np. “Gdy masz pierwszeństwo, wyjedź z ronda trzecim zjazdem, ostrożnie przejeżdżając przez przejście dla pieszych”. Instrukcje te są tworzone automatycznie przy użyciu pozycji pojazdu (GPS), Open-Source Routing Machine, OpenStreetMap i modelu językowego (LLM).

Harmonogram wydań

Twórcy L2D zaplanowali stopniowe udostępnianie danych w kilku wydaniach:

  • R0 (marzec 2025): 100 epizodów, 0,5+ godz., 9,5 GB
  • R1 (kwiecień 2025): 1000 epizodów, 5+ godz., 95 GB
  • R2 (maj 2025): 10 000 epizodów, 50+ godz., 1 TB
  • R3 (czerwiec 2025): 100 000 epizodów, 500+ godz., 10 TB
  • R4 (lipiec 2025): 1 000 000 epizodów, 5000+ godz., 90 TB

Społeczność AI jest również zachęcana do wyszukiwania i odkrywania nowych scenariuszy w całym zbiorze danych oraz zgłaszania ich do włączenia w przyszłych wydaniach.

Testowanie w zamkniętej pętli

Od lata 2025 roku społeczność AI będzie mogła przesyłać modele do testowania w zamkniętej pętli z kierowcą bezpieczeństwa. Modele będą mogły sterować pojazdem w dwóch trybach: jazdy według punktów orientacyjnych oraz jazdy według instrukcji językowych.

Dzięki L2D, twórcy mają nadzieję na przełom w rozwoju inteligencji przestrzennej, porównywalny z tym, co ImageNet zrobił dla rozpoznawania obrazów.

Źródła

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry
Hej. Nie zapomnij podzielić się opinią oraz udostępnić dalej.