W marcu 2025 roku społeczność AI zajmująca się robotyką otrzymała dostęp do przełomowego zasobu – Learning to Drive (L2D), największego multimodalnego zbioru danych przeznaczonego do budowania otwartej inteligencji przestrzennej dla pojazdów autonomicznych. Zbiór ten oferuje pełne wsparcie dla modeli i pipeline’u treningowego LeRobot od Hugging Face.
Bezprecedensowa skala danych
L2D wyróżnia się na tle istniejących zbiorów danych do autonomicznej jazdy nie tylko swoją wielkością (ponad 1 PB danych), ale również kompleksowością. W przeciwieństwie do wcześniejszych zbiorów, które skupiały się głównie na zadaniach percepcji i planowania, L2D koncentruje się na uczeniu end-to-end, gdzie modele uczą się przewidywać działania bezpośrednio na podstawie danych sensorycznych.
Docelowo zbiór ma zawierać milion epizodów jazdy o łącznym czasie trwania ponad 5000 godzin i rozmiarze przekraczającym 90 TB. Dane zostały zebrane przy użyciu identycznych zestawów czujników zainstalowanych w 60 pojazdach elektrycznych używanych przez szkoły nauki jazdy w 30 niemieckich miastach w ciągu 3 lat.
Unikalne cechy zbioru danych

Kluczową cechą L2D jest podział na dwie grupy polityk jazdy: ekspertów (instruktorów jazdy) oraz uczniów (kursantów). Polityki ekspertów są uważane za optymalne, bez błędów w prowadzeniu pojazdu, podczas gdy polityki uczniów zawierają znane niedoskonałości. Obie grupy obejmują wszystkie scenariusze jazdy wymagane do uzyskania prawa jazdy w UE.
Każdy pojazd był wyposażony w sześć kamer RGB rejestrujących otoczenie w zakresie 360°, GPS do śledzenia lokalizacji, IMU do zbierania dynamiki pojazdu oraz interfejs CAN do odczytu prędkości, pedałów gazu/hamulca, kąta skrętu, kierunkowskazów i biegu.
Instrukcje w języku naturalnym
Unikalnym aspektem L2D jest włączenie instrukcji w języku naturalnym dla każdego epizodu jazdy, np. “Gdy masz pierwszeństwo, wyjedź z ronda trzecim zjazdem, ostrożnie przejeżdżając przez przejście dla pieszych”. Instrukcje te są tworzone automatycznie przy użyciu pozycji pojazdu (GPS), Open-Source Routing Machine, OpenStreetMap i modelu językowego (LLM).
Harmonogram wydań
Twórcy L2D zaplanowali stopniowe udostępnianie danych w kilku wydaniach:
- R0 (marzec 2025): 100 epizodów, 0,5+ godz., 9,5 GB
- R1 (kwiecień 2025): 1000 epizodów, 5+ godz., 95 GB
- R2 (maj 2025): 10 000 epizodów, 50+ godz., 1 TB
- R3 (czerwiec 2025): 100 000 epizodów, 500+ godz., 10 TB
- R4 (lipiec 2025): 1 000 000 epizodów, 5000+ godz., 90 TB
Społeczność AI jest również zachęcana do wyszukiwania i odkrywania nowych scenariuszy w całym zbiorze danych oraz zgłaszania ich do włączenia w przyszłych wydaniach.
Testowanie w zamkniętej pętli
Od lata 2025 roku społeczność AI będzie mogła przesyłać modele do testowania w zamkniętej pętli z kierowcą bezpieczeństwa. Modele będą mogły sterować pojazdem w dwóch trybach: jazdy według punktów orientacyjnych oraz jazdy według instrukcji językowych.
Dzięki L2D, twórcy mają nadzieję na przełom w rozwoju inteligencji przestrzennej, porównywalny z tym, co ImageNet zrobił dla rozpoznawania obrazów.





