Wstęp techniczny
HeartLib to zespół otwarto-źródłowych modeli fundamentalnych (foundation models) dedykowanych do przetwarzania, zrozumienia i generowania muzyki. Projekt stanowi kompleksowe rozwiązanie dla pracowników naukowych i twórców, którzy chcą pracować z muzyczną sztuczną inteligencją bez ograniczeń zamkniętych platform. HeartLib wprowadza ujednolicony ekosystem obejmujący wyrównywanie audio-tekstu, tokenizację muzyki, rozpoznawanie tekstów piosenek oraz kontrolowalną generację muzyki.
Architektura i komponenty główne
Framework HeartLib składa się z czterech kluczowych modułów, każdy odpowiadający innym aspektom przetwarzania muzyki:
- HeartCLAP – model wyrównywania audio-tekstu, który uczy się wspólnej przestrzeni osadzenia dla semantyki muzycznej. Umożliwia precyzyjne tagowanie muzyki i wyszukiwanie międzymodalne, stanowiąc fundament dla zadań generacyjnych.
- HeartCodec – innowacyjny tokenizer kodeka muzyki o niskiej częstotliwości klatek (12,5 Hz) przy zachowaniu wysokiej wierności. Oddaje długodystansową strukturę muzyczną, jednocześnie zachowując drobiazgowe szczegóły akustyczne umożliwiające efektywne modelowanie autoregresywne.
- HeartTranscriptor – zaawansowany model rozpoznawania tekstów piosenek zoptymalizowany do rzeczywistych scenariuszy muzycznych, oporny na szumy i zniekształcenia charakterystyczne dla produkcji muzycznej.
- HeartMuLa – generator piosenek oparty na modelach językowych (LLM), zdolny do syntetyzowania wysokowiernościowej muzyki pod kontrolą użytkownika. Obsługuje elastyczne wejścia, w tym opisy stylów, szczegółowe teksty i audio referencyjne, oferując precyzyjną kontrolę nad atrybutami muzycznymi takimi jak gatunek, nastrój i rytm.
Innowacyjne rozwiązania techniczne
HeartCodec wyróżnia się nowatorskim podejściem do tokenizacji muzyki. Tradycyjne kodeki muzyczne muszą wybierać między wysoką wierności a efektywną pracą z długimi sekwencjami. HeartCodec rozwiązuje ten dylemat, osiągając wysoką ekspresyjność przy niskiej częstotliwości klatek. Architektura hierarchiczna HeartMuLa dekomponuje proces modelowania na dwa etapy: transformator globalny, który modeluje zależności pomiędzy ramkami, oraz transformator lokalny predykujący pozostałe tokeny w ramach każdej ramki. Takie podejście umożliwia zarówno wydajne, jak i skalowalne modelowanie długich sekwencji muzycznych.
Model obsługuje mechanizm warunkowania oparty na tekstach piosenek opatrzonych markerami strukturalnymi takimi jak [intro], [verse] czy [chorus]. Markery te kierują modelem w identyfikowaniu i zachowywaniu struktury piosenki, co prowadzi do generacji bardziej spójnych i logicznych muzycznie kompozycji.
Skala i wydajność
HeartMuLa-oss-3B, wersja trójmiliardowa modelu, demonstruje niezwykłe rezultaty. Po raz pierwszy pokazano, że system na poziomie komercyjnym (porównywalny z platformą Suno) można odtworzyć przy użyciu danych akademickich i zasobów GPU dostępnych dla naukowców. Model obsługuje wielojęzyczność, pozwalając na generowanie piosenek w angielskim, hindzie, bengalskim, chińskim i innych językach.
Praktyczne zastosowania i ekosystem
HeartLib znajduje zastosowanie w kilku domenach. Naukowcy mogą wykorzystywać framework do badań nad modelami muzyki i uczenia maszynowego. Twórcy muzyki mogą eksploatować kontrolowalną generację do prototypowania i wstępnej produkcji. Deweloperzy mogą budować aplikacje z wykorzystaniem otwarto-źródłowych komponentów bez zależności od zamkniętych API.
Ekosystem rozszerzył się także o HeartMuLa Studio – aplikację pełnostakową z interfejsem użytkownika React, backendem FastAPI i wsparciem dla lokalnego uruchamiania modeli. Studio oferuje doświadczenie podobne do Suno, ale całkowicie otwarto-źródłowe, z możliwościami tailoringu głosu za pomocą LoRA oraz wsparciu dla wielogpuowych ustawień.
Dostępność i integracja
HeartLib dostępny jest na GitHubie oraz poprzez Hugging Face Model Hub. Instalacja wymaga podstawowej konfiguracji Pythona, a wstępne przykłady znajdują się w repozytorium projektu. Uniwersalne modelowanie, zaufanie do otwarto-źródłowych danych treningowych i niskie wymagania obliczeniowe w stosunku do możliwości czynią projekt dostępnym dla szerokiego grona użytkowników, od naukowców do hobbystów.
Źródła
- HeartMuLa/heartlib – Oficjalne repozytorium GitHub
- HeartMuLa – Strona demonstracyjna projektu
- HeartMuLa-oss-3B – Model na Hugging Face
- HeartMuLa: A Family of Open Sourced Music Foundation Models – Publikacja naukowa
- HeartMuLa Studio – Aplikacja z interfejsem graficznym






