Spektrogramy log-mel to zaawansowana forma wizualizacji sygnałów dźwiękowych, w której częstotliwości są mapowane na nieliniową skalę melową, a ich amplituda jest wyrażona w skali logarytmicznej (decybelach). Takie podejście pozwala lepiej odwzorować sposób, w jaki ludzkie ucho odbiera wysokość i głośność dźwięku, co jest kluczowe w analizie mowy i muzyki. Dzięki tym właściwościom spektrogramy log-mel stanowią standardowy format danych wejściowych dla nowoczesnych modeli głębokiego uczenia zajmujących się rozpoznawaniem mowy i klasyfikacją dźwięku.
spektrogramy log-mel
Reklama





