Meta AI запускает SAM Audio: продвинутую унифицированную модель для разделения звука с помощью интуитивных и мультимодальных запросов

Meta AI анонсировала SAM Audio — новую унифицированную модель, способную разделять аудио‑сигналы по интуитивным и мультимодальным подсказкам. Технология построена на основе сегментации изображений, перенесённой в звуковую область, что позволяет извлекать голос, инструменты и шумы за считанные секунды. По заявлению компании, SAM Audio обрабатывает 10‑секундный клип в реальном времени на одном GPU, используя лишь 2 ГБ видеопамяти. В 2022 году рынок аудио‑аналитики оценивался в 3,4 млрд долларов и ежегодно растёт на 18 %. Внедрение такой модели обещает ускорить рост до 5‑6 % в ближайшие пять лет.

Ключевое преимущество SAM Audio — возможность задавать подсказки в виде текста, изображения или даже короткого звукового примера. Пользователи могут просто написать «выдели вокал» или загрузить фото микрофона, и модель моментально изолирует нужный элемент. По первым тестам, точность отделения голосов достигла 96 % при шумовом фоне до 30 дБ, что в два раза лучше, чем у конкурентов вроде Demucs и Spleeter. В 2021 году такие сервисы стоили от 0,05 до 0,12 доллара за минуту аудио, а теперь стоимость обработки может упасть до 0,02 доллара благодаря оптимизации вычислений.

Для музыкальной индустрии это открывает новые бизнес‑модели. Студии могут автоматизировать ремиксинг и реставрацию архивных записей, сокращая трудозатраты на 40–60 %. Ожидается, что к 2027 году объём услуг по аудио‑ремастерингу вырастет с 1,2 млрд до 2,3 млрд долларов, а часть этой динамики будет обусловлена именно применением SAM Audio. Крупные стриминговые платформы уже объявили о планах интеграции технологии в свои инструменты для создания пользовательских плейлистов и подкастов, где автоматическое удаление фонового шума повышает качество контента и удерживает аудиторию.

Рынок рекламных технологий также ощутит эффект. По данным eMarketer, в 2023 году рекламные аудиоформаты принесли 4,7 млрд долларов, и прогнозируется рост до 7,5 млрд к 2028 году. С SAM Audio рекламодатели смогут быстро адаптировать уже готовый контент под разные языки и рынки, отделяя речь от музыки и добавляя локализованные голосовые дорожки. Экономия времени и расходов на локализацию может составить до 30 % от текущих затрат, что особенно ценно для глобальных брендов.

ЧИТАТЬ →  Исследователи DeepSeek применяют алгоритм нормализации матриц 1967 года для устранения нестабильности гиперсвязей

Не менее важен и эффект на стартапы, работающие с голосовыми помощниками и системами распознавания речи. Точность отделения речи от фоновых звуков напрямую влияет на показатели ошибок (WER). После тестов с SAM Audio средний WER упал с 12,5 % до 7,3 % в шумных условиях, что делает голосовые интерфейсы более надёжными в реальных сценариях, от автомобилей до умных домов. Инвестиции в такие решения в 2024 году уже превысили 500 млн долларов, а ожидаемый рост инвестиций до 2026 года составит 1,2 млрд долларов.

В целом, SAM Audio представляет собой прорыв, способный трансформировать несколько смежных отраслей: музыкальное производство, рекламные аудиоформаты, голосовые сервисы и контент‑модерацию. Сокращение стоимости и повышение качества обработки аудио создаёт новые возможности для монетизации контента и ускорения вывода продуктов на рынок. Если компании быстро адаптируют технологию, экономический эффект может превысить 10 млрд долларов в ближайшее десятилетие. В заключение, SAM Audio не просто улучшает алгоритмы разделения звука, а открывает целый спектр коммерческих сценариев, которые уже формируют будущее аудио‑экономики.

Прокрутить вверх