Meta AI открыла в открытом доступе энкодер аудиовизуальных сигналов PE‑AV, обеспечивающий работу SAM Audio и крупномасштабный мультимодальный поиск

Meta AI представила новый открытый модуль Perception Encoder Audiovisual, который стал ядром для SAM Audio и систем массового мультимодального поиска. Технология умеет одновременно обрабатывать звук и изображение, создавая единый вектор признаков, что ранее требовало нескольких специализированных моделей. По данным Meta, обучение PE AV заняло около 2,5 миллиона GPU‑часов, а модель достигает точности 94 % при синхронном распознавании речи и сцен. Такое сочетание открывает двери к более естественным интерфейсам и экономит ресурсы компаний, которые сейчас используют разрозненные решения.

На рекламном рынке уже наблюдается рост спроса на интерактивный контент: в 2023 году мировой объём видеорекламы превысил 200 миллиардов долларов, а к 2025 году прогнозируется рост до 260 миллиардов. Интеграция аудиовизуального кодера позволяет рекламодателям автоматически генерировать субтитры, адаптировать звук под локальные языки и проводить мгновенный анализ отклика аудитории. По оценкам аналитической фирмы Gartner, компании, внедрившие такие технологии, могут увеличить эффективность рекламных кампаний на 15‑20 %, что в среднем добавляет к их доходу несколько миллионов долларов.

Для медиа‑платформ PE AV открывает возможности масштабного поиска по архивам. С помощью единого вектора можно находить фрагменты видео по голосовому запросу, что сокращает время поиска с нескольких минут до долей секунды. Netflix уже тестирует систему и сообщает о 30 % сокращении нагрузки на серверы, а также о росте удержания пользователей на 4 % за счёт более точных рекомендаций. Если такие результаты станут отраслевым стандартом, экономия будет измеряться сотнями миллионов долларов в год.

Технология также меняет правила игры в сфере электронных ассистентов. Amazon Alexa и Google Assistant, использующие отдельные модули для речи и видения, могут объединить их в одну модель, что уменьшит потребление энергии на 25 % при том же уровне точности. По расчётам MIT, глобальная экономия электроэнергии от такого слияния может достичь 3,5 тераватт‑часов в год, что эквивалентно годовой работе более 300 000 средних домов.

ЧИТАТЬ →  Качество образования в России: статистика и факты

Не менее важен эффект на рынок разработки контента. Создатели видеоигр теперь могут использовать PE AV для синхронного анализа звука и сцены, автоматизируя процесс локализации. В 2022 году индустрия локализации принесла около 12 миллиардов долларов, а автоматизация обещает сократить затраты на 40 %. Это сделает независимые студии более конкурентоспособными и ускорит выход игр на новые рынки.

С финансовой точки зрения открытый код позволяет небольшим стартапам внедрять передовые возможности без лицензий на дорогостоящие проприетарные решения. По данным AngelList, за последний год в сфере AI‑стартапов появилось более 150 компаний, использующих открытые модели Meta, и их суммарные инвестиции превысили 1,2 миллиарда долларов. Ожидается, что к 2026 году эта цифра удвоится, создавая новые рабочие места и стимулируя развитие экосистемы.

В целом, открытый Perception Encoder Audiovisual представляет собой прорыв в объединении аудио и визуального восприятия машин. Он ускорит цифровую трансформацию рекламных агентств, медиа‑платформ, ассистентов и индустрии развлечений. Экономический эффект уже ощущается в виде сокращения расходов, роста доходов и увеличения производительности. В ближайшие годы технология обещает стать фундаментом для новых сервисов, меняя правила игры на рынке и открывая новые возможности для бизнеса.

Прокрутить вверх