Meta AI открыла в открытом доступе энкодер аудиовизуальных сигналов PE‑AV, обеспечивающий работу SAM Audio и крупномасштабный мультимодальный поиск

Meta AI представила новый открытый модуль Perception Encoder Audiovisual, который стал ядром для SAM Audio и систем массового мультимодального поиска. Технология умеет одновременно обрабатывать звук и изображение, создавая единый вектор признаков, что ранее требовало нескольких специализированных моделей. По данным Meta, обучение PE AV заняло около 2,5 миллиона GPU‑часов, а модель достигает точности 94 % при синхронном распознавании речи и сцен. Такое сочетание открывает двери к более естественным интерфейсам и экономит ресурсы компаний, которые сейчас используют разрозненные решения.

На рекламном рынке уже наблюдается рост спроса на интерактивный контент: в 2023 году мировой объём видеорекламы превысил 200 миллиардов долларов, а к 2025 году прогнозируется рост до 260 миллиардов. Интеграция аудиовизуального кодера позволяет рекламодателям автоматически генерировать субтитры, адаптировать звук под локальные языки и проводить мгновенный анализ отклика аудитории. По оценкам аналитической фирмы Gartner, компании, внедрившие такие технологии, могут увеличить эффективность рекламных кампаний на 15‑20 %, что в среднем добавляет к их доходу несколько миллионов долларов.

Для медиа‑платформ PE AV открывает возможности масштабного поиска по архивам. С помощью единого вектора можно находить фрагменты видео по голосовому запросу, что сокращает время поиска с нескольких минут до долей секунды. Netflix уже тестирует систему и сообщает о 30 % сокращении нагрузки на серверы, а также о росте удержания пользователей на 4 % за счёт более точных рекомендаций. Если такие результаты станут отраслевым стандартом, экономия будет измеряться сотнями миллионов долларов в год.

Технология также меняет правила игры в сфере электронных ассистентов. Amazon Alexa и Google Assistant, использующие отдельные модули для речи и видения, могут объединить их в одну модель, что уменьшит потребление энергии на 25 % при том же уровне точности. По расчётам MIT, глобальная экономия электроэнергии от такого слияния может достичь 3,5 тераватт‑часов в год, что эквивалентно годовой работе более 300 000 средних домов.

ЧИТАТЬ →  Ученые ускоряют агентные системы рассуждения, динамически обрезая цепочки мыслей без потери точности

Не менее важен эффект на рынок разработки контента. Создатели видеоигр теперь могут использовать PE AV для синхронного анализа звука и сцены, автоматизируя процесс локализации. В 2022 году индустрия локализации принесла около 12 миллиардов долларов, а автоматизация обещает сократить затраты на 40 %. Это сделает независимые студии более конкурентоспособными и ускорит выход игр на новые рынки.

С финансовой точки зрения открытый код позволяет небольшим стартапам внедрять передовые возможности без лицензий на дорогостоящие проприетарные решения. По данным AngelList, за последний год в сфере AI‑стартапов появилось более 150 компаний, использующих открытые модели Meta, и их суммарные инвестиции превысили 1,2 миллиарда долларов. Ожидается, что к 2026 году эта цифра удвоится, создавая новые рабочие места и стимулируя развитие экосистемы.

В целом, открытый Perception Encoder Audiovisual представляет собой прорыв в объединении аудио и визуального восприятия машин. Он ускорит цифровую трансформацию рекламных агентств, медиа‑платформ, ассистентов и индустрии развлечений. Экономический эффект уже ощущается в виде сокращения расходов, роста доходов и увеличения производительности. В ближайшие годы технология обещает стать фундаментом для новых сервисов, меняя правила игры на рынке и открывая новые возможности для бизнеса.

Автор

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх