Новости

История Яндекса о создании колонки с дисплеем Станции Дуо Макс

На недавней конференции YaC 2023 представили новое устройство — Станцию Дуо Макс. Это первая умная колонка от Яндекса с сенсорным экраном, являющаяся флагманом в новой категории устройств. Дуо Макс предлагает пользователям знакомые функции других Станций, а также новые способы взаимодействия с Алисой.

Помимо подробностей об устройстве и цели использования экрана, Яндекс поделится несколькими историями разработки. Например, расскажет, как экран влияет на акустику устройства, и какие неожиданные изменения возникли при возможности поворота экрана на 90 градусов. А также о видеозвонках в Telegram и нейросетевых функциях. В заключение Яндекс поделится историей о участии в отладке процессора.

Зачем экран умной колонке

Умные устройства с экранами хорошо известны за рубежом, благодаря усилиям компаний, таких как Amazon, Facebook и Google. Не только известны, но и согласно исследованию американского рынка, более чем у 25% владельцев умных колонок имеется устройство с экраном в домашней коллекции. Но для чего нужен экран, если есть голосовое управление?

Яндекс считает, что сенсорный экран дополняет взаимодействие с виртуальным помощником и значительно расширяет возможности устройства. Во-первых, теперь ответ можно не только услышать, но и увидеть, а также получить дополнительную информацию на экране. Например, информацию о погоде с разбивкой по часам или список установленных напоминаний.
Во-вторых, с помощью сенсорного экрана можно совершать действия, которые не всегда удобно выполнять голосом, такие как выбор трека в плейлисте или цвета для умной лампочки.
В-третьих, экран позволяет использовать устройство для просмотра фильмов, сериалов, трансляций ТВ-каналов или контента с YouTube, а также для видео- и аудиозвонков в Telegram.

Итак, мы разобрались, какую роль может выполнять экран. Но как должно выглядеть само устройство? Умные устройства с экранами сильно различаются. Некоторые модели напоминают скорее будильник, в то время как другие — полноценные колонки с дополнительным экраном. Станция Дуо Макс — первое устройство в категории умных колонок с экраном и флагман, созданный для выполнения множества задач. Для реализации всех этих возможностей понадобилась хорошая акустика и большой, удобный экран.
История о вращающемся экране

Давайте начнем с самого заметного элемента нового устройства — экрана. Команда Яндекса выбрала дисплей размером 10,5 дюйма с разрешением 1920 х 1200 пикселей и добавила к нему камеру для видеозвонков. Выбор камеры включал подбор матрицы, объектива, проверку совместимости с выбранным процессором и другие тонкости тюнинга. Например, при выборе объектива они учитывали необходимость широкого угла обзора, так как колонка предназначена для использования в помещении, где могут присутствовать несколько собеседников одновременно. Разработчики Яндекса провели сравнение вариантов объективов на 110, 115 и 120 градусов и выбрали последний вариант, который позволяет аппаратно компенсировать эффект «рыбьего глаза».

Кроме того, учитывая проблемы уменьшения размера изображения при удалении от камеры разработали небольшую нейросеть, которая автоматически кадрирует изображение, чтобы сохранить фокус внимания на человеке, а не на интерьере, даже если в кадре находятся и другие люди. Эта нейросеть работает на устройстве, и видеопоток не отправляется на серверы Яндекса.

Кроме того, рассмотрели проблему видеозвонков по горизонтальному экрану и добавили возможность поворота экрана на 90 градусов, чтобы поддерживать вертикальный видеопоток без пустых областей по бокам. Это решение также позволяет устройству лучше вписываться в интерьер.
Угол наклона экрана также можно настроить под удобное положение.
Не только угол наклона, но и механизм вращения экрана в двух плоскостях также были настроены с особым вниманием к надежности, проведя серию тестов на износ и механическую прочность. Для этого происходило вращение экрана 30 тысяч раз (естественно, не вручную) и замерялось требуемое усилие для вращения. Если после теста это усилие изменилось не более чем на 25% (в любую сторону), то это соответствовало стандартам Яндекса. Однако первая версия не прошла данный тест. Дальнейшие усилия привели к использованию отдельной вставки, изготовленной методом порошковой металлургии из сплава Fe8Ni, чтобы улучшить прочность механизма вращения экрана.
Первая версия
После усовершенствования
Отдельная вставка из сплава Fe8Ni
Решение сделать экран поворотным привело к неожиданным продуктовым последствиям. Первое касается расположения кнопок для регулировки уровня громкости на корпусе экрана. При горизонтальном положении экрана они расположены на верхней грани: уменьшить громкость можно левой кнопкой, а увеличить — правой. В начале разработки на них были изображены символы + и -. Это казалось логичным, не так ли?
Однако, после введения функции вращения экрана, возникла проблема с расположением кнопок. После поворота экрана по часовой стрелке, кнопка увеличения громкости окажется ниже кнопки уменьшения громкости, что сделает управление менее интуитивным. Для решения этой проблемы они программно меняют роли этих кнопок после поворота экрана, и, по этой же причине, убрали маркировку с кнопок.

Это ещё не все. Ранее у колонок была довольно простая геометрия, поэтому все микрофоны располагались на горизонтальной поверхности устройства. Однако на Станции Дуо Макс это было невозможно из-за скрытой поверхности на экране. Яндекс решил эту проблему, встроив микрофоны в сам экран: на верхнюю грань и на заднюю поверхность, чтобы они могли эффективно фильтровать эхо. После введения вращения экрана появилась необходимость добавить микрофоны ещё и на левую боковую грань, так как после поворота эта грань становится верхней. В результате получилось целых восемь микрофонов — это самое сложное и необычное farfield-решение, которое когда-либо разрабатывали для устройств Яндекса.

Кроме того, важно отметить, что все видеоролики и звонки поддерживаются акустической камерой устройства, скрывающей два 50-миллиметровых широкополосных динамика по 10 Вт, один 100-миллиметровый вуфер для басов в 40 Вт и два пассивных излучателя. Совокупная мощность составляет 60 Вт. Однако, это еще не решает всех проблем.
К этой конфигурации пришли не сразу и был даже не очень удачный вариант с фазоинвертором.
В идеальном мире каждый динамик играет только на своей частоте и не пересекается с частотами других. Однако в реальности все сложнее, особенно при сборке аудиосистемы из доступных оптимальных по цене вариантов на рынке. При данном подходе широкополосные динамики и вуфер значительно пересекаются, что приводит к неудовлетворительным результатам. Ранее графики амплитудно-частотных характеристик широкополосника и вуфера пересекались примерно на 250 Гц, из-за чего низкие мужские голоса с частотой меньше 250 Гц воспроизводились на вуфере, вызывая «бубнение». Для устранения этой проблемы потребовался полный редизайн широкополосных динамиков. Аудиоинженеры Яндекса внимательно переработали динамики, смогли сдвинуть точку пересечения АЧХ до 200 Гц и тем самым добиться более естественного звучания голоса.

Однако устройство Станция Дуо Макс представляет собой не только акустический бокс, но и колонку с экраном в 10,5 дюймов, который перекрывает верхнюю часть устройства. Широкополосники расположены в нижней части колонки и направлены чуть влево и вправо. Вуфер же направлен в противоположную сторону от экрана. Такое расположение вызвало необходимость борьбы с перекрытием акустического потока в зависимости от положения экрана. Яндекс решил эту проблему, используя встроенный акселерометр, который позволяет устройству бесшовно и плавно менять настройки звука в зависимости от положения экрана. Данное решение дополняет технологию Room Correction, которая корректирует звук еще и под акустику помещения.

Кроме того, так как динамики, LED-подсветка, усилитель звука и блок питания расположены в нижней части корпуса и создают тепло, для этого понадобилось перераспределить и рассеивать это тепло. Яндекс разработал радиатор, скрытый за тканью на задней поверхности устройства, который помогает эффективно убирать лишнее тепло и выполняет также роль противовеса для экрана, обеспечивая баланс устройства.
Вид в разрезе
История разработки NPU

Для обеспечения работы нейросетей, различных алгоритмов, воспроизведения видео, совершения звонков и других функций требуется высокопроизводительный процессор, а также отдельный NPU для нейросетей и DSP для гибкой обработки звука.

После изучения нескольких вариантов команда Яндекса рассматривала использование Amlogic A311D. Но после выявления более мощной модели A311D2 с более производительным NPU и двумя HiFi5 DSP, решили испытать её, несмотря на то, что модель находилась на стадии отладки. Этот выбор потребовал не только адаптации устройства под SoC, но и внесения своего вклада в доработку.

Тестирование нейросетей на незнакомом NPU (здесь фокусируемся именно на этом компоненте) началось успешно, но неправильно. Разработка подобных устройств с экраном значительно отличается от разработки умных колонок из-за влияния экрана на другие аппаратные и продуктовые решения. Работа с NPU привнесла ряд технических вызовов и неожиданных проблем, требовавших решения как со стороны Яндекса, так и со стороны производителя чипа. Несмотря на сложности, это усилие было оправданным, поскольку внесло свой вклад в отладку SoC.

Вместо заключения

Станция Дуо Макс — первая умная колонка Яндекса, способная реагировать, как на голосовые команды, так и на прикосновения. Кроме того, Алиса может не только озвучивать ответы, но и отображать их на экране с дополнительной информацией, расширяя возможности устройства по сравнению с другими моделями. Разработка устройств такого класса отличается от создания умных колонок, поскольку наличие экрана непосредственно влияет на другие аппаратные и продуктовые решения. Команда Яндекса уверена, что все эти вызовы стоили того и теперь они ожидают отзывы первых пользователей.
Источник: Яндекс.
Алиса и Яндекс