ИТ-домой Согласно новостям от 18 июня, 17 июня по местному времени компания Canonical анонсировала новый проект под названием Project Myna, целью которого является внедрение локализованного преобразования речи в текст для настольной операционной системы Ubuntu.
Проект назван в честь птицы майна, способной имитировать человеческую речь. Планируется, что первую версию выпустят вместе с Ubuntu 26.10 (Stonking Stingray) и она станет основным компонентом настольной версии Ubuntu.

Myna позиционируется как встроенный инструмент для диктовки на рабочем столе, а не голосовой помощник или система голосового управления. IT House заметила, что пользователи могут начать говорить после нажатия сочетания клавиш. Транскрибированный текст будет непосредственно вставлен в используемое в данный момент приложение. Во время процесса диктовки на экране будет отображаться четкая визуальная информация.
В Canonical заявили, что сфера применения первой версии будет намеренно узкой и не будет включать в себя такие функции, как голосовые помощники, голосовые команды, элементы управления рабочим столом, переводчики или автоматическое определение языка. Цель – закрепить базовый опыт диктанта.
Что касается технической архитектуры, Myna использует модели распознавания речи на базе искусственного интеллекта. Все задачи распознавания выполняются на локальном компьютере пользователя. После загрузки и установки необходимых моделей подключение к Интернету не требуется. Первый выпуск ориентирован на рабочий стол Ubuntu на Wayland с GNOME в качестве основной среды управления, а архитектура остается открытой для поддержки большего количества сред рабочего стола в будущем.
Кроме того, доступ к микрофону осуществляется только тогда, когда пользователь активно активирует диктовку, а аудиоданные обрабатываются в памяти, а затем удаляются и не загружаются ни в какой внешний сервис. Общая архитектура имеет модульную конструкцию, а распознавание речи, взаимодействие с пользователем, управление диктовкой и вставка текста выполняются независимыми компонентами, так что каждую часть можно улучшать независимо в будущем, не влияя на общий пользовательский опыт.
Жан Батист Лаллеман, член команды Canonical по настольным компьютерам, сказал, что команда надеется получить отзывы сообщества «до того, как будет принято слишком много дизайнерских решений». Особенно приглашаются к участию пользователи, которые полагаются на диктовку или вспомогательные технологии, пользователи, которые уже используют распознавание речи в Linux, разработчики, тестировщики и составители документов. Исходный код проекта и архитектурные документы были размещены на GitHub под лицензией GPLv3.
После Ubuntu 26.10 Canonical планирует продолжить улучшение интеграции Myna с настольным компьютером и изучить способы сделать диктовку более естественной и точной. Приоритет последующих функций будет зависеть от отзывов первых пользователей и вклада более широкого сообщества.
Отказ от ответственности: внешние ссылки перехода (включая, помимо прочего, гиперссылки, QR-коды, пароли и т. д.), содержащиеся в статье, используются для передачи дополнительной информации и экономии времени выбора. Результаты предназначены только для справки. Это утверждение содержится во всех статьях IT House.


