ИТ Главная страница Согласно новостям от 12 мая, технологическое издание Appleinsider опубликовало вчера (11 мая) сообщение в блоге, в котором сообщается, что на основе последних трех опубликованных исследований:Apple продолжает активно продвигать пространственные вычисления и гарнитуру Vision Pro.
IT House процитировал апрельский отчет СМИ MacRumors:Apple отложила внутреннюю разработку нового Vision Pro, и команда сосредоточила свое внимание на умных очках Siri и AI.。
Однако, судя по последним опубликованным исследовательским работам, Apple не отказалась от проекта проекционного дисплея Vision Pro. В этом раунде было обнаружено три исследования, включающих оценку пространственного мышления мультимодальной большой модели, видеоаннотацию на американском жестовом языке и трехмерную реконструкцию головы.
Наиболее прямым из них является «От того, где вещи к тому, для чего они нужны: сравнение пространственно-функционального интеллекта для мультимодальных LLM», опубликованное Apple в блоге машинного обучения.
В этой статье предлагается SFI-Bench для проверки того, понимают ли мультимодальные большие модели как пространственное расположение, так и «что может делать объект». Как упоминалось в оригинальной статье, этот набор видеотестов включает 134 сканирования видео в помещении и 1555 вопросов с комментариями экспертов.
SFI-Bench не только спрашивает модель «что и где находится», но и спрашивает «как она работает и что делать, если она выйдет из строя». Например, модели может потребоваться найти в шкафу самую большую группу бутылочек одной марки, понять, как отменить текущую программу в стиральной машине или определить назначение пульта от телевизора. По сравнению со старым методом, который проверяет только пространственное распознавание, этот метод ближе к повседневным домашним сценам и больше похож на реальные задачи, с которыми придется иметь дело будущим пространственным помощникам.

Результаты тестов показывают, что Google Gemini 3.1 Pro имеет самый высокий общий балл, OpenAI GPT-5.4-High занимает второе место, а Gemini-3.1-Flash-Lite занимает третье место.
Однако в статье указываются и общие недостатки: почти все модели не способны к «условному глобальному вычислению», и все еще существуют очевидные ограничения в пространственной памяти, интеграции функциональных знаний и связи непосредственного изображения с внешними знаниями.
В документе о языке жестов «Загрузка аннотаций языка жестов с помощью моделей языка жестов» делается попытка использовать ИИ для автоматического создания возможных аннотаций, сокращая сотни часов затрат на ручное аннотирование.

Согласно исходной статье, команда создала около 500 искусственных дословных аннотаций на английском языке и расширила их до более чем 300 часов ASL STEM Wiki и 7,5 часов данных FLEURS ASL. Его дактилоскопическая модель достигает 6,7% CER на FSBoard и 74% точности топ-1 в наборе данных ASL Citizen.
Третье исследование, «Крупномасштабная высококачественная 3D-реконструкция головы по Гауссу на основе снимков с нескольких изображений», посвящено 3D-реконструкции головы.

Apple предложила метод HeadsUp для восстановления высококачественных 3D-моделей головы по Гауссу на основе крупномасштабных снимков с нескольких камер. В тесте использовался собственный набор данных, включающий более 10 000 субъектов, что на порядок больше, чем существующие наборы данных с несколькими изображениями головы. Это может быть связано с Persona Vision Pro или с более естественным захватом лиц и рендерингом выражений в VisionOS.
Грег Джосвиак, старший вице-президент Apple по глобальному маркетингу, ранее заявил:Vision Pro показывает будущее слияния цифрового и физического мировэта интеграция неизбежна. Когда его спросили о конкретном графике, он признал, что не может предсказать, когда «пространственные вычисления» станут мейнстримом.Но я твердо убежден, что это направление необратимо.
ссылка
Связанное чтение:
Отказ от ответственности: внешние ссылки перехода (включая, помимо прочего, гиперссылки, QR-коды, пароли и т. д.), содержащиеся в статье, используются для передачи дополнительной информации и экономии времени выбора. Результаты предназначены только для справки. Это утверждение содержится во всех статьях IT House.
