ИТ Главная страница Согласно новостям от 24 июня, Alibaba Qianwen Big Model сегодня официально выпустила Qwen-AgentWorld. Официально это первая модель мира на родном языке, которая может имитировать среду взаимодействия агентов в семи основных областях и доступна в двух размерах (35B-A3B и 397B-A17B).
-
Моделирование родного мира: Моделирование окружающей среды является целью обучения на этапе непрерывного предварительного обучения (CPT) и проходит через весь процесс CPT → SFT → RL, а не адаптацию общей большой языковой модели после мероприятия.
-
Семь областей, одна модель: одна модель охватывает как текстовые среды (MCP, поиск, терминал, SWE), так и среды с графическим интерфейсом (Интернет, ОС,Андроид) для достижения междоменной передачи знаний.
Also Read
В то же время был выпущен AgentWorldBench, тест оценки модели языкового мира, охватывающий семь основных областей. Каждый тестовый образец оснащен данными наблюдений за реальной средой, полученными в результате выполнения в реальных условиях. Модели и оценочные тесты доступны на сайтах Hugging Face и ModelScope.
IT Home добавляет официальное введение следующим образом:
Qwen-AgentWorld Это представляет собой наше основное исследование: может ли моделирование мира на основе языковых моделей еще больше расширить пределы общих возможностей агентов.
Мы исследуем, как реализовать моделирование языкового мира и как применить его для продвижения агентов общего назначения с двух направлений:
Во-первых, мыПостроена базовая модель для моделирования агентской среды.: Qwen-AgentWorld — это первая языковая модель мира, охватывающая семь основных полей взаимодействия агентов (MCP, поиск, терминал, SWE, Интернет, ОС, Android) в одной модели. Он основан на более чем 10 миллионах траекторий взаимодействия с реальной средой и обучается в три этапа: CPT → SFT → RL. По оценке AgentWorldBench, Qwen-AgentWorld-397B-A17B достиг самого высокого общего качества моделирования, превзойдя GPT-5.4, Claude Opus 4.8 и Gemini 3.1 Pro.
Во-вторых, мыИзучите роль моделирования мира в обучении агентов.и управляется с помощью двух взаимодополняющих парадигм: будучи симулятором изолированной среды, он обеспечивает лучшую масштабируемость и управляемость для обучения агентов с подкреплением – управляемый моделируемый RL может формировать поведение агента способами, которых невозможно достичь в реальной среде, и значительно лучше, чем RL, обучаемый только в реальной среде; В качестве единой базовой модели агента разминочное обучение LWM можно эффективно перенести на многораундовые задачи агента, охватывающие семь тестов (три из которых вообще не появляются в обучающем наборе) без какого-либо RL в задаче агента. Точная настройка ранее подтвердила, что модель языкового мира может использоваться в качестве основы для построения более надежной модели агента.
Благодаря трехэтапной парадигме обучения — непрерывному предварительному обучению (CPT) для внедрения знаний об окружающей среде, контролируемой точной настройке (SFT) для активации прогнозирующего рассуждения следующего состояния и обучению с подкреплением (RL) для полировки достоверности моделирования — возможности моделирования мира постепенно создаются снизу вверх. Мы исследовали две взаимодополняющие парадигмы моделей мира для расширения возможностей агентов общего назначения: в качестве симулятора изолированной среды мы проверили производительность контролируемого моделирования с помощью Tool Decathlon, MCPMark и WideSearch, и его производительность превзошла неконтролируемое моделирование и обучение в реальной среде; В качестве единой базовой модели агента предварительное обучение Модели языкового мира (LWM) может быть перенесено на несколько раундов задач агента, охватывающих семь контрольных показателей (три из которых полностью находятся за пределами предметной области), с предварительной проверкой того, что Модель языкового мира может служить основой для построения более сильной модели агента. Лингвистическое моделирование мира открывает дополнительный путь расширения, позволяя возможностям агентов общего назначения превысить верхний предел того, что могут обеспечить взаимодействия в реальном мире.
AgentWorldBench был опубликован на Hugging Face и предоставляется в виде файлов JSONL, разделенных по доменам. Каждый файл содержит интерактивные траектории реальной среды и соответствующие им реальные данные наблюдений.
Отказ от ответственности: внешние ссылки перехода (включая, помимо прочего, гиперссылки, QR-коды, пароли и т. д.), содержащиеся в статье, используются для передачи дополнительной информации и экономии времени выбора. Результаты предназначены только для справки. Это утверждение содержится во всех статьях IT House.


