Назад
684

Vision-Language-Action (VLA) Models: от токенов к действиям

684

Введение

Современные фундаментальные модели работают с разными модальностями: изображения, видео, аудио, текст. Следующий этап их эволюции (и искусственного интеллекта в целом) — взаимодействие с физическим миром и достижение автономности. Другими словами, объединение зрения, языка, рассуждений и принятия действий для прямого влияния на физический мир.

Это направление называют воплощённым искусственным интеллектом (embodied AI), а сами модели — Vision-Language-Action (VLA) Models.

Уже сейчас существуют стартапы, активно занимающиеся VLA-моделями и их воплощением в бытовых роботах.

В статье расскажем:

  • как VLA-модели объединяют различные модальности и принятие решений в единую архитектуру;
  • из каких ключевых компонентов они состоят;
  • какие подходы применяются для генерации действий;
  • как исследователи (до)обучают такие модели;
  • и с какими проблемами сталкиваются на пути к автономным системам.

Ну что ж, давайте начинать! 😊

Vision-Language-Action Models

Background

Современные VLA объединяют сразу несколько фундаментальных модулей: визуальное восприятие, языковое рассуждение и мультимодальное выравнивание зрения и языка. Прежде, чем перейти к самой системе VLA, необходимо вспомнить основные компоненты трансформера, основной архитектуры, и базовые реализации — Visual Transformer (ViT), LLM и VLM. А затем рассмотрим, как они интегрируются в единую структуру.

Ключевые компоненты трансформера

  • Attention — механизм, позволяющий каждому токену в последовательности «смотреть» на все другие токены с целью расчёта своего представления. Для этого модель трансформирует каждый входной токен в три вектора — queries (Q), keys (K) и values (V) — при помощи линейной проекции. Математически расчёт attention выглядит следующим образом: \(\text{Attention}(Q, K, V) = \text{softmax}\left({\frac{Q K^T}{\sqrt{d_k}}}\right) V,\quad d_k = \text{dim}(K_i)\)
    Подробнее про механизм внимания и его развитие в NLP можно прочитать в одной из предыдущих статей.
  • Embedder — блок, преобразующий дискретные входы (слова, патчи изображений, действия) в непрерывное векторное пространство и сохраняющий смысловые соотношения.
  • Encoder — блок, преобразующий входные представления в скрытые, отражающие их взаимосвязи и контекст. Он состоит из \(N\) одинаковых слоёв, которые, в свою очередь, включают multi-head self-attention и полносвязную нейросеть. Каждый из двух компонентов использует residual-связи (для сохранения входной информации и предотвращения затухания градиентов) и нормализацию (для стабилизации обучения).
  • Decoder — блок, который генерирует выходые токены (текста, действия, изображения) на основе закодированного контекста и предыдущих предсказаний. Далее они преобразуются в желаемый выход в виде текста, действия или изображения. Структурно decoder состоит из \(M\) одинаковых слоёв, но по сравнению с encoder, каждый слой включает три компонента: маскированный multi-head self-attention, multi-head encoder-decoder attention и полносвязную нейросеть. Выход последнего слоя decoder’а проходит через линейный слой и softmax для предсказания распределения вероятности выходных токенов.
Рисунок 1. Архитектура encoder-decoder трансфорера

Более подробно про работу декодера и других частей трансформера (см. Рисунок 1) можно прочитать в статье Jay Alammar.

Vision Transformer

Vision Transformer (ViT) — архитектура, которая перенесла идею self-attention из обработки текста в компьютерное зрение. ViT разбивает изображение на небольшие участки — патчи — и проецирует каждый в векторное представление, аналогичное эмбеддингам слов в языке. Эмбеддинги дополняются позиционным кодированием, после чего подаются в трансформерный энкодер, как показано на рисунке 2.

Такой подход позволяет модели не просто анализировать локальные фрагменты изображения, как свёрточные сети, а учитывать взаимосвязи между удалёнными частями изображения и формировать более глобальное и контекстное понимание сцены.

Рисунок 2. Архитектура Vision Transformer (ViT)

Large Language Models

Large Language Models (LLMs) — крупномасштабные трансформерные архитектуры (часто 1+ миллиард параметров), обученные на терабайтах текстовых данных. Их ключевая особенность — способность формировать универсальные языковые представления, которые позволяют решать широкий спектр задач без дополнительного обучения.

С архитектурной точки зрения LLM делятся на три основные группы:

  • encoder-only (BERT, RoBERTa) — фокусируются на понимании текста через двунаправленный контекст;
  • decoder-only (GPT-3, LLaMA) — обучаются авторегрессионному предсказанию следующего токена и применяются для генерации;
  • encoder-decoder (T5, BART) — комбинируют оба подхода, что делает их гибкими для задач преобразования текста.

Visual-Language Model

Visual-Language Model (VLM) объединяет зрение и язык, позволяя моделям не просто «видеть», но и понимать, что они видят.

Обычно такая система состоит из визуального энкодера (например, ViT, CLIP или свёрточной сети) и языковой модели (LLM), как на рисунке 3. Они связываются модулем-адаптером, который выравнивает визуальные и текстовые представления в общем пространстве эмбеддингов.

Благодаря этому выравниванию VLM способна распознавать объекты, описывать сцены, отвечать на вопросы, проводить рассуждения о контексте изображения и связывать визуальные наблюдения с языковыми концептами. Последнее означает, что модель понимает соответствие определённого визуального образа (например, картинки красного велосипеда около здания) конкретной языковой фразе («красный велосипед возле здания»). То есть набор пикселей → «велосипед», «красный», «недалеко от дома».

Рисунок 3. Архитектура VLM для описания и семантического понимания изображений

Эти возможности стали основой следующего шага развития — Vision-Language-Action (VLA) моделей, где к восприятию и пониманию добавился новый уровень — принятие действий в физическом мире.

Основные компоненты Vision-Language-Action моделей

Vision-Language-Action (VLA) модели представляют собой новый этап развития робототехники и воплощённого искусственного интеллекта. Они объединяют восприятие, рассуждения и действия в единую систему, позволяют роботам видеть окружающий мир, интерпретировать команды, сформулированные на естественном языке, и выполнять их с учётом контекста. VLA снижают зависимость от ручного программирования и заранее прописанных сценариев, открывают путь к роботам, способным работать в неструктурированных и динамичных средах — например, на кухне, в мастерской или складе.

На рисунке 4 показана типичная архитектура VLA, включающая четыре основных компонента: визуальный энкодер, языковую модель, энкодер состояния робота, декодер действий.

Рисунок 4. Архитектура VLA для манипуляции

Давайте подробнее рассмотрим, как устроена каждая из этих частей и как они взаимодействуют внутри единой системы.

Visual Encoder

Visual Encoder отвечает за преобразование визуальной информации — изображений или видеокадров — в компактные векторные представления, совместимые с языковым пространством модели. Именно он выполняет роль «глаза» системы, извлекает из сцены признаки, которые затем используются для рассуждения и принятия решений.

В качестве визуального энкодера могут применяться разные типы архитектур: от классических свёрточных сетей вроде ResNet до более современных ViT (CLIP, SigLIP, Qwen2 VIT).

State Encoder

State Encoder преобразует текущее состояние робота в пространство эмбеддингов языковой модели с помощью MLP или небольшого трансформера (2-3 трансформерных блока, < 1 млн параметров). Он обеспечивает связь между внутренними параметрами робота и рассуждениями, выполняемыми языковой моделью.

В случае манипуляторов состояние может включать углы и скорости шарниров (joints), силы и моменты, действующие на робота, а также состояние захвата. Для автономных машин — скорость, ускорение, угол поворота руля и другие динамические характеристики. В общем случае состоянием может быть даже история недавних действий, отражающая поведение системы во времени.

Интеграция этой информации позволяет языковой модели рассуждать о достижимости целей, физических ограничениях и безопасности действий, делать планирование осознанным и контекстно-зависимым.

Text Encoder

Text Encoder отвечает за преобразование текстовых инструкций и описаний конкретных задач в эмбеддинги. В VLA-системах он формирует языковое представление действия — что именно пользователь хочет, чтобы робот сделал.

На практике здесь встречаются два подхода:

  1. LLM как текстовый энкодер Это наиболее распространённый вариант. Полноценная LLM получает текст команды, команда токенизируется и отправляется отдельными токенами на вход языковой модели. Подход позволяет модели использовать все способности к рассуждению и интерпретации инструкции, заложенные на этапе претрейна.
  2. Лёгкий MLP-энкодер В задачах, где команда короткая и заранее структурированная («open the door», «turn left», «stop»), используется небольшой MLP с 2-3 слоями, который просто превращает текст в один непрерывный вектор. Далее он подаётся в LLM как дополнительный токен, не требующий прогонки всей фразы через языковую модель. Подход снижает задержки на обработку и упрощает интеграцию, особенно в системах, где LLM выполняет роль action decoder’а или мультимодального фьюзера.

В более сложных конфигурациях могут применяться адаптеры, выравнивающие текстовые эмбеддинги с визуальными признаками и состоянием робота.

Large Language Model

LLM — центральный модуль системы, объединяющий спроецированные визуальные признаки, состояние робота и текстовые инструкции. На их основе LLM формирует эмбеддинги действий, которые служат интерфейсом между восприятием и управлением.

В зависимости от архитектуры и уровня абстракции LLM выполняет роль:

  • низкоуровневого генератора действий, напрямую предсказывающего траекторию или управляющие команды робота;
  • высокоуровневого планировщика поведения, формирующего семантическое описание / намерение, которое затем декодируется отдельной сетью в конкретные моторные действия.

Такое разделение позволяет строить иерархические системы, где языковая модель отвечает за рассуждение и планирование, а специализированные политики обеспечивают точное выполнение движений.

Action Decoder

Ключевая часть VLA — Action Decoder, который отвечает за заключительный этап обработки: преобразование мультимодального понимания сцены, сформированного языковой моделью, в конкретные управляющие действия. Именно этот модуль связывает рассуждения модели с физическим миром, обеспечивает формирование команд для робота.

А теперь давайте рассмотрим архитектуру и принципы работы Action Decoder’а, а также способы декодирования действий, форматы выходных представлений и варианты обучения.

VLA Action Decoder

Что может предсказывать Action Decoder

В языковых моделях природа предсказания следующая — модель последовательно генерирует токены текста. В робототехнике сложнее: формат выхода напрямую зависит от домена и воплощения робота (манипуляторы, робособака или гуманоид).

Так, в задачах манипуляции действия обычно описываются как положения и ориентации захвата манипулятора или рук гуманоида. В области автономного вождения — это, как правило, положение и ориентация транспортного средства, а также опциональные высокоуровневые команды (удержание скорости, торможение или ускорение).

На практике, чтобы обучить VLA работать с разными типами роботов, исследователи нередко проектируют отдельную «голову действий» для каждого конкретного воплощения. Однако такой подход плохо масштабируется и ограничивает переносимость. Альтернатива — передавать в модель обобщённое представление геометрии робота, например, в виде графа связанности моторов / звеньев, позволяющее ей адаптироваться к новым форм-факторам без переобучения.

Архитектуры Action Decoder’а

Дискретные токены

Один из наиболее простых способов задания действий — дискретизация. В этом подходе непрерывные действия разбиваются на конечное число бинов, после чего каждое действие кодируется в виде токена.

Задача сводится к переводу: модель принимает последовательность инструкций и визуальных признаков и порождает последовательность токенов действий. LLM обучается предсказывать следующий action token в авторегрессионном режиме — аналогично тому, как она генерирует слова в тексте или ответы в диалоге.

Во многих таких системах сама LLM выполняет роль Action Decoder’а. Однако из-за авторегрессионной природы предсказаний подобные подходы нередко сталкиваются с долгим инференсом. Предсказание траектории с большим горизонтом может занимать дольше 1 секунды, что критично для взаимодействия со внешним миром и динамическими объектами.**

Примерами архитектуры с работой LLM в качестве Action Decoder’а являются RT-2 от Google и OpenVLA от Stanford (см. Рисунки 5-6):

Рисунок 5. Архитектура VLA-модели RT-2
Рисунок 6. Архитектура VLA-модели OpenVLA

MLP

Одно из решений медленного авторегрессионного предсказания токенов — использование MLP-декодера в качестве Action Decoder’а. В этом подходе скрытые состояния, сгенерированные LLM, подаются на вход MLP, которая напрямую предсказывает непрерывные параметры действия.

Главное преимущество такого подхода — все компоненты действия предсказываются одновременно, без пошаговой генерации. Это существенно ускоряет инференс и делает модель пригодной для управления роботом в реальном времени. К таким архитектурам можно отнести OpenVLA-OFT для манипуляции автономного вождения:

Рисунок 7. Архитектура модели OpenVLA-OFT

Диффузии

Подавляющее большинство современных state-of-the-art VLA используют диффузионные модели для генерации действий. Это позволяет не просто предсказывать одно детерминированное действие, а моделировать распределение возможных действий, устойчивое к шуму восприятия и неопределённости среды. Однако главным недостатком диффузий остаётся высокая вычислительная стоимость и необходимость многократных итераций обратного диффузионного процесса.

Перспективным направлением развития являются методы на основе Flow Matching’а, которые сохраняют плюсы диффузионных моделей, но существенно снижают вычислительную сложность, в пределе 1 шага интегрирования приближают эффективность к MLP-подходам (pi-0 2025 на рисунке 8), SmolVLA 2025 на рисунке 9).

Рисунок 8. Архитектура VLA pi-0 и Flow Matching Action Decoder’а
Рисунок 9. Архитектура VLA smolVLA

Мультимодальный выход

В современных VLA нередко комбинируется несколько стратегий генерации действий. Например, непрерывное управление — через MLP или диффузию, а параллельно модель может генерировать текстовый комментарий — описание того, что она «видит» или планирует сделать (например, SmolVLA 2025 на рисунке 9, Simlingo 2025).

Рисунок 10. Архитектура Self-driving VLA с мультимодальным выходом

Такое сочетание объединяет высокоуровневое семантическое планирование и низкоуровневое управление, делает агентов одновременно более интерпретируемыми и устойчивыми к ошибкам восприятия.

Обучение

Большинство современных VLA создаются на основе предобученных VLM — открытых или проприетарных. Это позволяет сразу использовать знания модели о языке, мире и взаимодействиях между объектами для генерации действий.

Но после интеграции с декодером действий перед инженерами встаёт вопрос: «Как дообучать всю систему целиком? Нужно ли обновлять параметры всех модулей или достаточно адаптировать часть из них?». Этот выбор напрямую влияет на эффективность, устойчивость и обобщающую способность модели.

Есть несколько стратегий дообучения и выравнивания (alignment) представлений между всеми компонентами.

Общая процедура обучения VLA состоит из двух этапов: предобучение и выравнивание. Чаще всего предобучение передаётся от фундаментальных VLM, а выравнивание происходит в течение нескольких этапов.

Выравнивание под необходимый домен может происходить как в один этап (Simlingo, 2025), так и в несколько (OpenDriveVLA, 2025).

Источники данных

Современные Vision‑Language‑Action (VLA) модели требуют крайне разнообразных данных: сочетания визуальных наблюдений, текстовых инструкций и реальных (или симулированных) действий робота.

Сюда входят, например, записи телеоперации (оператор управляет манипулятором или мобильным роботом), симулированные эпизоды в виртуальных средах с богатой вариативностью сцен, а также крупные визуально-языковые датасеты (например, наборы изображений с подписями), сохраняющие когнитивные навыки восприятия и языка.

Один из ярких примеров — Open X‑Embodiment Dataset, содержащий более 1 млн эпизодов, 22 разных робота-воплощения и 500+ навыков, собранных в лабораториях.

При этом важно, что данные должны быть мультимодальными и комплексными: не просто картинка или траектория, а совмещённые сочетания «изображение сцены + текстовая инструкция + состояние робота».

Например, в наборе ARIO (All Robots In One) (≈ 3 млн эпизодов) используется единый формат для разных платформ, что позволяет учить одних роботов на демонстрациях других. Это позволяет сделать так, чтобы VLA-модели могли не только выполнять одну задачу на одном роботе, но и обобщаться на новые объекты, ситуации и формы роботов.

Полное дообучение VLM

Полное дообучение (full-parameter fine-tuning) предполагает обновление всех параметров модели — и языковых, и визуальных. При корректной процедуре тренировки это обеспечивает наилучшую адаптацию VLM к целевому домену.

К подходу обычно прибегают в двух случаях:

  • целевой домен сильно отличается от исходных данных, на которых обучалась модель;
  • домены схожи, но требуется высокая точность предсказаний и согласованность модальностей.

Степень «удалённости» домена можно оценить с помощью открытых или закрытых бенчмарков — например, как в OpenCompass Leaderboard, который измеряет способность модели понимать, описывать и рассуждать о содержимом изображений. Если модель показывает низкие результаты на бенчмарках, смежных с вашей задачей, — это сигнал, что она плохо понимает ваш сценарий, и полное дообучение действительно оправдывается.

Parameter-Efficient Fine-Tuning (PEFT)

Во многих случаях полное обновление параметров модели не требуется. Вместо этого используют методы, которые позволяют легко адаптировать модель к новой задаче, сохранить большую часть знаний, полученных на этапе предобучения. Такой подход минимизирует риск катастрофического забывания и делает процесс дообучения более экономным. Один из распространённых методов этого класса — Low-Rank Adaptation (LoRA):

Рисунок 11. Обучение в режиме LoRA — обучение дополнительного адаптера слоя

Вместо обновления всех параметров трансформера, LoRA добавляет к каждому слою два небольших матричных адаптера низкого ранга. Основные веса \(W\) остаются замороженными, а обучаются только эти адаптеры.

Преимущества LoRA:

  • Сокращение числа обучаемых параметров до 1–5% от всей модели;
  • Экономия памяти и ресурсов во время обучения;
  • Ускорение процесса тренировки по сравнению с полным fine-tuning.

Ограничения LoRA:

  • Необходимо понимать, как настраивать гиперпараметры LoRA, чтобы достигнуть высокого качества в специфической задаче;
  • Каждый дополнительный адаптер увеличивает количество параметров, что может влиять на размещение модели на конечных устройствах;

Сейчас PEFT-методы являются основной стратегией для обучения VLA / VLM в робототехнике. Они позволяют стабильно и эффективно адаптировать модели к задачам манипуляции (Octo 2024, OpenVLA 2024), автономного вождения (DriveVLM 2024, Simlingo 2025), полёта и другим сценариям.

Существуют и усовершенствованные версии LoRA, например QLoRA, которая сочетает LoRA с 4-битной квантизацией. Это позволяет одновременно обучать адаптеры и сжимать базовую модель, снижать требования к памяти без потери производительности. Однако дальнейшее слияние при использовании весов смешанной точности может привести к деградации модели.

Заморозка VLM

Альтернативный подход к обучению — заморозка всех параметров VLM и обновление только Action Decoder’а. Такой метод существенно снижает вычислительные затраты и ускоряет эксперименты, при этом VLM продолжает использовать выученные визуально-языковые паттерны.

В этой конфигурации роль VLM сводится к feature extractor — извлечению признаков из визуальной и текстовой информации, которые декодер затем использует для прогнозирования действий.

Примеры таких систем — RT-2 (Google DeepMind) и Lingo-2 (Wayve), где LLM и визуальный энкодер остаются неизменными, а обучение сосредоточено на декодере, преобразующем восприятие в конкретные действия.

На практике способность обучать модели с минимальными ресурсами — отдельное исследовательское направление и, в какой-то степени, искусство😊. Необходимо понимать, какие слои и в каком режиме PEFT обучать, чтобы достичь максимальной точности при ограниченном GPU-бюджете.

Real world challenges

Даже если VLA показывает хорошие результаты на этапе обучения, это не гарантирует успешного выполнения задач в реальном мире. Давайте рассмотрим ключевые проблемы работы VLA.

Проблемы задержек

VLA объединяет визуальный энкодер, языковую LLM и Action Decoder, а суммарный объём параметров может составлять от нескольких миллиардов до сотен. Поэтому инференс модели может занимать значительное время, за которое окружающая среда и состояние робота могут измениться. В таких условиях предсказанные действия могут не соответствовать актуальной ситуации и даже усугублять проблему вместо её решения.

Часто её решают как внедрением архитектурных улучшений (например, Mixture of Experts), так и оптимизацией вычисления на конечном устройстве с помощью квантизации и GPU-эффективных inference-вычислений.

Накопление ошибок и distribution shift

Во время рантайма модель генерирует действия, а низкоуровневые контроллеры пытаются их выполнить. Поскольку контроллеры и сама модель не идеальны, робот редко оказывается точно в ожидаемом месте, и накапливаются небольшие ошибки планирования. Со временем это может вывести входные данные за пределы распределения, на котором обучалась модель (distribution shift).

В реальном мире текущие VLA обычно не умеют самостоятельно корректировать такие отклонения, что приводит к деградации работы.

Нестабильность в непредсказуемых условиях

Проблемы галлюцинаций и уязвимости к состязательным воздействиям на LLM остаются актуальными. Модель, обученная в симуляции или на ограниченных датасетах, может непредсказуемо деградировать при переносе в реальный мир. Изменение освещения, погодных условий, отражений или редких сценариев поведения участников среды может привести к ошибочной интерпретации визуальных данных и, как следствие, к неправильным действиям.

Генеративные модели могут также прыгать между выученными режимами поведения (модами распределения), что в автономной езде проявляется как виляния, дискомфорт или потенциально опасные манёвры.

Минимизировать проблему помогают методы RL-обучения, позволяющего тонко уточнять веса модели в необходимом направлении.

Безопасность и fail-safe механизмы

Наконец, ключевой инженерный вызов — создание fail-safe механизмов, которые способны безопасно завершить действие в случае деградации модели и не подвергнуть риску людей или имущество. Это важно при внедрении VLA в автономные машины и манипуляторы, работающие в реальном мире.

В реальных робототехнических системах создают верхний контур принятия решений, который с помощью закреплённых правил не позволяет роботу выполнять действия, опасные для окружающих людей и среды. Однако существуют и нейросетевые подходы контролирования поведения робота (например, SAFE 2025)

Заключение

Vision-Language-Action модели представляют новое направление в развитии искусственного интеллекта и робототехники. Они объединяют визуальное восприятие, понимание языка и генерацию действий, создают системы, способные взаимодействовать напрямую c окружающим миром.

Благодаря этой интеграции VLA становятся фундаментом для автономных агентов и роботов нового поколения, способных работать в нестуктурированных и динамичных средах. Они открывают возможности для универсального планирования, адаптивного управления и безопасного выполнения задач. Значит, к нам всё приближается реальность, где роботы могут учиться и действовать с высокой степенью автономности.

4 месяца
Large Language Models

Центральный модуль системы VLA — это LLM. Чтобы разобраться в их устройстве приходите к нам на курс!
Для тех, кто знаком с DL и Pytorch: научитесь использовать LLM в приложениях: обучать, деплоить, ускорять и многое другое.

0/0

Телеграм-канал

DeepSchool

Короткие посты по теории ML/DL, полезные
библиотеки и фреймворки, вопросы с собеседований
и советы, которые помогут в работе

Открыть Телеграм

Увидели ошибку?

Напишите нам в Telegram!