Назад
3094

VLM для детекции объектов на изображении

3094

Введение

Сегодня современные большие языковые модели (Large Language Model, LLM) всё чаще мультимодальны — они умеют работать одновременно как с картинкой, так и с текстом. Может быть и звук (о нём мы поговорим в другой раз).

LLM, понимающая текст и изображение, называется Vision Language Model, VLM. Сегодня мы сделаем обзор статьи Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation, а именно — её часть про детекторы.

Современные промышленные решения задачи детекции объектов основаны на свёрточных нейронных сетях. Также есть решения на базе трансформеров (DETR-подобные модели), которые набирают популярность. В частности, многие детекторы на базе VLM основываются на архитектуре DETR, но обладают важным преимуществом над перечисленными выше моделями — позволяют детектировать такие объекты, которых не было в обучающей выборке, и работать с открытым словарем (open vocabulary).

В основе всех VLM лежит идея сведения визуальных и текстовых признаков в единое признаковое пространство, или фьюзинг. В задаче детекции объектов с помощью VLM используется контрастивное обучение для сведения визуальных и текстовых признаков как, например, это делается в CLIP. Но если CLIP — скорее базовая модель, где впервые успешно объединили признаки разной модальности, то в этой стаtтье мы поговорим о более специальных моделях. Они взяли за основу в том числе идеи из CLIP и применили их для задачи детекции с открытым словарем.

Подходы к построению детекторов на базе VLM

Глобально можно выделить два основных подхода к применению VLM для детекции объектов. Первый основан на предобучении на большом датасете и последующем применении модели в zero-shot режиме. Это называется Large-scale Pretraining Based Method.

Второй подход подразумевает различные стратегии обучения на специфичных датасетах c открытым словарем (OV-COCO, OV-LVIS). В стратегию обучения могут входить дистилляция знаний, обучение на псевдолейблах, одновременное обучение на несколько задач (multi-task), адаптация промптов путём дообучения специального линейного слоя или помощи LLM. Такие подходы можно обозначить как Learning Strategy Based Method. Далее мы рассмотрим различные модели, которые отсносятся к одному из двух подходов.

На рисунке 1 представлена история появления рассматриваемых VLM-детекторов. Это небольшой промежуток с 2022 по 2024 года, однако за это время вышло довольно много моделей. Например, про Grounding Dino мы уже публиковали статью в нашем блоге.

Рисунок 1. Хронология VLM-base детекторов

На рисунке 2 представлены основные подходы к обучению детекторов, которые далее мы рассмотрим подробнее.

Предобучение на большом объёме данных

Предобучение на большом объеме данных, или Large-scale Pretraining Based Method (LPBM): здесь модели базируются на CLIP (подробнее об этом — наша статья).

Сам по себе CLIP — плохой детектор, поскольку при обучении там сопоставляется вся картинка текстовому описанию, а не конкретная область, соответствующая объекту в описании. То есть CLIP плохо локализует объект, но при этом хорошо его классифицирует. А поскольку задача классификации является базовой в компьютерном зрении, и если модель умеет её хорошо решать, значит, она умеет извлекать качественные признаки из изображения. Следовательно, на базе такой модели можно качественно решать и другие задачи компьютерного зрения. Поэтому идею CLIP стали развивать в том числе для задачи детекции.

Рисунок 2. Основные подходы к обучению детекторов на базе VLM

Например, в GLIP, Grounded Language-Image Pre-training (см. рисунок 3) используют тот же подход с констрастивным обучением, что и в CLIP: сводят визуальные признаки с текстовыми с помощью контрастивной loss-функции. Кроме этого, применяют дополнительный loss для локализации объектов, то есть определяются координаты ограничивающих прямоугольников (боксов) для тех объектов, которые присутствовали во входном промте. Этот подход еще называют «заземлением» детектируемых объектов в текстовом пространстве, или «Grounding». То есть в GLIP соотносят не целое изображение и его описание, а фрагменты внутри ограничивающих прямоугольников из разметки, что существенно повышает точность локализации. Также в GLIP используется раннее кросс-модальное объединение текстовых и картиночных признаков, что повышает качество итоговых признаков модели. GLIP обучался на 27М пар картинок и их описаниях с боксами объектов. Из них только 3М — данные, размеченные людьми. Остальные 24М — псевдоразметка, полученная с помощью предварительно обученной такой же моделью GLIP (учителя).

Рисунок 3. Архитектура GLIP как пример подхода к детекции с предобучением на большом объёме данных

В модели RegionCLIP от Microsoft предлагается двухстадийный подход, когда сначала локализуется объекты с помощью внешней RPN (Region Proposal Network), далее CLIP дообучается на фрагментах изображений. Таким образом, RegionCLIP по сути представляет собой классификатор фрагментов изображений.

В DetCLIP предлагается принципиально иной подход к предобучению. В отличие от GLIP, модель обучается одновременно на трёх типах датасетов (детекция, граундинг, простое описание изображений) в параллельном режиме. То есть отдельные категории во входном промпте бьются на предложения и подаются параллельно. Например, на картинке присутствуют объекты: person, bicycle, car. В случае с GLIP эти категории были бы объединены в одно предложение «person, bicycle, car», и аттеншен считался бы относительно всех слов. А в случае с DetCLIP — строка «person, bicycle, car» превратится в список [person, bicycle, car] и для каждой категории аттеншен посчитается отдельно, что существенно снизит объём вычислений. Но в таком подходе есть недостаток — отдельные категории в виде слов «person», «bicycle», «car» являются довольно бедным описанием объекта. Поэтому разработчики DetCLIP предложили обогащать категории с помощью определений из словаря WordNET. Тогда, например, слово «person» превращается в «human being». Последующие версии DetCLIP 2 и 3 улучшались за счёт повышения качества разметки.

Рисунок 4. Архитектура DetCLIP

GroundingDINO также относится к Large-scale Pretraining Based Method, но здесь мы не будем разбирать подробности её архитектуры, поскольку у нас есть отдельная статья, посвященная этой модели 🙂

YOLO-World — развитие архитектуры YOLOv8 для задачи открытого словаря. В неё добавлен текстовый энкодер от CLIP и модули для фьюзинга текстовых и визуальных признаков. При этом сохранена основная парадигма YOLO — легковесный детектор реального времени. Чтобы добиться высокой скорости детекции, в YOLO-World отказались от онлайн-энкодинга текстового промпта. Словарь с эмбеддингами подготавливается заранее и интегрируется в модель.

Ещё один интересный детектор с открытым словарем — OV-DINO.  Здесь разработчики решили бороться сразу с двумя проблемами, которые свойственны GLIP и G-DINO.

Первая — шум в разметке. И GLIP, и G-DINO сначала предобучаются на детекционных и граундинг-датасетах, а затем эти предобученные модели используются для расширения датасета с помощью псевдолейблинга. Но поскольку начальные датасеты, на которых предобучалалась модель, всё равно имеют ограниченный набор категорий объектов детекции, то в случае появления новых категорий в новых датасетах, в процессе генерации псевдолейблов, может возникать шум в виде неточной разметки.

Вторая проблема — если на картинке присутствует множество объектов одной категории, то в процессе выравнивания текстовых признаков с ними на выходе будет всего один текстовый эмбеддинг. То есть, например, нескольким кошкам на одной фотографии будет соотвествовать только один текстовый эмбеддинг.

Первую проблему в OV-DINO решают с помощью Unified Data Integration — пайплайн, позволяющий использовать различные датасеты (детекция, граундинг, пары «картинка-текст») в едином формате для обучения модели в end-to-end, без предварительного предобучения. Трансформация заключается в модификации входного промпта в промпт универсальной формы для детекции объектов. При этом промпты граундинг-датасета довльно легко переделать в детекционные промпты, а вот датасет типа «картинка-текст» — сложнее. Тут разработчики решили ввести баундинг-бокс на всю картинку, в таком случае получается задача детекции. Этот подход исключает шум от псевдолейблинга.

Вторую проблему решают с помощью селективного способа фьюзинга текстовых и визуальных признаков. Через модуль LASF (Language-Aware Selective Fusion) на рисунке 5 выделяются эмбеддинги объектов детекции, которые затем через кросс-аттеншен фьюзятся с обучаемыми эмбеддингами (content query). Они отвечают за описание объектов и вводятся специально для повышения точности детекции. Такой селективный подход к объединению признаков разной модальности позволяет существенно повысить точность детекции по сравнению с G-DINO и GLIP. Более подробное сравнение на различных бенчмарках будет приведено ниже.

Рисунок 5. Метод фьюзинга текстовых и визуальных признаков в OV-DINO и G-DINO

Следующие подходы к обучению VLM-детекторов основаны на различных стратегиях обучения. Это Learning Strategy Based Methods (LSBM).

Дистилляция знаний

Здесь модель-студент обучается на выходах модели-учителя. Например, в ViLD дистиллируют знания из большого предобученного классификатора на базе EfficientNet-b7 в двухстадийный детектор Mask R-CNN, а в качестве текстового энкодера используется BERT. В процессе обучения эмбеддинги регионов интересов MASK-RCNN (студента) выравниваются как с эмбеддингами классификатора картинок, так и с текстовыми эмбеддингами.

Подход в модели DK-DETR основан на дистилляции знаний из в VLM в DETR-подобную модель. Здесь применяется два вида дистилляций: семантическая (SKD) и дистилляция зависимостей (RKD).

Semantic knowledge distillation (SKD) напрямую дистиллирует эмбеддинги визуального энкодера VLM в выходные эмбеддинги декодера DETR (явная передача семантической информации об объекте) посредством классификации положительных и негативных пар.

Relational Knowledge Distillation (RKD) — снижение косинусного расстояния между матрицами похожести для выходов VLM и DETR. Оно помогает выявлять неявные взаимосвязи между объектами детекции. Эти виды дистилляции, как заявляют авторы, позволяют улучшить детекцию новых категорий объектов, при этом не ухудшить качество детекции базовых объектов, которые модель-студент умеет определять.

a)
b) Рисунок 6. Виды дистилляций в DK-DETR: a) Semantic knowledge distillation (SKD); b) Relational Knowledge Distillation (RKD)

Многозадачное обучение

Multi-task training — известный подход в машинном обучении, который позволяет расширить обучающую выборку и улучшить решение основной задачи за счёт получения дополнительных знаний при решении параллельных задач. Например, Mask R-CNN обучался одновременно на задачу детекции и сегментации.

Если говорить про современный VLM-подход, то, например, в OpenSeeD также решается одновременно задача детекции и сегментации. В этой модели отдельно выделяются эмбеддинги объектов переднего плана для детекции и отдельно — эмбеддинги заднего плана для задачи сегментации. Также на выходе декодера имеются дополнительные головы для генерации и предсказания маски в режиме обучения с учителем.

А в работе CapDet в качестве параллельной детекции задаче предлагается обучать модель генерировать описание (captions) задетектированных регионов изображения. Тут тоже пытаются решить проблему ограниченности словаря (в обучающих выборках) и размера детекционных датасетов, расширив его датасетом с парами «картинка — описание».

Обучение промптов

Обучение промптов также является одним из подходов обучения моделей детекции с открытым словарем. Он часто предполагает небольшое количество обучаемых параметров.

Например, в DetPro обучается только часть эмбеддинг-слоя текстового энкодера, а другая часть, отвечающая за конкретные категории, зафиксирована. Похожее решение можно увидеть в PromptDet.

Метод на базе LLM

Этот метод предполагает использование знаний большой языковой модели для обогащения детектора в процессе обучения.

В статье Multi-Modal Classifiers for Open-Vocabulary Object Detection предлагается использовать LLM (GPT-3) для формирования нескольких видов описания одного и того же детектируемого объекта, на основе которых с помощью текстового энкодера формируется общее текстовое представление, которое фьюзится с таким же агрегированным визуальным представлением на основе нескольких референсных визуальных примеров детектируемого объекта.

Похожий подход используется в DVDet, где с помощью LLM генерируются подробные промпты с описанием детектируемого объекта. Это позволяет извлекать более точные эмбеддинги из VLM, на которых, в свою очередь, обучается детектор.

В LaMI-DETR используют GPT-3.5 для генерации подробных визуальных описаний объектов и преобразования имён классов в комплексные визуальные категории. Они группируются с помощью полного трансформера T5, далее происходит семплирование примеров из разных групп для обучения. При инференсе визуальные описания помогают различать сложные категории, повышают эффективность работы с объектами, которые модель не видела в процессе обучения.

Сравнение моделей на различных бенчмарках

Среди рассмотренных подходов к обучению детекторов Large-scale Pretraining Based Methods, LPBM позволяет получать наиболее робастные модели детекции на открытых словарях.  А подходы на основе Learning Strategy Based Methods, LSBM не дают получить такую же точность на датасетах с открытым словарём.

Рассмотрим сравнение моделей на closed-set датасетах (когда число категорий в обучающей и тестовой выборках совпадают). В таблице 1 сначала приведены классические (не VLM) подходы. Тут всё зависит от архитектуры: чем она новее, тем лучше результаты на бенчмарках. Качество VLM-моделей также зависит от архитектуры. Например, PB-OVD и RegionCLIP базируются на относительно устаревшем подходе Faster-RCNN и, соответственно, показывают худшие метрики на бенчмарках. YOLO-World основывается на архитектуре YOLOv8, поэтому сохраняет свои скоростные качества, но проигрывает в точности на датасетах с фиксированным числом категорий.

Лучше всех себя показывают Grounding-DINO и OV-DINO. Трансформерная архитектура DINO позволяет наиболее эффективно выравнивать визуальные и текстовые признаки и извлекать обобщённые семантические эмбеддинги: в результате мы видим лучшие метрики на closed-set бенчмарках. Также стоит отметить, что дообучение визуального энкодера — более эффективная стратегия, чем адаптация модели под промпт.

Таблица 1.  Сравнение моделей для задачи сlosed-set детекции

Далее приведём сравнение моделей для задачи Open Vocabulary детекции.

Таблица 2.1. Сравнение моделей LPBM для задачи Open Vocabulary детекции
Таблица 2.2. Сравнение моделей LSBM для задачи Open Vocabulary детекции

Для моделей LPBM в таблице 2.1 приведены результаты для двух режимов: Zero Prediction (без предварительного обучения на бенчмарках) и Visual Fine-Tuning (дообучение на бенчмарках). При этом категории датасетов COCO и LVIS предварительно поделены на базовые (base) и редко встречаемые (novel). Zero Prediction показывает способности моделей детектировать новые категории без специального дообучения. Visual Fine-Tuning — точность моделей на редких категориях, предварительно обученных на базовых категориях.

OV-DINO и Grouding-DINO показывают лучшие метрики, что ещё раз подтверждает силу базовой модели DINO.

При этом разница между лучшей LBPM моделью OV-DINO и лучшей LSBM моделью LAMI-DETR на самом сложном бенчмарке с большим числом категорий OV-LVIS незначительная, что говорит об эффективной стратегии обучения LAMI-DETR с использованием LLM для генерации сложных визуальных описаний детектируемых объектов. При этом на редких категориях (novel) бенчмарка COCO у той же OV-DINO AP=76.2 против 46.7 у лучшей LSBM модели DST-Det, что подтверждает важность хорошего предобучения на семантически разнообразном датасете.

В то же время дообучение на базовых категориях (base) может привести к ухудшению метрик на редких категориях (novel), что можно увидеть как у OV-DINO, так и у Grouding-DINO. Это объясняется переобучением моделей под базовые категории, что приводит к ухудшению обобщающей способности на новых категориях.

Более подробное исследование обобщающих способностей моделей приведено в таблице 3. Здесь представлены результаты обученных моделей на датасете, который находится слева от стрелки, и протестированных на датасете — справа от стрелки. Например, COCO -> VOC означает, что модель обучена на датасете COCO и протестирована на VOC.

Таблица 3. Сравнение подходов Large-scale Pretraining Based Methods и Learning Strategy Based Methods на датасетах OV-COCO и OVLVIS

Мы видим, что Large-scale Pretraining Based Methods модели в среднем выше по метрикам, чем Learning Strategy Based Methods модели. Особенно хорошую точность (Average Precision) показывают GraundingDino и OV-DINO по сравнению, например, с LAMI-DETR. Значит, LPBM-модели имеют больше знаний из различных доменов, в отличие от LSBM моделей, обучавшихся на более ограниченных датасетах.

Также стоит обратить внимание на различие в точности моделей в зависимости от числа категорий в тренировочном и тестовом датасетах. Например, в случаях обучения-теста COCO-VOC и LVIS-COCO в обучении было больше категорий, чем в тесте, а в случаях COCO-LVIS и COCO-Object365, наоборот, в обучающей выборке категорий меньше, чем в тестовой.

Когда меньше категорий в обучающей выборке, метрики значительно ниже, поэтому важно при обучении OV-детекторов обеспечивать наибольшее семантическое разнообразие в данных.

Заключение

Благодаря предобучению на больших наборах данных модели VLM изначально обладают сильными обобщающими способностями. В режиме Zero Shot большинство VLM хорошо справляется с детекцией, кроме случаев с мелкими объектами.

Дообучение визуального энкодера VLM показывает улучшение метрик, но важно следить за переобучением! Есть примеры, когда промптинг позволяет извлечь лучшее качество детекции, чем дообучение, например, у GroundingDINO.

VLM базирующиеся на архитектуре DETR и фьюзинге визуальных и текстовых признаков (Grounding DINO, OV-DINO), показывают более высокое качество по сравнению с VLM на базе архитектуры Faster R-CNN (Region CLIP) на большинстве задач. Что подтверждает критическую важность объединения визуальных и текстовых признаков в единое признаковое пространство.

VLM-детекторы показывают высокую стабильность в качестве детекции для различных задач. А это значит, что VLM — хорошие эмбеддеры. Они умеют извлекать качественные признаки из изображения и текста, которые можно использовать для решения различных визуальных задач 🙂

Cтарт — Октябрь 2025
Computer Vision Rocket

Погрузитесь в продвинутый Computer Vision: от сложностей и корнер-кейсов в «обычных» задачах до мультимодальных моделей и дизайна CV-систем

0/0

Телеграм-канал

DeepSchool

Короткие посты по теории ML/DL, полезные
библиотеки и фреймворки, вопросы с собеседований
и советы, которые помогут в работе

Открыть Телеграм

Увидели ошибку?

Напишите нам в Telegram!