VLM для детекции объектов на изображении
Введение
Сегодня современные большие языковые модели (Large Language Model, LLM) всё чаще мультимодальны — они умеют работать одновременно как с картинкой, так и с текстом. Может быть и звук (о нём мы поговорим в другой раз).
LLM, понимающая текст и изображение, называется Vision Language Model, VLM. Сегодня мы сделаем обзор статьи Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation, а именно — её часть про детекторы.
Современные промышленные решения задачи детекции объектов основаны на свёрточных нейронных сетях. Также есть решения на базе трансформеров (DETR-подобные модели), которые набирают популярность. В частности, многие детекторы на базе VLM основываются на архитектуре DETR, но обладают важным преимуществом над перечисленными выше моделями — позволяют детектировать такие объекты, которых не было в обучающей выборке, и работать с открытым словарем (open vocabulary).
В основе всех VLM лежит идея сведения визуальных и текстовых признаков в единое признаковое пространство, или фьюзинг. В задаче детекции объектов с помощью VLM используется контрастивное обучение для сведения визуальных и текстовых признаков как, например, это делается в CLIP. Но если CLIP — скорее базовая модель, где впервые успешно объединили признаки разной модальности, то в этой стаtтье мы поговорим о более специальных моделях. Они взяли за основу в том числе идеи из CLIP и применили их для задачи детекции с открытым словарем.
Подходы к построению детекторов на базе VLM
Глобально можно выделить два основных подхода к применению VLM для детекции объектов. Первый основан на предобучении на большом датасете и последующем применении модели в zero-shot режиме. Это называется Large-scale Pretraining Based Method.
Второй подход подразумевает различные стратегии обучения на специфичных датасетах c открытым словарем (OV-COCO, OV-LVIS). В стратегию обучения могут входить дистилляция знаний, обучение на псевдолейблах, одновременное обучение на несколько задач (multi-task), адаптация промптов путём дообучения специального линейного слоя или помощи LLM. Такие подходы можно обозначить как Learning Strategy Based Method. Далее мы рассмотрим различные модели, которые отсносятся к одному из двух подходов.
На рисунке 1 представлена история появления рассматриваемых VLM-детекторов. Это небольшой промежуток с 2022 по 2024 года, однако за это время вышло довольно много моделей. Например, про Grounding Dino мы уже публиковали статью в нашем блоге.

На рисунке 2 представлены основные подходы к обучению детекторов, которые далее мы рассмотрим подробнее.
Предобучение на большом объёме данных
Предобучение на большом объеме данных, или Large-scale Pretraining Based Method (LPBM): здесь модели базируются на CLIP (подробнее об этом — наша статья).
Сам по себе CLIP — плохой детектор, поскольку при обучении там сопоставляется вся картинка текстовому описанию, а не конкретная область, соответствующая объекту в описании. То есть CLIP плохо локализует объект, но при этом хорошо его классифицирует. А поскольку задача классификации является базовой в компьютерном зрении, и если модель умеет её хорошо решать, значит, она умеет извлекать качественные признаки из изображения. Следовательно, на базе такой модели можно качественно решать и другие задачи компьютерного зрения. Поэтому идею CLIP стали развивать в том числе для задачи детекции.

Например, в GLIP, Grounded Language-Image Pre-training (см. рисунок 3) используют тот же подход с констрастивным обучением, что и в CLIP: сводят визуальные признаки с текстовыми с помощью контрастивной loss-функции. Кроме этого, применяют дополнительный loss для локализации объектов, то есть определяются координаты ограничивающих прямоугольников (боксов) для тех объектов, которые присутствовали во входном промте. Этот подход еще называют «заземлением» детектируемых объектов в текстовом пространстве, или «Grounding». То есть в GLIP соотносят не целое изображение и его описание, а фрагменты внутри ограничивающих прямоугольников из разметки, что существенно повышает точность локализации. Также в GLIP используется раннее кросс-модальное объединение текстовых и картиночных признаков, что повышает качество итоговых признаков модели. GLIP обучался на 27М пар картинок и их описаниях с боксами объектов. Из них только 3М — данные, размеченные людьми. Остальные 24М — псевдоразметка, полученная с помощью предварительно обученной такой же моделью GLIP (учителя).

В модели RegionCLIP от Microsoft предлагается двухстадийный подход, когда сначала локализуется объекты с помощью внешней RPN (Region Proposal Network), далее CLIP дообучается на фрагментах изображений. Таким образом, RegionCLIP по сути представляет собой классификатор фрагментов изображений.
В DetCLIP предлагается принципиально иной подход к предобучению. В отличие от GLIP, модель обучается одновременно на трёх типах датасетов (детекция, граундинг, простое описание изображений) в параллельном режиме. То есть отдельные категории во входном промпте бьются на предложения и подаются параллельно. Например, на картинке присутствуют объекты: person, bicycle, car. В случае с GLIP эти категории были бы объединены в одно предложение «person, bicycle, car», и аттеншен считался бы относительно всех слов. А в случае с DetCLIP — строка «person, bicycle, car» превратится в список [person, bicycle, car] и для каждой категории аттеншен посчитается отдельно, что существенно снизит объём вычислений. Но в таком подходе есть недостаток — отдельные категории в виде слов «person», «bicycle», «car» являются довольно бедным описанием объекта. Поэтому разработчики DetCLIP предложили обогащать категории с помощью определений из словаря WordNET. Тогда, например, слово «person» превращается в «human being». Последующие версии DetCLIP 2 и 3 улучшались за счёт повышения качества разметки.

GroundingDINO также относится к Large-scale Pretraining Based Method, но здесь мы не будем разбирать подробности её архитектуры, поскольку у нас есть отдельная статья, посвященная этой модели 🙂
YOLO-World — развитие архитектуры YOLOv8 для задачи открытого словаря. В неё добавлен текстовый энкодер от CLIP и модули для фьюзинга текстовых и визуальных признаков. При этом сохранена основная парадигма YOLO — легковесный детектор реального времени. Чтобы добиться высокой скорости детекции, в YOLO-World отказались от онлайн-энкодинга текстового промпта. Словарь с эмбеддингами подготавливается заранее и интегрируется в модель.
Ещё один интересный детектор с открытым словарем — OV-DINO. Здесь разработчики решили бороться сразу с двумя проблемами, которые свойственны GLIP и G-DINO.
Первая — шум в разметке. И GLIP, и G-DINO сначала предобучаются на детекционных и граундинг-датасетах, а затем эти предобученные модели используются для расширения датасета с помощью псевдолейблинга. Но поскольку начальные датасеты, на которых предобучалалась модель, всё равно имеют ограниченный набор категорий объектов детекции, то в случае появления новых категорий в новых датасетах, в процессе генерации псевдолейблов, может возникать шум в виде неточной разметки.
Вторая проблема — если на картинке присутствует множество объектов одной категории, то в процессе выравнивания текстовых признаков с ними на выходе будет всего один текстовый эмбеддинг. То есть, например, нескольким кошкам на одной фотографии будет соотвествовать только один текстовый эмбеддинг.
Первую проблему в OV-DINO решают с помощью Unified Data Integration — пайплайн, позволяющий использовать различные датасеты (детекция, граундинг, пары «картинка-текст») в едином формате для обучения модели в end-to-end, без предварительного предобучения. Трансформация заключается в модификации входного промпта в промпт универсальной формы для детекции объектов. При этом промпты граундинг-датасета довльно легко переделать в детекционные промпты, а вот датасет типа «картинка-текст» — сложнее. Тут разработчики решили ввести баундинг-бокс на всю картинку, в таком случае получается задача детекции. Этот подход исключает шум от псевдолейблинга.
Вторую проблему решают с помощью селективного способа фьюзинга текстовых и визуальных признаков. Через модуль LASF (Language-Aware Selective Fusion) на рисунке 5 выделяются эмбеддинги объектов детекции, которые затем через кросс-аттеншен фьюзятся с обучаемыми эмбеддингами (content query). Они отвечают за описание объектов и вводятся специально для повышения точности детекции. Такой селективный подход к объединению признаков разной модальности позволяет существенно повысить точность детекции по сравнению с G-DINO и GLIP. Более подробное сравнение на различных бенчмарках будет приведено ниже.

Следующие подходы к обучению VLM-детекторов основаны на различных стратегиях обучения. Это Learning Strategy Based Methods (LSBM).
Дистилляция знаний
Здесь модель-студент обучается на выходах модели-учителя. Например, в ViLD дистиллируют знания из большого предобученного классификатора на базе EfficientNet-b7 в двухстадийный детектор Mask R-CNN, а в качестве текстового энкодера используется BERT. В процессе обучения эмбеддинги регионов интересов MASK-RCNN (студента) выравниваются как с эмбеддингами классификатора картинок, так и с текстовыми эмбеддингами.
Подход в модели DK-DETR основан на дистилляции знаний из в VLM в DETR-подобную модель. Здесь применяется два вида дистилляций: семантическая (SKD) и дистилляция зависимостей (RKD).
Semantic knowledge distillation (SKD) напрямую дистиллирует эмбеддинги визуального энкодера VLM в выходные эмбеддинги декодера DETR (явная передача семантической информации об объекте) посредством классификации положительных и негативных пар.
Relational Knowledge Distillation (RKD) — снижение косинусного расстояния между матрицами похожести для выходов VLM и DETR. Оно помогает выявлять неявные взаимосвязи между объектами детекции. Эти виды дистилляции, как заявляют авторы, позволяют улучшить детекцию новых категорий объектов, при этом не ухудшить качество детекции базовых объектов, которые модель-студент умеет определять.


Многозадачное обучение
Multi-task training — известный подход в машинном обучении, который позволяет расширить обучающую выборку и улучшить решение основной задачи за счёт получения дополнительных знаний при решении параллельных задач. Например, Mask R-CNN обучался одновременно на задачу детекции и сегментации.
Если говорить про современный VLM-подход, то, например, в OpenSeeD также решается одновременно задача детекции и сегментации. В этой модели отдельно выделяются эмбеддинги объектов переднего плана для детекции и отдельно — эмбеддинги заднего плана для задачи сегментации. Также на выходе декодера имеются дополнительные головы для генерации и предсказания маски в режиме обучения с учителем.
А в работе CapDet в качестве параллельной детекции задаче предлагается обучать модель генерировать описание (captions) задетектированных регионов изображения. Тут тоже пытаются решить проблему ограниченности словаря (в обучающих выборках) и размера детекционных датасетов, расширив его датасетом с парами «картинка — описание».
Обучение промптов
Обучение промптов также является одним из подходов обучения моделей детекции с открытым словарем. Он часто предполагает небольшое количество обучаемых параметров.
Например, в DetPro обучается только часть эмбеддинг-слоя текстового энкодера, а другая часть, отвечающая за конкретные категории, зафиксирована. Похожее решение можно увидеть в PromptDet.
Метод на базе LLM
Этот метод предполагает использование знаний большой языковой модели для обогащения детектора в процессе обучения.
В статье Multi-Modal Classifiers for Open-Vocabulary Object Detection предлагается использовать LLM (GPT-3) для формирования нескольких видов описания одного и того же детектируемого объекта, на основе которых с помощью текстового энкодера формируется общее текстовое представление, которое фьюзится с таким же агрегированным визуальным представлением на основе нескольких референсных визуальных примеров детектируемого объекта.
Похожий подход используется в DVDet, где с помощью LLM генерируются подробные промпты с описанием детектируемого объекта. Это позволяет извлекать более точные эмбеддинги из VLM, на которых, в свою очередь, обучается детектор.
В LaMI-DETR используют GPT-3.5 для генерации подробных визуальных описаний объектов и преобразования имён классов в комплексные визуальные категории. Они группируются с помощью полного трансформера T5, далее происходит семплирование примеров из разных групп для обучения. При инференсе визуальные описания помогают различать сложные категории, повышают эффективность работы с объектами, которые модель не видела в процессе обучения.
Сравнение моделей на различных бенчмарках
Среди рассмотренных подходов к обучению детекторов Large-scale Pretraining Based Methods, LPBM позволяет получать наиболее робастные модели детекции на открытых словарях. А подходы на основе Learning Strategy Based Methods, LSBM не дают получить такую же точность на датасетах с открытым словарём.
Рассмотрим сравнение моделей на closed-set датасетах (когда число категорий в обучающей и тестовой выборках совпадают). В таблице 1 сначала приведены классические (не VLM) подходы. Тут всё зависит от архитектуры: чем она новее, тем лучше результаты на бенчмарках. Качество VLM-моделей также зависит от архитектуры. Например, PB-OVD и RegionCLIP базируются на относительно устаревшем подходе Faster-RCNN и, соответственно, показывают худшие метрики на бенчмарках. YOLO-World основывается на архитектуре YOLOv8, поэтому сохраняет свои скоростные качества, но проигрывает в точности на датасетах с фиксированным числом категорий.
Лучше всех себя показывают Grounding-DINO и OV-DINO. Трансформерная архитектура DINO позволяет наиболее эффективно выравнивать визуальные и текстовые признаки и извлекать обобщённые семантические эмбеддинги: в результате мы видим лучшие метрики на closed-set бенчмарках. Также стоит отметить, что дообучение визуального энкодера — более эффективная стратегия, чем адаптация модели под промпт.

Далее приведём сравнение моделей для задачи Open Vocabulary детекции.


Для моделей LPBM в таблице 2.1 приведены результаты для двух режимов: Zero Prediction (без предварительного обучения на бенчмарках) и Visual Fine-Tuning (дообучение на бенчмарках). При этом категории датасетов COCO и LVIS предварительно поделены на базовые (base) и редко встречаемые (novel). Zero Prediction показывает способности моделей детектировать новые категории без специального дообучения. Visual Fine-Tuning — точность моделей на редких категориях, предварительно обученных на базовых категориях.
OV-DINO и Grouding-DINO показывают лучшие метрики, что ещё раз подтверждает силу базовой модели DINO.
При этом разница между лучшей LBPM моделью OV-DINO и лучшей LSBM моделью LAMI-DETR на самом сложном бенчмарке с большим числом категорий OV-LVIS незначительная, что говорит об эффективной стратегии обучения LAMI-DETR с использованием LLM для генерации сложных визуальных описаний детектируемых объектов. При этом на редких категориях (novel) бенчмарка COCO у той же OV-DINO AP=76.2 против 46.7 у лучшей LSBM модели DST-Det, что подтверждает важность хорошего предобучения на семантически разнообразном датасете.
В то же время дообучение на базовых категориях (base) может привести к ухудшению метрик на редких категориях (novel), что можно увидеть как у OV-DINO, так и у Grouding-DINO. Это объясняется переобучением моделей под базовые категории, что приводит к ухудшению обобщающей способности на новых категориях.
Более подробное исследование обобщающих способностей моделей приведено в таблице 3. Здесь представлены результаты обученных моделей на датасете, который находится слева от стрелки, и протестированных на датасете — справа от стрелки. Например, COCO -> VOC означает, что модель обучена на датасете COCO и протестирована на VOC.

Мы видим, что Large-scale Pretraining Based Methods модели в среднем выше по метрикам, чем Learning Strategy Based Methods модели. Особенно хорошую точность (Average Precision) показывают GraundingDino и OV-DINO по сравнению, например, с LAMI-DETR. Значит, LPBM-модели имеют больше знаний из различных доменов, в отличие от LSBM моделей, обучавшихся на более ограниченных датасетах.
Также стоит обратить внимание на различие в точности моделей в зависимости от числа категорий в тренировочном и тестовом датасетах. Например, в случаях обучения-теста COCO-VOC и LVIS-COCO в обучении было больше категорий, чем в тесте, а в случаях COCO-LVIS и COCO-Object365, наоборот, в обучающей выборке категорий меньше, чем в тестовой.
Когда меньше категорий в обучающей выборке, метрики значительно ниже, поэтому важно при обучении OV-детекторов обеспечивать наибольшее семантическое разнообразие в данных.
Заключение
Благодаря предобучению на больших наборах данных модели VLM изначально обладают сильными обобщающими способностями. В режиме Zero Shot большинство VLM хорошо справляется с детекцией, кроме случаев с мелкими объектами.
Дообучение визуального энкодера VLM показывает улучшение метрик, но важно следить за переобучением! Есть примеры, когда промптинг позволяет извлечь лучшее качество детекции, чем дообучение, например, у GroundingDINO.
VLM базирующиеся на архитектуре DETR и фьюзинге визуальных и текстовых признаков (Grounding DINO, OV-DINO), показывают более высокое качество по сравнению с VLM на базе архитектуры Faster R-CNN (Region CLIP) на большинстве задач. Что подтверждает критическую важность объединения визуальных и текстовых признаков в единое признаковое пространство.
VLM-детекторы показывают высокую стабильность в качестве детекции для различных задач. А это значит, что VLM — хорошие эмбеддеры. Они умеют извлекать качественные признаки из изображения и текста, которые можно использовать для решения различных визуальных задач 🙂

