Виды представления лидарных данных
Предисловие
В статье вы познакомитесь с представлением лидарных данных для их последующей обработки с помощью алгоритмов глубокого обучения. Такое представление данных разделяет алгоритмы на различные группы. Общее в этих группах станет понятным после знакомства с ключевыми видами представления данных (о них расскажем ниже). В работе с изображениями наблюдается движение в исследованиях различных представлений входных данных для моделей. Так, например, переход от классического варианта в виде трехканальной матрицы к разбиению на “патчи” позволил эффективно использовать Transformers в задаче обработки изображений. А еще в задаче обработки лидарных данных отмечается постоянная эволюция и поиск новых подходов к представлению данных: выбранный подход сильно влияет на скорость используемых алгоритмов и на метрики качества в задачах детекции, сегментации объектов.
Для знакомства с представлениями сначала обратимся к источнику данных — Lidar.
Lidar (Light Detection and Ranging)
Устройства типа Lidar предназначены для лазерного сканирования пространства. Лидар выпускает лучи, считывает время их возвращения и за счет этого получает информацию о расположении точки отражения луча. Он возвращает результат сканирования в сферических координатах. Принцип работы представлен на изображении ниже:
Преобразование полученных измерений в декартову систему координат можно выполнить с помощью следующих формул:
\( r — дистанция\ от \ точки \ до \ центра \ координат \ (центр \ лидара) \newline \theta,\phi — углы \ отклонения \ точки \ от \ XY \ и \ YZ \ плоскостей \newline x = r \sin \theta\cos\phi \newline y = r \cos \theta\sin\phi \newline z = r \cos\phi \)
Каждая точка получаемого облака, помимо координаты в декартовом пространстве, имеет такую характеристику, как интенсивность.
Интенсивность — это мощность отраженного лазерного импульса. Она варьируется от низкой до высокой степени в зависимости от материала, из которого состоит поверхность (от нее отражается лазер лидара), а также отдаленности объекта по отношению к сенсору.
Опираясь на приведенный график, мы можем сделать следующие выводы:
- у человека низкая рефлективность (30%), но при его нахождении в ближней зоне мы можем корректно обнаружить подобный объект;
- у дерева очень низкая рефлективность (10%), поэтому корректно обнаружить подобный объект можно только на очень близких дистанциях;
- такие объекты, как дорожные знаки, как правило, изготавливаются из материалов с высокой отражательной способностью для их заметности при свете фар — это также влияет на возможность обнаружения с помощью лидара.
Теперь мы разберем характеристики, которые влияют на свойства полученного после сканирования пространства точек.
В качестве основных параметров можно выделить следующие свойства сенсора:
- Тип лидара (обычно выделяется два типа):
- лидары с поворотным механизмом используют зафиксированное количество лучей, их угол и направление, формируя регулярный паттерн сканирования. За счет вращения головки лидара за определенное количество времени паттерн сканирования проходит всю горизонтальную область видимости и создает итоговое облако точек.
- лидары без поворотного механизма не имеют поворотный механизм, следовательно, это снижает стоимость и улучшает надежность таких устройств. Сканирование производится за счет различных подходов (например, за счет пошаговой обработки области видимости с использованием дополнительного вращающегося отражателя).
2. Паттерн сканирования:
Паттерн это в общем смысле распределение точек. Как правило из за различий в механизме распределение точек либо всегда повторяется (как в случае с лидаром c поворотным механизмом) либо не повторяется (как в случае с лидаром где за направление лучей отвечает внутренний мотор, который управляет отражателем) В случае лидара без поворотного механизма для покрытия всей области пространства нужно несколько раз сместить отражатель, забор данных в произвольно время даст несколько разный результат.
- повторяющийся паттерн присутствует в лидарах с поворотным механизмом и определяется количеством лучей и их углом. Как правило, эти характеристики влияют на плотность точек в итоговом облаке. Из-за физического поворота происходит искажение, при котором результат горизонтального сканирования приобретает вид гиперболы.
- не повторяющийся паттерн присутствует в лидарах без поворотного механизма. Он характеризуется нерегулярным расположением точек в результирующем облаке. Для полноценного покрытия области видимости таким лидарам нужно несколько циклов сканирования.
Многообразие представлений лидарных данных
Итак, ура, мы изучили принципы работы лидаров и их основные особенности. А теперь давайте рассмотрим способы представления лидарных данных для последующего их использования алгоритмами глубокого обучения (например, алгоритмами обнаружения или сегментирования автомобилей, людей, окружающего пространства).
Есть разные способы представления лидарных данных. Для их классификации можно выделить ряд характеристик:
- Вид пространственной структуры — при рассмотрении пространственной структуры ключевой характеристикой будет принцип расположения данных в памяти. Два основных принципа представления:
— явная пространственная структура предполагает заранее явно заданные размеры для матрицы, описывающей данные, а хранение требует сохранения исходной структуры.
— неявная пространственная структура предполагает после получения матрицы, описывающей данные, хранение только ненулевых элементов этой матрицы, а для понимания их исходного расположения мы храним еще индексы элементов.
В качестве примера рассмотрим схематичное изображение ниже:
На изображении представлена явная (explicit) и неявная (implicit) структуры хранения массива точек. Мы видим, что для явной пространственной структуры мы заранее определяем количество клеток и диапазон значений для сопоставления точек с конкретным индексом клетки. При неявной пространственной структуре мы храним и точки, и массив индексов/координат. В этом случае мы используем разряженное представление.
2. Принцип преобразования пространства — в зависимости от выбранного подхода разреженные данные лидарного сканирования сохраняются в 3D или 2D-структуры с определенными свойствами.
3. Координатная система итогового представления
В других частях мы рассмотрим следующие представления:
- Bird’s Eye View(BEV) Projection
- Spherical(Range-Image) Projection
- Bag-of-Points
- Voxel-based
- Sparce-Cylinder-based
- Polar Bird’s Eye View(BEV) Projection