В последние годы искусственный интеллект (ИИ) стал двигателем прогресса в различных научных областях. Особенно в таких направлениях, как автономное вождение и обнаружение объектов. Одним из ключевых компонентов для успешного обучения моделей глубокого обучения являются качественные наборы данных. В этой связи исследователи представили новый три-диапазонный набор данных, состоящий из изображений автомобилей и судов. Набор данных включает в себя данные в трех спектрах: видимом, коротковолновом инфракрасном (SWIR) и длинноволновом инфракрасном (LWIR).

Данный набор данных содержит тысячи изображений в форматах JPG и PNG, а также информацию о дате съемки, местоположении и других характеристиках. Основные особенности набора данных заключаются в синхронизации времени и согласованности полей зрения. Около 60% изображений были вручную размечены для обучения и оценки алгоритмов обнаружения объектов. Использование алгоритмов YOLOv8 и SSD показало, что все модели имеют значения mAP выше 0.6 при пороге IoU 0.5. Это свидетельствует о высокой точности распознавания.

Три-диапазонный набор данных для обнаружения объектов

Современные алгоритмы обнаружения объектов, такие как YOLO и SSD, широко применяются в различных областях. Это включает мониторинг дорожного движения, автоматическое вождение, а также отслеживание и мониторинг судов. В последние годы наблюдается рост потребности в новых наборах данных, которые способны повысить эффективность алгоритмов. Сравнительно недавно были представлены множество новых наборов данных, таких как LSUN, ImageNet, MSCOCO и другие. Но большинство из них базируются на изображениях, полученных только в видимом спектре.

Существующие наборы данных, используемые для обнаружения автомобилей и судов, часто ограничены одним диапазоном. Они не учитывают различные погодные условия. Например, набор данных SMART-Rain хорошо работает только в дождливую погоду. В то время как другие наборы, такие как FoggyShipInsseg, эффективны только в тумане. Это ограничивает их применение в ночное время и при неблагоприятных погодных условиях. Таким образом, новые три-диапазонные данные представляют собой значительный шаг вперед. Они позволяют использовать преимущества всех трех диапазонов для повышения точности обнаружения объектов в различных условиях.

Уникальность нового набора данных заключается в том, что он является первым публично доступным три-диапазонным оптическим набором данных. Он включает данные, собранные в различных сценариях, таких как городские дороги, перекрестки, сельские дороги, а также морские условия. Это включает порты и прибрежные зоны. Набор данных также учитывает разные погодные условия, включая солнечные, облачные, дождливые, снежные и туманные дни. Это позволяет значительно расширить распределение данных для различных задач.

Трехуровневая система для повышения точности выявления

Для создания набора данных использовались три камеры. Каждая из них была настроена для захвата изображений в своем диапазоне. Это обеспечило согласованность полей зрения и синхронизацию времени между камерами. Процесс создания набора данных включал выбор сцен, захват видео, извлечение кадров и аннотирование объектов. Это позволило получить качественный и разнообразный набор данных для дальнейших исследований.

Исследования, основанные на этом наборе данных, могут дать новые результаты в области точности обнаружения объектов. Они также помогут изучить влияние различных диапазонов на эффективность распознавания и роль синхронизации времени и согласованности поля зрения для улучшения обработки изображений. В целом, три-диапазонный набор данных открывает новые горизонты для исследований в области ИИ. Он может стать основой для дальнейших разработок в области автоматического вождения и мониторинга судов.

Источник: Nature

1