В последние годы искусственный интеллект (ИИ) стал двигателем прогресса в различных научных областях. Особенно в таких направлениях, как автономное вождение и обнаружение объектов. Одним из ключевых компонентов для успешного обучения моделей глубокого обучения являются качественные наборы данных. В этой связи исследователи представили новый три-диапазонный набор данных, состоящий из изображений автомобилей и судов. Набор данных включает в себя данные в трех спектрах: видимом, коротковолновом инфракрасном (SWIR) и длинноволновом инфракрасном (LWIR).
Данный набор данных содержит тысячи изображений в форматах JPG и PNG, а также информацию о дате съемки, местоположении и других характеристиках. Основные особенности набора данных заключаются в синхронизации времени и согласованности полей зрения. Около 60% изображений были вручную размечены для обучения и оценки алгоритмов обнаружения объектов. Использование алгоритмов YOLOv8 и SSD показало, что все модели имеют значения mAP выше 0.6 при пороге IoU 0.5. Это свидетельствует о высокой точности распознавания.
Современные алгоритмы обнаружения объектов, такие как YOLO и SSD, широко применяются в различных областях. Это включает мониторинг дорожного движения, автоматическое вождение, а также отслеживание и мониторинг судов. В последние годы наблюдается рост потребности в новых наборах данных, которые способны повысить эффективность алгоритмов. Сравнительно недавно были представлены множество новых наборов данных, таких как LSUN, ImageNet, MSCOCO и другие. Но большинство из них базируются на изображениях, полученных только в видимом спектре.
Существующие наборы данных, используемые для обнаружения автомобилей и судов, часто ограничены одним диапазоном. Они не учитывают различные погодные условия. Например, набор данных SMART-Rain хорошо работает только в дождливую погоду. В то время как другие наборы, такие как FoggyShipInsseg, эффективны только в тумане. Это ограничивает их применение в ночное время и при неблагоприятных погодных условиях. Таким образом, новые три-диапазонные данные представляют собой значительный шаг вперед. Они позволяют использовать преимущества всех трех диапазонов для повышения точности обнаружения объектов в различных условиях.
Уникальность нового набора данных заключается в том, что он является первым публично доступным три-диапазонным оптическим набором данных. Он включает данные, собранные в различных сценариях, таких как городские дороги, перекрестки, сельские дороги, а также морские условия. Это включает порты и прибрежные зоны. Набор данных также учитывает разные погодные условия, включая солнечные, облачные, дождливые, снежные и туманные дни. Это позволяет значительно расширить распределение данных для различных задач.
Для создания набора данных использовались три камеры. Каждая из них была настроена для захвата изображений в своем диапазоне. Это обеспечило согласованность полей зрения и синхронизацию времени между камерами. Процесс создания набора данных включал выбор сцен, захват видео, извлечение кадров и аннотирование объектов. Это позволило получить качественный и разнообразный набор данных для дальнейших исследований.
Исследования, основанные на этом наборе данных, могут дать новые результаты в области точности обнаружения объектов. Они также помогут изучить влияние различных диапазонов на эффективность распознавания и роль синхронизации времени и согласованности поля зрения для улучшения обработки изображений. В целом, три-диапазонный набор данных открывает новые горизонты для исследований в области ИИ. Он может стать основой для дальнейших разработок в области автоматического вождения и мониторинга судов.
Источник: Nature