В последние годы активно обсуждается использование синтетических данных в науке. Эти данные создаются с помощью генеративного искусственного интеллекта (ИИ). Дэвид Ресник, биоэтик из NIEHS, провел соответствующее исследование. Синтетические данные от генеративного ИИ имитируют реальные, но не основаны на фактических измерениях. С увеличением мощностей машинного обучения такие данные становятся популярными. Системы генеративного ИИ, как ChatGPT, способствуют этому применению.
Преимущества и этические вызовы синтетических данных в экологии
В своей статье, опубликованной в журнале “Proceedings of the National Academy of Sciences”, Ресник и его соавторы обсуждают этические последствия, связанные с ростом использования синтетических данных, и поднимают важные вопросы касательно возможных рисков для науки и общества.
Ресник выделяет несколько способов, с помощью которых синтетические данные могут принести пользу экологическим исследованиям. Во-первых, синтетические данные от генеративного ИИ могут использоваться для моделирования различных явлений, позволяя исследователям проверять гипотезы до начала полевых исследований. Кроме того, синтетические данные могут быть использованы для создания цифровых двойников, которые представляют собой модели, имитирующие данные о человеке, такие как рост и вес, но при этом не позволяющие его идентифицировать. Это может помочь в обмене данными без нарушения конфиденциальности.
Этические риски и проблемы идентификации синтетических данных в научных исследованиях
Тем не менее, вместе с преимуществами возникают и серьезные этические проблемы. Ресник подчеркивает, что использование синтетических данных может привести к неумышленному искажениям в научных записях, если такие данные будут ошибочно приняты за реальные. Важно вводить водяные знаки на синтетические данные, чтобы исследователи могли отличать их от настоящих, однако это может не решить проблему полностью. Нередко ученые продолжают ссылаться на статьи, которые были отозваны, даже если они четко помечены как такие.
Кроме того, существует риск преднамеренного злоупотребления синтетическими данными, когда исследователи могут намеренно подделывать или искажать данные, выдавая их за реальные. Это создает серьезную угрозу для научного процесса и доверия к нему. Ресник отмечает, что хотя существуют инструменты для обнаружения плагиата и выявления текстов и изображений, созданных ИИ, технологии также развиваются, и задача по выявлению синтетических данных от генеративного ИИ становится все более сложной.
Рекомендации по этическим стандартам для использования синтетических данных в научных исследованиях
Ресник предлагает разработать руководящие принципы для решения этических вопросов. Эти принципы могут быть приняты журналами, фондами и учебными заведениями. Научное сообщество может создать безопасные условия для исследований. Он также предлагает внедрить кодекс чести для ученых. Это поможет подтвердить подлинность публикуемых данных.
Ресник подчеркивает, что идеальных технических решений не существует. Этическим вопросам следует уделять основное внимание. Обучение исследователей правильному поведению имеет ключевое значение. Это поможет обеспечить целостность данных в будущем.
Синтетические данные от генеративного ИИ открывают новые горизонты для исследований. Однако требуется внимательный подход к этическим вопросам. Это поможет избежать негативных последствий для науки и общества.
Источник: National Institute of Environmental Health Sciences