Оценка генеративного ИИ для научных исследований с помощью открытого бенчмарка

Команда Neurounit

14 апреля 2025

Оценка ИИ для научных исследований с использованием открытых бенчмарков помогает понять сложность работы больших языковых моделей.

Исследование генеративного искусственного интеллекта (ИИ) с помощью открытых бенчмарков показывает как его потенциал, так и недостатки. В недавней работе группы исследователей, возглавляемой Эйвери Томпсоном, был разработан открытый бенчмарк для оценки больших языковых моделей (LLM) в контексте осаждения атомных слоев (ALD). Это отличный пример использования оценок ИИ для научных исследований.

Оценка больших языковых моделей в научных исследованиях

Большие языковые модели представляют собой последнюю итерацию генеративных нейронных сетей, способных создавать текст, звучащий как человеческий. Они могут отвечать на заданные вопросы. Но точность и полезность предоставляемой информации, особенно в технических областях, остаются под вопросом. В отличие от традиционных бенчмарков, которые часто требуют четкого и правильного ответа, открытые бенчмарки помогут оценить более сложные аспекты. Например, такие как актуальность и полезность ответов. Именно здесь важно провести оценку ИИ для научных исследований.

Группа исследователей, включая Анжела Янгуаса-Гила, собрала список из 70 вопросов по ALD. Он охватывал уровень от начального до продвинутого. Каждому вопросу был задан LLM, ChatGPT 4o. Ответы оценивались по критериям качества, специфичности, актуальности и точности. Результаты показали, что хотя модель в основном давала правильные ответы. Однако, с более сложными и специфическими вопросами она сталкивалась с трудностями. Это подчеркивает недостатки, которые могли бы остаться незамеченными при использовании традиционных бенчмарков. Оценка ИИ для научных исследований в таких условиях становится ещё более важной.

Роль открытых бенчмарков в оценке возможностей ИИ для науки

Анжел Янгуас-Гил отметил: «Открытые вопросы помогли нам тестировать различные аспекты генерации ответов, помимо точности, которые действительно важны для научных приложений». Это открытие подчеркивает важность использования открытых бенчмарков для оценки ИИ в научных исследованиях. Также показывает их потенциал в других областях.

Работа, опубликованная в Journal of Vacuum Science and Technology, представляет собой важный шаг. Это шаг в направлении более глубокого понимания возможностей и ограничений LLM в научных исследованиях. Исследователи надеются, что этот бенчмарк послужит шаблоном для других научных областей. Это позволит оценить эффективность LLM в своей работе.

Таким образом, открытые бенчмарки могут существенно улучшить нашу оценку генеративного ИИ. Они позволяют выявить его возможности и ограничения в реальных научных приложениях. Это важный шаг вперед в развитии технологий, которые могут изменить подход к научным исследованиям. Безусловно, нужна тщательная оценка ИИ для научных исследований. Это поможет определить его будущее использование.

Источник: AIP