МОСКВА, 6 декабря. /ТАСС/. Российские исследователи разработали две системы ИИ, способные выявлять сгенерированные нейросетями вставки в текстах на научную тематику. В перспективе подобные модели помогут в проверке оригинальности и достоверности научных публикаций, сообщила пресс-служба НИУ ВШЭ.
"Команда исследователей создала две модели для обнаружения в научных текстах частей, сгенерированных искусственным интеллектом. В системе AIpom соединены два типа моделей - декодер и энкодер, что позволяет ей эффективнее находить сгенерированные вставки. Система Papilusion подходит для распознания исправлений с помощью синонимов и кратких пересказов, сгенерированных нейросетью, в работе она использует модели одного типа - энкодеры", - говорится в сообщении.
Обе системы разработаны группой под руководством стажера-исследователя НИУ ВШЭ (Москва) Александра Ширнина для решения стремительно приобретающей актуальность задачи - борьбы с генерацией текстов при помощи больших языковых моделей, таких как ChatGPT или GigaChat. В последнее время они используются при написании не только студенческих курсовых и дипломов, но и вымышленных научных работ, иногда попадающих в серьезные рецензируемые научные журналы.
Системы, созданные Ширниным и его коллегами, заняли второе (AIpom) и шестое (Papilusion) места на международном конкурсе SemEval-2024, на котором ученые должны были создать алгоритм, способный выявлять сгенерированный ИИ текст и распознавать "границы" между ним и реально написанным человеком текстом.
По словам Ширнина, сочетание двух разных типов нейросетей - декодеров и энкодеров - позволило значительно повысить эффективность системы AIpom. Декодер получает инструкции от пользователя и разбивает текст на предположительно созданные человеком и машиной фрагменты, а энкодер проверяет и уточняет эти оценки. Подобная двухступенчатая система проверки текстов позволила разработке Ширнина и его коллег обойти большинство других систем.
Как отметил ученый, качество работы созданных ими систем ИИ можно заметно повысить, если значительным образом расширить наборы естественных и сгенерированных текстов и данных, на которых проводилось их обучение. Это позволит выявлять машинный текст в более широком наборе научных статей и работ студентов, а также распознавать ситуации, в которых ИИ используется для дополнения текстов, их переформулировки и решения других сложных задач, подытожили исследователи.