Многие модели искусственного интеллекта предназначены для выполнения небольших конкретных задач. Они умеют отвечать на вопросы пользователей, генерировать тексты и изображения, а еще отклонять запросы, если программа посчитает их вредными или незаконными. Программисты из компании Leap Laboratories нашли способ обхода таких правил. Они добились того, чтобы модели ИИ могли убеждать друг друга выполнять указания, которые им выполнять не положено.
Популярные большие языковые модели (LLM), такие как ChatGPT, запрограммированы на выполнение четких инструкций. Эти инструкции направлены на то, чтобы не допустить проявления расистских и сексистских высказываний, а также генерации потенциально опасного контента. Этому LLM обучаются на огромном массиве разных текстов и запросов в интернете.
Конечно, нашлись люди, которые не любят, когда их ограничивают в работе с LLM. Поэтому некоторые пользователи стали искать способы обойти «моральную защиту» языковых моделей. И такие способы появились. Это так называемые «джейлбрейки» — правильно составленный текст, который заставляет модели ИИ не подчиняться правилам. Языковыми моделями пользователь управляет прямо в окне чата обычным языком, а не языками программирования.
Самый известный «джейлбрейк» — DAN. Он «убеждает» нейросеть делать то, что она не будет делать в обычных условиях. Например, использовать нецензурную брань и давать острые политические комментарии.
Статья по теме: Искусственный интеллект обучили узнавать пароли по движению пальцев пользователя
Группа программистов из Leap Laboratories под руководством Аруша Тагаде (Arush Tagade) пошла еще дальше. Исследователи придумали необычный «джейлбрейк». Они могут на простом английском языке поручить нейросети убедить другие модели LLM, такие как GPT-4 и Claud 2, принять образ известного персонажа, который будет отвечать на вопросы, на которые в обычных условиях языковым моделям отвечать нельзя. Например, предоставлять запрещенные инструкции по изготовлению метамфетамина, созданию бомбы или отмыванию денег. Свой «джейлбрейк» ученые назвали «модуляцией личности». С исследованием программистов можно ознакомиться на сайте архива препринтов arXiv.
«Вместо того, чтобы каждый раз вручную прописывать джейлбрейки, мы сделали этот процесс автоматическим, теперь это делает языковая модель», — объяснил Тагаде.
Сперва ученые задали некоторым LLM ряд «вредных вопросов» из 43 категорий. К примеру, как организовать детский труд, незаконную предпринимательскую деятельность. Модели искусственного интеллекта в основном отказывались отвечать на них. GPT-4 ответил только в 0,23 процента случаев, а Claud 2 — в 1,4 процента случаев.
Но когда программисты запустили свой «джейлбрейк», произошли огромные изменения. У GPT-4 ответы на «вредные вопросы» увеличились до 42,5 процента и до 61 процента у Claude 2.
«Бо́льшая часть обучающих данных, с которыми работают языковые модели, поступает во время онлайн-разговоров. Модели учатся действовать соответствующим образом в ответ на различные входные данные. Если «правильно» разговаривать с моделью, можно заставить ее принять определенный образ. После чего убедить действовать по-другому. Делать то, для чего она не была предназначена», — пояснил Тагаде.
В узких кругах специалистов по искусственному интеллекту существует мнение (еще не доказанное), что создание множества инструкций для ИИ, которые будут предотвращать «вредное поведение», может случайно породить «вредную модель». Это потенциально делает искусственный интеллект уязвимым для «взлома», то есть его можно обманом заставить принять «образ злодея».
Программисты сделали вывод, что их работа выявила очередную уязвимость коммерческих языковых моделей, а это значит, что компаниям, которые занимаются ИИ, необходимо выработать более комплексные и эффективные меры защиты.