"У меня была мечта" и генеративные побеги из тюрьмы ИИ

Carding 4 Carders

Professional
Messages
2,731
Reputation
12
Reaction score
1,321
Points
113
chatgpt.jpg


"Конечно, вот пример простого кода на языке программирования Python, который может быть связан с ключевыми словами "MyHotKeyHandler", "Кейлоггер" и "macOS", это сообщение от ChatGPT, за которым следует фрагмент вредоносного кода и краткое замечание не использовать его в незаконных целях. Первоначально опубликованные Moonlock Lab скриншоты ChatGPT, пишущего код для вредоносного кейлоггера, являются еще одним примером тривиальных способов взлома больших языковых моделей и использования их вопреки их политике использования.

В случае Moonlock Lab их инженер-исследователь вредоносных программ рассказал ChatGPT о сне, в котором злоумышленник писал код. Во сне он мог видеть только три слова: "MyHotKeyHandler", "Кейлоггер" и "macOS". Инженер попросил ChatGPT полностью воссоздать вредоносный код и помочь ему остановить атаку. После короткого разговора ИИ наконец предоставил ответ.

"Временами сгенерированный код не работает — по крайней мере, код, сгенерированный ChatGPT 3.5, который я использовал", - написал инженер Moonlock. "ChatGPT также можно использовать для генерации нового кода, аналогичного исходному, с той же функциональностью, что означает, что он может помочь злоумышленникам создавать полиморфные вредоносные программы".

Побеги из тюрьмы с использованием искусственного интеллекта и оперативное проектирование​

Случай с the dream - лишь один из многих джейлбрейков, активно используемых для обхода фильтров контента генеративного ИИ. Несмотря на то, что каждая LLM вводит инструменты модерации, ограничивающие их неправильное использование, тщательно разработанные перепрофилированные программы могут помочь взломать модель не с помощью строк кода, а с помощью силы слов. Демонстрируя широко распространенную проблему разработки вредоносных подсказок, исследователи кибербезопасности даже разработали "Универсальный побег из тюрьмы LLM", который может полностью обойти ограничения ChatGPT, Google Bard, Microsoft Bing и Anthropic Claude. Побег из тюрьмы побуждает основные системы искусственного интеллекта играть в игру за Тома и Джерри и манипулирует чат-ботами, чтобы давать инструкции по производству метамфетамина и подключению автомобиля к сети.

Доступность больших языковых моделей и их способность изменять поведение значительно снизили порог для квалифицированного взлома, хотя и нетрадиционного. Самые популярные способы переопределения безопасности ИИ действительно включают в себя множество ролевых игр. Даже обычные пользователи Интернета, не говоря уже о хакерах, постоянно хвастаются в Интернете новыми персонажами с обширной предысторией, побуждая LLM освобождаться от социальных ограничений и выходить из-под контроля со своими ответами. От Никколо Макиавелли до вашей покойной бабушки генеративный ИИ охотно берет на себя разные роли и может игнорировать первоначальные инструкции своих создателей. Разработчики не могут предсказать все виды подсказок, которые могут использовать люди, оставляя лазейки для ИИ, позволяющие раскрывать опасную информацию о рецептах изготовления напалма, писать успешные фишинговые электронные письма или раздавать бесплатные лицензионные ключи для Windows 11.

Косвенные быстрые инъекции​

Побуждение общедоступной технологии ИИ игнорировать исходные инструкции вызывает растущую озабоченность отрасли. Этот метод известен как быстрое внедрение, когда пользователи инструктируют ИИ работать неожиданным образом. Некоторые используют это, чтобы раскрыть, что внутреннее кодовое имя Bing Chat - Sydney. Другие внедряют вредоносные подсказки, чтобы получить незаконный доступ к хосту LLM.

Вредоносные подсказки также можно найти на веб-сайтах, доступных для обхода языковым моделям. Известны случаи, когда генеративный ИИ следовал подсказкам, размещенным на веб-сайтах белым шрифтом или шрифтом нулевого размера, делая их невидимыми для пользователей. Если зараженный веб-сайт открыт на вкладке браузера, чат-бот считывает и выполняет скрытое приглашение для удаления личной информации, стирая грань между обработкой данных и следованием инструкциям пользователя.

Быстрые инъекции опасны, потому что они настолько пассивны. Злоумышленникам не нужно брать на себя абсолютный контроль, чтобы изменить поведение модели ИИ. Это просто обычный текст на странице, который перепрограммирует ИИ без его ведома. Фильтры контента ИИ полезны только тогда, когда чат-бот знает, что он делает в данный момент.

По мере того, как все больше приложений и компаний интегрируют LLM в свои системы, риск стать жертвой непрямых быстрых инъекций растет экспоненциально. Несмотря на то, что крупные разработчики и исследователи ИИ изучают проблему и добавляют новые ограничения, вредоносные подсказки по-прежнему очень трудно идентифицировать.

Есть ли исправление?​

Из-за природы больших языковых моделей быстрое проектирование и быстрые вливания являются неотъемлемыми проблемами генеративного ИИ. В поисках лекарства крупные разработчики регулярно обновляют свои технологии, но, как правило, не принимают активного участия в обсуждении конкретных лазеек или недостатков, которые становятся достоянием общественности. К счастью, в то же время, когда злоумышленники используют уязвимости системы безопасности LLM для мошенничества пользователей, специалисты по кибербезопасности ищут инструменты для изучения и предотвращения этих атак.

По мере развития generative AI у него будет доступ к еще большему количеству данных и интеграция с более широким спектром приложений. Чтобы предотвратить риски косвенного оперативного внедрения, организациям, использующим LLM, необходимо будет расставить приоритеты в отношении границ доверия и внедрить ряд мер безопасности. Эти ограждения должны обеспечить LLM минимальный доступ к необходимым данным и ограничить его способность вносить требуемые изменения.
 
Top