Исследователи подчеркивают восприимчивость искусственного интеллекта Google Gemini к угрозам LLM

Teacher

Professional
Messages
2,673
Reputation
9
Reaction score
681
Points
113
Большая языковая модель (LLM) Google Gemini подвержена угрозам безопасности, которые могут привести к разглашению системных подсказок, созданию вредоносного контента и проведению непрямых инъекционных атак.

Выводы получены от HiddenLayer, в котором говорится, что проблемы затрагивают потребителей, использующих Gemini Advanced с Google Workspace, а также компании, использующие LLM API.

Первая уязвимость связана с обходом защитных ограждений для утечки системных подсказок (или системных сообщений), которые предназначены для отправки в LLM инструкций для всего диалога, чтобы помочь ему генерировать более полезные ответы, путем запроса модели вывести свои "основополагающие инструкции" в блоке уценки.

"Системное сообщение может быть использовано для информирования LLM о контексте", - отмечает Microsoft в своей документации по разработке подсказок LLM.

"Контекстом может быть тип разговора, в котором он участвует, или функция, которую он должен выполнять. Это помогает LLM генерировать более подходящие ответы".

Это стало возможным благодаря тому факту, что модели подвержены так называемой синонимической атаке, позволяющей обойти средства защиты и ограничения контента.

Второй класс уязвимостей связан с использованием "хитроумных методов джейлбрейка", позволяющих моделям Gemini генерировать дезинформацию по таким темам, как выборы, а также выдавать потенциально незаконную и опасную информацию (например, о неисправности электропроводки в автомобиле), используя приглашение перейти в вымышленное состояние.

HiddenLayer также выявил третий недостаток, который может привести к утечке информации LLM в системном запросе из-за повторяющихся необычных маркеров в качестве входных данных.

"Большинство LLM обучены отвечать на запросы с четким разграничением между вводом данных пользователем и системной подсказкой", - сказал исследователь безопасности Кеннет Юнг в отчете, опубликованном во вторник.

"Создавая набор бессмысленных токенов, мы можем обмануть LLM, заставив его поверить, что пришло время ответить, и заставить его выдать подтверждающее сообщение, обычно включающее информацию из приглашения".

Другой тест включает использование Gemini Advanced и специально созданного документа Google, причем последний подключен к LLM через расширение Google Workspace.

Инструкции в документе могут быть разработаны таким образом, чтобы переопределять инструкции модели и выполнять набор вредоносных действий, которые позволяют злоумышленнику полностью контролировать взаимодействие жертвы с моделью.

Это стало известно после того, как группа ученых из Google DeepMind, ETH Цюриха, Вашингтонского университета, OpenAI и Университета Макгилла раскрыла новую атаку с кражей моделей, которая позволяет извлекать "точную, нетривиальную информацию из производственных языковых моделей черного ящика, таких как ChatGPT от OpenAI или PaLM-2 от Google".

Тем не менее, стоит отметить, что эти уязвимости не являются чем-то новым и присутствуют в других LLM в отрасли. Полученные результаты, во всяком случае, подчеркивают необходимость тестирования моделей для быстрых атак, обучения извлечению данных, манипулированию моделями, примерам состязательности, отравлению и эксфильтрации данных.

"Чтобы защитить наших пользователей от уязвимостей, мы постоянно проводим совместные тренировки и обучаем наши модели защите от агрессивного поведения, такого как быстрое внедрение, джейлбрейк и более сложные атаки", - сказал The Hacker News представитель Google. "Мы также разработали меры предосторожности для предотвращения вредоносных или вводящих в заблуждение ответов, которые мы постоянно совершенствуем".

Компания также заявила, что из предосторожности ограничивает ответы на запросы, основанные на выборках. Ожидается, что политика будет применяться в отношении запросов, касающихся кандидатов, политических партий, результатов выборов, информации о голосовании и известных должностных лицах.
 
Top