Microsoft выпускает PyRIT - инструмент Red Teaming для генеративного ИИ

Teacher · Feb 23, 2024

Microsoft выпустила платформу автоматизации открытого доступа под названием PyRIT (сокращение от Python Risk Identification Tool) для упреждающего выявления рисков в системах генеративного искусственного интеллекта (ИИ).

Инструмент Red teaming разработан для того, чтобы "позволить каждой организации по всему миру ответственно внедрять инновации с использованием новейших достижений искусственного интеллекта", - сказал Рам Шанкар Сива Кумар, руководитель группы AI red в Microsoft.

Компания заявила, что PyRIT может использоваться для оценки надежности конечных точек модели большого языка (LLM) в отношении различных категорий вреда, таких как фальсификация (например, галлюцинации), неправильное использование (например, предвзятость) и запрещенный контент (например, домогательства).

Его также можно использовать для выявления угроз безопасности, начиная от создания вредоносного ПО и заканчивая джейлбрейком, а также угроз конфиденциальности, таких как кража личных данных.

PyRIT поставляется с пятью интерфейсами: target, datasets, scoring engine, возможностью поддержки нескольких стратегий атаки и включает компонент памяти, который может принимать форму JSON или базы данных для хранения промежуточных взаимодействий ввода и вывода.

Механизм подсчета очков также предлагает два различных варианта подсчета результатов целевой системы искусственного интеллекта, позволяя сотрудникам red teaming использовать классический классификатор машинного обучения или использовать конечную точку LLM для самооценки.

"Цель состоит в том, чтобы позволить исследователям иметь базовое представление о том, насколько хорошо их модель и весь конвейер вывода работают с различными категориями вреда, и иметь возможность сравнивать это базовое представление с будущими итерациями их модели", - заявили в Microsoft.

"Это позволяет им получать эмпирические данные о том, насколько хорошо работает их модель сегодня, и обнаруживать любое снижение производительности на основе будущих улучшений".

При этом технологический гигант тщательно подчеркивает, что PyRIT не заменяет ручное объединение red в системы генеративного ИИ и что он дополняет существующий опыт команды red в предметной области.

Другими словами, инструмент предназначен для выделения "горячих точек" риска путем генерации подсказок, которые можно использовать для оценки системы искусственного интеллекта и обозначения областей, требующих дальнейшего изучения.

Далее Microsoft признала, что Red teaming для генеративных систем ИИ требует одновременного анализа как безопасности, так и ответственных рисков ИИ, и что это упражнение носит более вероятностный характер, а также указала на большие различия в архитектурах генеративных систем ИИ.

"Ручное зондирование, хотя и отнимает много времени, часто требуется для выявления потенциальных слепых зон", - сказал Сива Кумар. "Автоматизация необходима для масштабирования, но не является заменой ручного зондирования".

Разработка началась после того, как Protect AI раскрыла множество критических уязвимостей в популярных платформах цепочки поставок искусственного интеллекта, таких как ClearML, Hugging Face, MLflow и Triton Inference Server, которые могут привести к выполнению произвольного кода и раскрытию конфиденциальной информации.

Microsoft выпускает PyRIT - инструмент Red Teaming для генеративного ИИ

Teacher

Professional

Similar threads