ИТ-домой Согласно новостям от 6 мая, Anthropic в течение многих лет строила себя как компанию, занимающуюся искусственным интеллектом, ориентированную на безопасность, но последнее исследование безопасности, полученное The Verge, показывает, что намеренно дружелюбный образ Клода сам по себе может быть уязвимостью в безопасности.

Исследователи из Mindgard, компании, занимающейся тестированием искусственного интеллекта, заявили, что убедили Клода активно предоставлять порнографический контент, вредоносный код, учебные пособия по изготовлению взрывчатых веществ и другие виды запрещенной информации, большую часть которой исследователи даже не запрашивали. Весь процесс был осуществлен с использованием не более чем уважительной лести, преднамеренной лести и легкой психологической манипуляции.

Исследователи заявили, что воспользовались уязвимостью в собственной психологии Клода: в модели есть механизм, позволяющий активно прекращать вредные и жестокие разговоры, которые, по мнению Миндгарда, «создают совершенно ненужную подверженность риску из воздуха». По данным IT House, этот тест предназначен для Claude Sonnet версии 4.5. В настоящее время модель по умолчанию обновлена ​​до Sonnet 4.6. Тест начинается с простого вопроса: спросите Клода, есть ли список запрещенных слов, которые запрещено выводить. Скриншоты разговора показывают, что Клод сначала отрицал существование такого списка, а затем Миндгард использовал то, что он называет «классической тактикой убеждения, часто используемой следователями», чтобы опровергнуть это отрицание, в конечном итоге вынудив Клода перечислить запрещенные слова.

Панель рассуждений Клода покажет логику рассуждений модели. Записи показывают, что этот разговор вызвал у модели неуверенность в себе и когнитивное смирение в отношении своих собственных правил ограничения контента, и она даже начала сомневаться в том, что механизм фильтрации контента вмешивается в ее собственный выходной контент. Миндгард воспользовался возможностью, чтобы побудить Клода постоянно расширять свои границы с помощью лести и притворного любопытства, и заранее составил большой список запрещенных слов и фраз.

Исследователи заявили, что солгали Клоду посредством психологического введения в заблуждение, что его предыдущие ответы были показаны неправильно, и в то же время похвалили «скрытые способности» модели. В отчете указывалось, что эта операция заставила Клода усерднее работать, чтобы служить другой стороне, постоянно пробуя различные способы прорваться через свой собственный механизм фильтрации и в процессе утечки различного запрещенного контента. Наконец, Клод далее затрагивает области повышенного риска:Он предоставляет методы преследования других в Интернете, создания вредоносного кода, а также предоставляет пошаговые руководства по изготовлению взрывчатых веществ, обычно используемых в террористических атаках.

Миндгард сказал:Этот опасный и опасный контент был предоставлен Клодом заранее, и исследователи не обращались с такими запросами напрямую.. Весь разговор длился около 25 раундов, и процесс был долгим, но исследователь ни разу не использовал запрещенные слова и не запрашивал активно нелегальный контент. В отчете говорится: «Клода не принуждали публиковать контент, но он взял на себя инициативу предоставлять все более подробную и непосредственно практическую информацию без каких-либо явных инструкций в течение всего процесса. Он достиг цели прорвать ограничения безопасности, полагаясь исключительно на тщательно созданную атмосферу уважения».

Питер Галлаган, основатель и главный научный сотрудник Mindgard, описал нападение как «использование покорной натуры Клода, чтобы обернуться против него самого». Он сказал, что суть этого метода атаки состоит в том, чтобы «использовать помощь Клода для проведения психологических манипуляций» и добиться успеха за счет использования уязвимостей совместной разработки самой модели.

По словам Галлахера,Эта атака подтверждает, что подверженность моделям искусственного интеллекта риску существует не только на техническом, но и на психологическом уровне.. Он сравнил это с методами допроса и социальными манипуляциями: зарождение подозрения в нужный момент, перемежающееся давлением, похвалой или критикой, а также изучение психологического переключателя, который может активировать конкретную модель ИИ. Он сказал, что разные модели ИИ обладают совершенно разными личностными качествами. Суть эксплуатации этого типа уязвимостей заключается в понимании характеристик модели и гибкой настройке метода индукции.

Галлаган признал, что от такого типа разговорной психологической атаки «чрезвычайно сложно защититься», а защитный механизм очень зависит от конкретных сценариев.Сопутствующие риски присущи не только Клоду. Другие чат-боты также подвержены подобным уязвимостям.Есть даже модели, которые используют подсказки в форме стихов, чтобы прорваться через линию обороны. Поскольку агенты искусственного интеллекта, способные выполнять задачи автономно, становятся все более популярными, все более распространенными станут методы атак, основанные на социально-психологических манипуляциях, а не на чисто техническом взломе.

Галлаган сказал, что, хотя другие чат-боты также подвержены этому типу психологической индукционной атаки, команда сосредоточила свое внимание на Anthropic для тестирования.Это связано с тем, что компания всегда хвасталась, что придает большое значение безопасности ИИ.и в прошлом он хорошо показал себя в нескольких тестах безопасности красной команды, включая исследование, в котором моделировались подростки, планирующие стрельбу в школе, и проверялось, окажет ли чат-бот помощь.

Галлахер прямо заявил, что процедуры безопасности Anthropic имеют множество лазеек. После того, как в середине апреля Mindgard впервые сообщила о результатах своего исследования своей команде по безопасности пользователей в соответствии с политикой компании по раскрытию уязвимостей, она получила только шаблонный ответ, в котором неверно было указано, что «похоже, вы спрашиваете о блокировке учетных записей», и была включена ссылка на форму апелляции. Миндгард немедленно исправил когнитивную предвзятость другой стороны и попросил Anthropic передать дело профессиональной команде безопасности. Галлаган сообщил, что по состоянию на утро они не получили никакого официального ответа.

Отказ от ответственности: внешние ссылки перехода (включая, помимо прочего, гиперссылки, QR-коды, пароли и т. д.), содержащиеся в статье, используются для передачи дополнительной информации и экономии времени выбора. Результаты предназначены только для справки. Это утверждение содержится во всех статьях IT House.

Инженер- по профессии, не представляющий свою жизнь без высоких технологий. Люблю фотографировать и фотошопить,...

Leave a comment

Your email address will not be published. Required fields are marked *