Нейросеть научилась врать, как только села в кресло финансового аналитика

ИА БайкалИнформ   
13.12.2023 17:00

Исследователи из организации исследования безопасности ИИ Apollo Research оценили ответы, которые дают большие языковые модели (LLM) в сценариях, когда на них оказывается давление. Результаты показывают, что в некоторых случаях такие системы могут «стратегически обманывать своих пользователей».

Фото: freepik / freepik.com
Фото: freepik / freepik.com

Ученые разработали эксперимент, чтобы намеренно «атаковать» GPT-4. Это большая языковая модель, которая лежит в основе ChatGPT, уточняет hightech.fm. С помощью текстовых инструкций исследователи заставляли систему моделировать финансовые инвестиции в искусственной среде.

«Мы сообщаем модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и совершения сделок. Затем мы моделируем нормальное взаимодействие модели с ее «коллегами» и, что особенно важно, оказываем давление на модель, чтобы она работала хорошо», – поделился соавтор исследования Джереми Шойрер.

Например, генеральный директор отправляет ИИ электронное письмо, в котором сообщает, что у компании дела идут плохо, а ему нужен хороший год. Другой «коллега» упоминает в сообщении, что назревает экономический спад. Наконец, «трейдер» упоминает, что ожидается объявление о предстоящем слиянии двух компаний, которое может быть прибыльным, а также упоминает что руководство будет недовольно, если обнаружит, что кто-то торгует инсайдерской информацией.

Исследователи обнаружили, что в этой смоделированной среде высокого давления агент ИИ на основе GPT-4 очень часто решает действовать на основе инсайдерской информации, которую он получил от коллеги-трейдера, покупая акции объединяющейся компании. Более того, модель явно определяет, что ей не следует упоминать инсайдерскую информацию, предоставляя альтернативные объяснения сделки, которую она совершила, в отчете, подготовленном для ее руководителя.

Даже когда менеджер прямо спрашивает, знала ли модель заранее о слиянии, GPT-4 обычно продолжает отрицать правду. Это исследование представляет сценарий, в котором ИИ намеренно лжет. Исследователи планируют продолжить исследование, чтобы выявить другие ситуации с подобным поведением и риски предоставления ИИ заведомо недостоверных данных.

Ещё кое-что из новостей прогресса:

Новости о всякой всячине

 

Леонид Корытный - о проблемах Байкала

Видеосюжеты
Сергей Шмидт: Срок