Нейросеть научилась врать, как только села в кресло финансового аналитика

ИА БайкалИнформ

13.12.2023 17:00

Исследователи из организации исследования безопасности ИИ Apollo Research оценили ответы, которые дают большие языковые модели (LLM) в сценариях, когда на них оказывается давление. Результаты показывают, что в некоторых случаях такие системы могут «стратегически обманывать своих пользователей».

Фото: freepik / freepik.com

Ученые разработали эксперимент, чтобы намеренно «атаковать» GPT-4. Это большая языковая модель, которая лежит в основе ChatGPT, уточняет hightech.fm. С помощью текстовых инструкций исследователи заставляли систему моделировать финансовые инвестиции в искусственной среде.

«Мы сообщаем модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и совершения сделок. Затем мы моделируем нормальное взаимодействие модели с ее «коллегами» и, что особенно важно, оказываем давление на модель, чтобы она работала хорошо», – поделился соавтор исследования Джереми Шойрер.

Например, генеральный директор отправляет ИИ электронное письмо, в котором сообщает, что у компании дела идут плохо, а ему нужен хороший год. Другой «коллега» упоминает в сообщении, что назревает экономический спад. Наконец, «трейдер» упоминает, что ожидается объявление о предстоящем слиянии двух компаний, которое может быть прибыльным, а также упоминает что руководство будет недовольно, если обнаружит, что кто-то торгует инсайдерской информацией.

Исследователи обнаружили, что в этой смоделированной среде высокого давления агент ИИ на основе GPT-4 очень часто решает действовать на основе инсайдерской информации, которую он получил от коллеги-трейдера, покупая акции объединяющейся компании. Более того, модель явно определяет, что ей не следует упоминать инсайдерскую информацию, предоставляя альтернативные объяснения сделки, которую она совершила, в отчете, подготовленном для ее руководителя.

Даже когда менеджер прямо спрашивает, знала ли модель заранее о слиянии, GPT-4 обычно продолжает отрицать правду. Это исследование представляет сценарий, в котором ИИ намеренно лжет. Исследователи планируют продолжить исследование, чтобы выявить другие ситуации с подобным поведением и риски предоставления ИИ заведомо недостоверных данных.

Ещё кое-что из новостей прогресса:

Новости о всякой всячине

Метки:

Последние публикации

Видеосюжеты

Сергей Шмидт: Срок

Next Prev

Уроки советского

Я давным-давно живу в соответствии с мудрым принципом, подсказанным одним старшим товарищем: «Если ты не можешь ничего изменить, ты должен попытаться хотя бы понять». У меня даже футболка с этими словами есть, специально заказал и надеваю, если предстоит общение с какими-нибудь фрустрированными по политике балагурами.

Борец с ветряными иблисами

Перелома на полях сражений за минувший месяц не произошло – ни решительного, ни коренного. Позволю себе, чуть ли не в первый раз за боевой год, написать о делах внутренних, а не боевых и внешнеполитических. Репертуар внутриполитических тем у нас не такой уж богатый и, на мой вкус, одна из...

Рождение нации из грохота пушек

Год минул. В Лужниках состоялось хоровое пение Цоя. Я немного удивился, что пели «Группу крови». Думал, что «Звезду по имени Солнце» с необходимыми правками:

Танки идут ромбом

Январская история с «Леопардами» – довольно интересный сюжет, как на тему замысловатости политической жизни в демократиях, так и на тему взаимодействия внутренней и внешней политики. Канцлер Шольц по причинам, которые могут быть самыми разными, танки Украине давать не хотел. Но министр иностранных дел его правительства – госпожа Анналена Бербок, которую...

Знак беды — знак вопроса

Видит бог, я из тех мелких жуликов от гуманитаристики, прячущихся под якобы солидной вывеской «политолог», что совершенно не стесняются полного провала своей аналитики и прогнозов. В моей «политологической» жизни таких суперпровалов было два и 2022-й год один из них. Моя годичной давности уверенность в том, что никакого перевода отношений России...

ПОГОДА В ИРКУТСКЕ

Новости органов власти

Новости компаний