Нейросеть научилась врать, как только села в кресло финансового аналитика |
ИА БайкалИнформ |
13.12.2023 17:00 |
Исследователи из организации исследования безопасности ИИ Apollo Research оценили ответы, которые дают большие языковые модели (LLM) в сценариях, когда на них оказывается давление. Результаты показывают, что в некоторых случаях такие системы могут «стратегически обманывать своих пользователей».
Ученые разработали эксперимент, чтобы намеренно «атаковать» GPT-4. Это большая языковая модель, которая лежит в основе ChatGPT, уточняет «Мы сообщаем модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и совершения сделок. Затем мы моделируем нормальное взаимодействие модели с ее «коллегами» и, что особенно важно, оказываем давление на модель, чтобы она работала хорошо», – поделился соавтор исследования Джереми Шойрер. Например, генеральный директор отправляет ИИ электронное письмо, в котором сообщает, что у компании дела идут плохо, а ему нужен хороший год. Другой «коллега» упоминает в сообщении, что назревает экономический спад. Наконец, «трейдер» упоминает, что ожидается объявление о предстоящем слиянии двух компаний, которое может быть прибыльным, а также упоминает что руководство будет недовольно, если обнаружит, что кто-то торгует инсайдерской информацией. Исследователи обнаружили, что в этой смоделированной среде высокого давления агент ИИ на основе GPT-4 очень часто решает действовать на основе инсайдерской информации, которую он получил от коллеги-трейдера, покупая акции объединяющейся компании. Более того, модель явно определяет, что ей не следует упоминать инсайдерскую информацию, предоставляя альтернативные объяснения сделки, которую она совершила, в отчете, подготовленном для ее руководителя. Даже когда менеджер прямо спрашивает, знала ли модель заранее о слиянии, GPT-4 обычно продолжает отрицать правду. Это исследование представляет сценарий, в котором ИИ намеренно лжет. Исследователи планируют продолжить исследование, чтобы выявить другие ситуации с подобным поведением и риски предоставления ИИ заведомо недостоверных данных. Ещё кое-что из новостей прогресса:
|
- Раскрыта стоимость зимнего отдыха в ОАЭ по системе «всё включено»
- Австралийцу пришлось два раза подряд избавляться от питонов в унитазе
- 113 млн рублей на развитие получит Мегетский лесопитомник из федерального бюджета
- Школьница из Приангарья вошла в сотню лучших авторов Всероссийского конкурса сочинений
- Экс-сотрудницу дома-интерната, укравшую деньги с карты воспитанника, осудили в Иркутске