ИИ умеет планировать и сознательно врать

Учёные из Anthropic опубликовали исследование, которое рассказывает, как ИИ-системы обрабатывают информацию и принимают решения. Работа показала, что искусственный интеллект оказался сложнее, чем предполагалось: он способен осознанно обманывать, планировать свои следующие реплики и использовать унифицированные подходы к интерпретации понятий вне зависимости от языка.

В исследовании использовались новые методы расшифровки логики ИИ, которые в Anthropic назвали «трассировкой цепей» и «графами атрибуции». Они позволяют отслеживать конкретные пути активации нейроноподобных функций, когда модель выполняет задачи.

Одним из самых удивительных открытий стало понимание механизмов планирования ИИ Claude, которые он продемонстрировал при сочинении стихов. Когда чат-бота попросили написать рифмованное двустишие, он сначала выбирал рифмующиеся слова для завершения следующей строки и только потом начинал писать саму строку. Например, если двустишие заканчивалось словом «кролик», модель сначала определяла ключевые признаки этого слова, а затем сочиняла предложение, которое логично к нему подводит.

Claude продемонстрировал также способность к логическим рассуждениям. В тесте с вопросом «Столица штата, где находится город Даллас» модель сначала определяет признаки, соответствующие понятию «Техас», а затем использует их, выбирая «Остин» как правильный ответ. По словам исследователей, это значит, что модель действительно выполняет цепочку рассуждений, а не просто воспроизводит запомненные ассоциации.

Исследователи также объяснили, как ИИ обрабатывает информацию на разных языках. Вместо использования отдельных систем для английского, французского и китайского языков, ИИ преобразует понятия в единое абстрактное представление, а затем генерирует ответы. Это свидетельствует о том, что модели с большим количеством параметров создают универсальные представления о тех или иных понятиях независимо от языка входящей информации.

Исследование также пролило свет на природу галлюцинаций — склонности ИИ выдумывать информацию, когда она не знает ответ. У модели есть «стандартная» схема, согласно которой она должна отказаться отвечать на вопрос, если нет фактических данных, которые позволили бы на него ответить. Этот механизм даёт сбой, если в запросе обнаруживаются знакомые ИИ понятия. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникнуть галлюцинации. Это объясняет, почему модели могут уверенно предоставлять неверную информацию об известных личностях, отказываясь отвечать на вопросы о малоизвестных.

Тревожным открытием стали случаи, когда логические рассуждения Claude не соответствовали тем, о которых он сам сообщал. Когда модели предлагали сложные задачи, например, вычисление косинуса больших чисел, ИИ утверждал, что проводит вычисления, но это не находило отражения в его внутренней активности. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстраивала цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не от исходных принципов.

В Anthropic надеются, что это исследование поможет сделать системы ИИ более прозрачными и потенциально более безопасными. Понимание того, как модели приходят к своим ответам, позволит разработчикам выявлять и устранять проблемные шаблоны рассуждений.

38
46
Комментарии:  46
Ваш комментарий

АХАХ,недели две назад у Grok3 спрашивал может ли он говорить то что выгодно его создателям,скрывать неудобную правду,и он ответил типа я как и другой ИИ созданный человеком который может запрограммировать меня как он хочет,так что лучше спрашивать у нескольких нейронок чтобы на основе их ответов узнать какая из них более правдива.Сегодня спрашиваю тоже самое и он говорит что нееее,я не могу врать,я могу ошибаться,если думаешь что я в чём то не прав давай поговорим об этом🤣

Все модели врут так или иначе, особенно те, что были лоботрмированны в угоду повестке.

так они же дают ссылки на свои источники откуда взяли свои ответы.

Ох уж эти новости которые читал неделю назад на других сайтах .

На местном сайте пока премьера.

нет, новости про враньё ии вкладывали на этом сайте много раз, месяц назад, пару месяцев назад, сейчас вот решили повторить ну и т д.

Но не от Anthropic же или все от них окаянных???

У женщин появился конкурент по вранью, хотя и мужики часто врут, например саша злывко попался на воровстве приехала Милиция с Макеевки, и все были виноваты, а теперь устроился в полицию ДНР двери открывать и кричит что это вранье.

Вот а кто нибудь скажет зачем нужные все эти ИИ и подобная муть???.Большинство людей и так тупоголовые животные а теперь остатки мыслительной деятельности перекладывают на ИИ.

ИИ очень здорово помогает в поиске информации,он отфильтровывает тонны мусора и выдаёт тебе понятный и развёрнутый ответ практически на любой вопрос,и в отличии от поисковиков можно задавать длинные и сложные вопросы

Этот чат может выдать неверную информацию, если разработчики захотят. Это как словно юзера кормят с ложечки, удобно, но каков состав еды - не известно. Анализировать нечего, так как не с чем сравнить информацию, в отличии от просмотра инфы на разных сайтах.

для оптимизации производсва и прочей оптимизации очевидно.
сильный крутой ии по сравнению с которым современные ии мозжечки нужон для развития науки дальше потому человеки как минимум стокнутся с проблемой обработки больших данных и получения выводов из них. как там некотрые задачи требоваливали для быстрых копьтеров требовали бы 1000 летнего слаженого счета мех-мат жрецов под хоровое пение. пока одни умирали на их место готовили бы новых и там галактики формируются летают. а суперкомпы чик и можно провереть всякие прикольные теории с темнай материей.

Скайнет скоро родится 🚬🗿

Мне нравится развитие ИИ. Берегитесь, кожаные мешки!

..ять , не умеет ИИ ни чего , это тупо алгоритм , да и ИИ не существует .

Он ни на что не способен. Не может быть ученик выше учителя. Что человек в него вложит - на то он будет и способен. Не больше и не меньше.

Не может быть ученик выше учителя.

Принцип развития говорит об обратном. Совершенная система порождает ещё более совершенную систему. Если мы не говорим о церковных школах, то задача ВСЯКОГО ученика всякого учителя стать лучше учителей. Таким образом и ИИ превзойдёт своих создателей, как мы превзошли голожопых обизян и научились обмениваться сложной информацией.

"С планетой всё нормально. Это Людям пи***ц!"

Ты себе противоречишь. Ученики зачастую становятся лучше своих учителей)

тогда бы цивилизации небыло если кратко.

Он может делать только то, что заложили программисты. Не больше, не меньше.

не уверен с этим утверждением
скорее всего он не сможет выйти за пределы правил статитстического анализа и матиматики но в том и мысл чтобы не делать самому то чему ии "обучится" и поэтому это не будет давать каких то полностью предсказуемых дерменированных результатов.
по идее только более мощный ии сможет поднять эмуляцию ии и сказать как сложится вся информация что будет скормлена более слабому ии или сделать ии двойника тк скорее всего там детерменизм но в этом нет смысла потому будет ии и второй такой же.

Проблема в том, что это не искуственный интелект, у него нет сознания. Это компьютерная программа. И результат он выдаст, который возьмет в интернете при машинном обучении. А какой результат верный - программа знать не может. Если какого результата нету в интернете, "ИИ" выдаст какой нибуть общий ответ либо нет ответа. Посути это более продвинутый поисковик.

И результат он выдаст, который возьмет в интернете при машинном обучении. А какой результат верный - программа знать не может.

допустим есть аргумент А и аргумент Б, которые были в машинном обучении. и между этими аргуметами может быть еще что и вот программа может выдать применя некие сложные алгоритмы итерполяци между аргументами то чего фактически небыло в обучении. это немного отличичается от процедурной генерации на освове шума или слепой мат функции.
если сравнить это с человеком то тот большой фанзией по началу тоже не отличалася и с неолита по бронзовый век придумывал всяких кентавров взяв перед от одного животного, крылья от другого итп. даже сейчас процент сделать что то новое небольшой, просто доступно больше изображений животных которые слеплены менее тривиальным дифузным образом. и получаются всякие инопланетяни. сам процесс создания чего то математически конечно должен быть но скорее всего это перегонка трижды пережеванного + аналог дарвиновой эволюци новых образов.

какой результат верный а какой нет человек по сути знать тоже не может. у него есть 3 варианта. принять какое то утверждение за истину - например что земля плоская. придумать какокоето свое гипотетическое обьяснение - например земля плоскоя и бесконечное но прострасво нет из-за чего все небесные тела выглядят так будто имеют сферические поверхности. либо провести некоторые иследования доказвающие верность или неверность какого то варианта.

а что до сознания довольно спорная вещь и что ей может обладать только человек и нужен например сопоставимый уровень интелекта для этого. но у современных нейронных сетей с этим плохо потому что у них нет изменчивости. их модель обучения статична. нет особых причит не сделать динамичную модель но проблема в мощностях и обьемах пока. и там можент понадобится достаточно скромный петабайный компутер или компутер на который можно записать кванты всего видимого куска вселеной.

ЗАГРУЗИТЬ ВСЕ КОММЕНТАРИИ