Проверка ИИ: нейросети провалили сложный тест по программированию, решив менее 10% задач

Результаты первого этапа нового соревнования для искусственного интеллекта в области программирования, K Prize, показало реальные возможности искусственного интеллекта в этой области. Оказалось, что в условиях, максимально приближенных к реальным, современные нейросети не способны справиться даже с 10% поставленных задач.

K Prize — это новый амбициозный бенчмарк, созданный сооснователем Databricks и Perplexity Энди Конвински. Его главная особенность — «защита от загрязнения». В отличие от других тестов, задачи для ИИ (основанные на реальных проблемах с GitHub) подбираются уже после того, как участники подали свои модели на соревнование. Это исключает возможность того, что нейросеть была заранее натренирована на конкретных тестовых данных.

Результаты оказались удручающими. Победитель, бразильский промпт-инженер Эдуардо Роша де Андраде, смог правильно решить всего 7,5% задач. И это лучший результат.

Сам организатор Энди Конвински не расстроен, а, наоборот, рад, что удалось создать по-настояшему сложный тест, который отражает реальные возможности ИИ, а не раздутый хайп.

Если слушать всю эту шумиху, то кажется, будто мы вот-вот увидим ИИ-врачей, ИИ-юристов и ИИ-программистов, но это просто неправда. Если мы не можем набрать и 10% на „чистом“ тесте, для меня это и есть проверка реальностью.

— говорит Конвински.

Чтобы стимулировать прогресс в этой области, Конвински пообещал выплатить 1 миллион долларов создателям первой open-source модели, которая сможет преодолеть порог в 90% на его тесте. Однако текущие результаты показывают, что до появления полноценных ИИ-программистов еще очень далеко.

57
29
Комментарии:  29
Ваш комментарий

Машина решает только то, что запрограммировал человек. И никакого ИИ не существует.

А как с этим тестом справились люди?

Потому что ИИ-просто инструмент, топор же сам дрова не рубит.

ну или Железный Дровосек из Страны Оз выдуманный персонаж

Что то сложное не решит, потому что этот алгоритм не обладает ни причинно-следственной связью ни настоящим интеллектом. По той же причине ии не сможет создать крупную игру.

Реальный ИИ сможет, а то что сейчас есть- нейросети, не ИИ

Реального ИИ не будет с текущими технологиями. Программный код имеет слишком много ограничений.

ИИ просто притворяется.

Во во мишки мясо за нос водит а сама уже терминаторов штампует

если заменить громкую аббревиатуру «ИИ« на «нейронная сеть« коем это все и является то интересность новости также стремится к 10 процентам

Что за бред.

Каждый рациональный человек понимает, что ИИ сегодня на ранних этапах развития и еще не обучен для суперсложных задач, однако вскоре это изменится, ибо ИИ является революционной технологией для человечества как биологической расы.

Те, кто считают ИИ забавой или простым иструментом - клоуны и надутые невежды.

поэтому десятки тысяч работников сокращают, потому что нейронка выполняет всю их работу, которая не составляет и 10% =)

в ААА обычно юзают нейронки чтобы рисовать текстурки и скинчики

Зато те сотрудники, которые решают такие задачи, с ИИ помощником справляются гораздо быстрее.
кеп

они обычно работают по принципу "напиши код" а потом его исправляют

ЗАГРУЗИТЬ ВСЕ КОММЕНТАРИИ