ИИ заставили играть в игры
Исследователи из США использовали видеоигры для оценки эффективности моделей искусственного интеллекта. Компания Hao AI Lab, основанная на базе Калифорнийского университета в Сан-Диего, представила новый бенчмарк для оценки качества ИИ. Они использовали игру Super Mario Bros. 1985 года для изучения моделей ИИ. С помощью фреймворка GamingAgent модели смогли воспроизводить и симулировать игровой опыт. Лучшей в тестах оказалась модель Claude 3.7 от Anthropic, за ней следовали Gemini 1.5 Pro от Google и GPT-4o от OpenAI. Исследователи отметили, что даже самая успешная модель проигрывала начинающему геймеру из-за нехватки времени на принятие решений в игре. Андрей Карпатый из OpenAI отметил, что в настоящее время нет четких метрик для оценки эффективности моделей генеративного искусственного интеллекта. Инженеры OpenAI провели исследование, показав, что ИИ-модели пока не способны заменить даже новичка-программиста из-за недостаточного понимания контекста.
Больше новостей на сайтах Медиахолдинга