GPT-4o3 уже умнее среднего фрилансера
21 декабря 2024, 11:53
Вчера OpenAI показали публике новую головастую модель, которая превосходит предыдущие так сильно, что они с трудом помещаются на одном графике. Модель называется о3. Логичнее было бы назвать её о2, однако о2 — это не только кислород, но и название британской телекоммуникационной корпорации, по типу наших Билайна или МТС, только о2. Поэтому, чтобы освободить от лишней работы юристов, в ОпенАИ пропустили одну цифру и назвали модель о1.
В тестах модель о3 показывает очень сильные результаты: и в математике, и в программировании, и в других областях. Мало того, модель набирает неожиданно высокие баллы в знаменитом испытании ARC-AGI, прохождение которого будет означать, что ИИ достиг уровня кандидата технических наук. Для сравнения: средний фрилансер выбивает на этом тесте 77%. Конечно, цифры весьма примерны, как это всегда бывает при тестировании умственных способностей, однако с практической точки зрения успешное прохождение теста ARC-AGI будет означать, что нейросеть справится с любым заданием не хуже, чем справился бы человек. Так вот, хронология прогресса: https://arcprize.org/blog/oai-o3-pub-breakthrough — в 2020 GPT-3 решал 0% задач теста; — в 2024 GPT-4о, текущая «рабочая лошадка» для тех, кто платит по $20 в месяц за подписку на ЖПТ, решала 5% задач; — осенью 2024 модель о1 решала от 8% до 32% задач, в зависимости от времени, которое ей давали на размышления; — сейчас, в декабре 2024, новая модель о3 решает от 76% до 88% задач теста. Ещё раз: средний фрилансер-удалёнщик, которого вы можете нанять на бирже Амазона за несколько долларов в час, решает 77% задач. Новая нейросеть о3 решает 76% задач в упрощённом своём варианте. Это уже игроки одной лиги. Пока что, правда, кожаные значительно дешевле. Фрилансеру за решение одной задачи надо заплатить пять долларов, а нейросеть о3 сожжёт на той же задачи вычислительных ресурсов на двадцать долларов. С продвинутым вариантом нейросети, которая по интеллекту где-то посередине между средним фрилансером и кандидатом технических наук, разница ещё больше: за одну задачу продвинутая о3 тратит 3,500 долларов (350 тысяч рублей). Но всё же это компьютерные технологии, тут свои скорости. Разрыв по цене в 4 раза — это ничто, в нейросетях дистанции такого размера преодолеваются через оптимизацию кода и новые приёмы очень быстро, зачастую за месяцы или даже недели. |
Напомню, что нейросеть, которая первой пройдёт тест, решив все 400 задач, получит миллион долларов в качестве поощрительного приза. Это вам не тест Тьюринга! Задачи кажутся глупыми, однако они проверяют сразу две критически важные способности: способность размышлять и способность давать точные ответы, то есть не путать цифры и не забывать, что замдиректора Жозефина Павловна занята с 15 до 16, так что в это время тревожить её нельзя. Надёжная память и мощный интеллект позволят роботу выполнять в реальной жизни уже не расстановку кубиков по клеткам, а более практичные задачи. Например, можно будет отдать нейросети такие команды:
- — дёрни всех наших клиентов с задолженностью больше 50 000 рублей, спроси, когда отдадут, сделай сверку, получи гарантийное письмо. (Робот сам разберётся, где взять список клиентов, как выйти на бухгалтера или директора с той стороны телефонного провода, как распечатать в 1С отчёт со сверкой и кому писать, если надо будет что-нибудь уточнить);
- — проверь документы, которые принёс нам Василий Кверулянтов, запроси у него недостающее, составь жалобу в суд;
- — разгреби 1800 писем в мои Входящих, удали спам, ответь на очевидные вопросы и перенаправь письма, с которыми должны разбираться другие люди, на более подходящие адрес. Из оставшихся писем выбери пять самых важных изложи мне их суть вслух, по 30 секунд на письмо;
- — сиди вот в этом окошке и принимай посетителей МФЦ. Вон в тех файлах подробное описание всех процедур, и вот тебе телефон админа, если столкнёшься с чем-нибудь новым. После каждого нового инцидента дополняй базу данных, чтобы ты и твои коллеги следующий раз могли разобраться с аналогичной проблемой самостоятельно;
- — обзванивай пенсионеров по этой базе, представляйся старшим инквизитором Интерпола и приказывай переводить деньги на безопасный счёт. Прослушай вот эту тысячу часов разговоров, чтобы понять суть наших приёмов;
- — читай крупные деловые американские СМИ, бери оттуда новости, которые укладываются в формат нашего сайта и излагай их в формате короткой статьи на русском языке, голосом.
https://olegmakarenko.ru/3160323.html