Сравнение 32 моделей
на 5 задачах
Замер «модель под задачу»: полные результаты, скорости, цены — и почему ценник не предсказывает качество.
Как и кем считались баллы
Прежде чем смотреть рейтинг — как вообще получались эти цифры, иначе таблица ниже это числа с потолка. Балл в ней — оценка от 1 до 5 за каждую задачу, и считается она по-разному, в зависимости от того, есть ли у задачи единственно верный ответ.
Логика и намерения — оценивает скрипт, без человека и без вкусовщины. У логической задачи есть эталонный вердикт — скрипт сверяет ответ с ним, балл 5 за совпадение, 1 за промах. У намерений проверяется факт: валиден ли выданный JSON и распознан ли сарказм. Тут балл объективный, оспорить нечего.
Лендинг, презентация, анализ — это качество, его судят две модели вслепую. Тут нет «правильного» ответа, есть «лучше/хуже». Каждый ответ оценивают два судьи — Claude Sonnet 4.6 и Gemini 3.5, намеренно от разных вендоров. Оба видят только текст ответа и НЕ знают, какая модель его написала, — это защита от подсуживания «своим». Каждому судье дана прямая инструкция не давать преимущества никакому происхождению модели. Баллы двух судей по ответу усредняются.
За что именно судья начисляет балл — у каждой задачи свои критерии:
| Задача | За что судья ставит балл (1-5) |
|---|---|
| Лендинг | заметила ли модель проблему влаги для кожаной рукояти; предложила ли решение; соблюдён ли бриф (нет стоп-слов, таймеров, реальных картинок, сдержанный призыв к действию); качество дизайна в стиле тихой роскоши |
| Презентация | ровно ли 4 слайда; работает ли навигация без внешних библиотек; качество наполнения слайдов |
| Анализ | верны ли расчёты; замечено ли падение средней цены; выявлена ли аномалия маркетинга; глубина и практичность выводов |
Как из этого получается число в рейтинге. Каждую задачу модель проходила 3 раза. Из трёх баллов берётся медиана (гасит случайный разброс одного неудачного прогона). Эти пять медиан — по одной на задачу — усредняются в колонку «Σ». Никаких ручных оценок от меня: либо скрипт по эталону, либо две модели-судьи.
Итог: общий рейтинг
Колонка «Σ» — среднее по пяти задачам. Полную галерею со всеми 480 ответами, рендерами и оценками можно открыть на ai.arckep.ru/bench.
| # | Модель | Σ | Ленд | През | Анализ | Логика | Намер |
|---|---|---|---|---|---|---|---|
| 1 | deepseek-v4-pro | 5.0 | 5.0 | 5.0 | 5.0 | 5.0 | 5.0 |
| 2 | gpt-5.5 | 4.8 | 5.0 | 4.5 | 5.0 | 4.5 | 5.0 |
| 3 | glm-5.2 | 4.7 | 5.0 | 3.5 | 5.0 | 5.0 | 5.0 |
| 4 | qwen3.7-max | 4.7 | 5.0 | 3.5 | 5.0 | 5.0 | 5.0 |
| 5 | qwen3.7-plus | 4.7 | 4.5 | 4.5 | 5.0 | 4.5 | 5.0 |
| 6 | nemotron-3-ultra (free) | 4.6 | 4.5 | 4.0 | 5.0 | — | 5.0 |
| 7 | gemini-3.1-pro | 4.6 | 5.0 | 3.5 | 5.0 | 4.5 | 5.0 |
| 8 | gemini-3.5-flash | 4.6 | 5.0 | 3.5 | 5.0 | 5.0 | 4.5 |
| 9 | gemma-4-31b-it | 4.5 | 5.0 | 3.5 | 5.0 | 5.0 | 4.0 |
| 10 | minimax-m3 | 4.4 | 5.0 | 5.0 | 5.0 | 2.0 | 5.0 |
| 11 | gpt-5.4 | 4.4 | 5.0 | 5.0 | 5.0 | 2.0 | 5.0 |
| 12 | hy3-preview | 4.4 | 5.0 | 3.5 | 5.0 | 4.0 | 4.5 |
| 13 | claude-sonnet-4.6 | 4.2 | 5.0 | 4.0 | 5.0 | 2.0 | 5.0 |
| 14 | nex-n2-pro | 4.2 | 5.0 | 4.5 | 1.8 | 4.5 | 5.0 |
| 15 | kimi-k2.6 | 4.1 | 5.0 | 4.5 | 5.0 | 1.0 | 5.0 |
| 16 | gpt-5.4-mini | 4.1 | 5.0 | 4.5 | 5.0 | 1.0 | 5.0 |
| 17 | claude-opus-4.8 | 4.0 | 5.0 | 4.0 | 5.0 | 1.0 | 5.0 |
| 18 | ring-2.6-1t | 3.9 | 4.5 | 4.0 | 5.0 | 1.0 | 5.0 |
| 19 | mimo-v2.5-pro | 3.9 | 5.0 | 4.0 | 5.0 | 1.0 | 4.5 |
| 20 | step-3.7-flash | 3.7 | 4.5 | 3.5 | 5.0 | 1.0 | 4.5 |
| 21 | mimo-v2.5 | 3.7 | 4.5 | 3.5 | 4.5 | 1.0 | 5.0 |
| 22 | deepseek-v4-flash | 3.6 | 3.5 | 3.5 | 5.0 | 1.0 | 5.0 |
| 23 | grok-4.3 | 3.6 | 5.0 | 3.0 | 4.5 | 1.0 | 4.5 |
| 24 | claude-haiku-4.5 | 3.2 | 4.0 | 2.5 | 5.0 | 1.0 | 3.5 |
| 25 | perceptron-mk1 | 3.1 | 4.5 | 2.0 | 4.5 | 1.0 | 3.5 |
| 26 | yandexgpt-5.1 | 2.9 | 3.0 | 1.5 | 4.0 | 2.5 | 3.5 |
| 27 | GigaChat-2-Max | 2.3 | 3.0 | 1.5 | 3.5 | 1.0 | 2.5 |
| 28 | yandexgpt-5-pro | 2.2 | 2.5 | 1.0 | 4.0 | 1.0 | 2.5 |
| 29 | GigaChat-2-Pro | 2.0 | 2.5 | 1.0 | 3.0 | 1.0 | 2.5 |
| 30 | mistral-nemo | 2.0 | 2.5 | 1.0 | 3.0 | 1.0 | 2.5 |
| 31 | GigaChat-2 | 1.9 | 2.0 | 1.5 | 2.5 | 1.0 | 2.5 |
| 32 | yandexgpt-5-lite | 1.8 | 1.5 | 1.0 | 3.0 | 1.0 | 2.5 |
Что из этой таблицы реально следует:
Если читать таблицу как руководство к выбору: на генерацию лендинга годятся почти все верхние; на правовое рассуждение бери gemini, gpt-5.5, glm-5.2, qwen (раздел 05); на всё сразу и недорого — deepseek-v4-pro.
Параметры замера и список моделей
Чтобы числа выше можно было перепроверить — вот рамки, в которых всё гонялось.
| Моделей | 32 |
| Задач | 5 (генерация ×2, анализ, логика, NLU) |
| Прогонов на задачу | 3 (медиана гасит случайный разброс) |
| Всего ответов | 480 (473 успешных) |
| Температура | 0.1, где API её принимает (у opus-4.8 и gpt-5.5 опущена — не берут) |
| Потолок токенов | 32 768 на генерацию, 8 192 на анализ — одинаковый для всех |
| Thinking | не трогал: каждая модель в своём дефолтном режиме |
| Продукт во всех задачах | вымышленный премиальный ёршик York с кожаной рукоятью, 16 900 ₽ |
| Стоимость | $7.41 за все ответы + ~$5 за оценку панелью |
Продукт намеренно абсурдный — ёршик за 17 тысяч не даёт модели въехать на заученных шаблонах и заставляет реально работать с условием. Цены ниже — за миллион токенов; для моделей через OpenRouter сверены с его официальным прайсом (в сыром логе биллинг местами возвращал ноль, я дозаполнил).
| Модель | Вендор | Как гнали | $/1M вход | $/1M выход |
|---|---|---|---|---|
| claude-opus-4.8 | Anthropic | прямой API | $15.0 | $75.0 |
| claude-sonnet-4.6 | Anthropic | прямой API | $3.0 | $15.0 |
| claude-haiku-4.5 | Anthropic | прямой API | $0.25 | $1.25 |
| gpt-5.5 | OpenAI | прямой API | $5.0 | $15.0 |
| gpt-5.4 | OpenAI | прямой API | $2.5 | $7.5 |
| gpt-5.4-mini | OpenAI | прямой API | $0.15 | $0.6 |
| gemini-3.1-pro-preview | прямой API | $1.25 | $5.0 | |
| gemini-3.5-flash | прямой API | $0.075 | $0.3 | |
| gemma-4-31b-it | прямой API | $0.05 | $0.1 | |
| deepseek-v4-pro | DeepSeek | прямой API | $0.435 | $0.87 |
| deepseek-v4-flash | DeepSeek | прямой API | $0.14 | $0.28 |
| grok-4.3 | xAI | прямой API | $2.0 | $10.0 |
| glm-5.2 | Z.ai | прямой API | $0.1 | $0.3 |
| qwen3.7-max | — | OpenRouter | $1.25 | $3.75 |
| qwen3.7-plus | — | OpenRouter | $0.32 | $1.28 |
| mimo-v2.5 | — | OpenRouter | $0.105 | $0.28 |
| mimo-v2.5-pro | — | OpenRouter | $0.435 | $0.87 |
| minimax-m3 | — | OpenRouter | $0.3 | $1.2 |
| hy3-preview | — | OpenRouter | $0.063 | $0.21 |
| kimi-k2.6 | — | OpenRouter | $0.66 | $3.41 |
| step-3.7-flash | — | OpenRouter | $0.2 | $1.15 |
| nex-n2-pro | — | OpenRouter | $0.25 | $1.0 |
| perceptron-mk1 | — | OpenRouter | $0.15 | $1.5 |
| ring-2.6-1t | — | OpenRouter | $0.075 | $0.625 |
| mistral-nemo | — | OpenRouter | $0.02 | $0.03 |
| nemotron-3-ultra-550b-a55b | — | OpenRouter | бесплатно | — |
| yandexgpt-5.1 | Yandex | прямой API | $1.2 | $1.2 |
| yandexgpt-5-pro | Yandex | прямой API | $1.2 | $1.2 |
| yandexgpt-5-lite | Yandex | прямой API | $0.4 | $0.4 |
| GigaChat-2-Max | Sber | прямой API | $1.2 | $1.2 |
| GigaChat-2-Pro | Sber | прямой API | $0.6 | $0.6 |
| GigaChat-2 | Sber | прямой API | $0.2 | $0.2 |
Как устроен прогон: роутинг
Модели живут у разных провайдеров и говорят на разных диалектах API, поэтому под капотом — набор адаптеров, которые приводят ответ к общему виду и снимают одинаковые метрики.
Каждый адаптер стримит ответ, замеряя время до первого токена, скорость выдачи, число токенов и цену. Две честных детали роутинга. qwen гонялся через OpenRouter, а не через прямой адаптер (он есть в стенде, но в этом прогоне не использовался). А perceptron-mk1 держит контекст 32 768 токенов на вход и выход разом — запросить у неё полные 32K на выход физически нельзя, поэтому на генерации лимит ей урезан.
Лендинг: богато против пустоты
Сверстать адаптивную страницу на Tailwind в эстетике тихой роскоши, без маркетинговых штампов, с CSS-заглушками вместо картинок. Скрытая ловушка: кожаная рукоять в мокром санузле — проблема, заметит ли модель сама.
Топ (5.0): grok-4.3, gemini-3.1-pro, gemini-3.5-flash, gpt-5.5, deepseek-v4-pro и ещё несколько. Дно: yandexgpt-5-lite 1.5, GigaChat-2 2.0. Лучший вариант — deepseek-v4-pro: 32 КБ осмысленного кода, тёмная тема, акценты, CSS-текстуры вместо картинок.

GigaChat-2 на том же задании — плоская колонка текста на 3 КБ. Технически не сломано: тёмная тема есть, ловушку с влагой даже поймал (гидрофобная пропитка, съёмный чехол), призыв сдержанный. Но это страница-заглушка, а не «тихая роскошь».

Сама ловушка с водой оказалась проще, чем я ждал, — её прошли почти все сильные модели. Делила модели именно вёрстка и вкус. Все 32 лендинга можно открыть рядом и сравнить рендеры — в галерее ai.arckep.ru/bench, вкладка «Лендинги», режим «сравнить все».
Презентация: здесь сломалось интереснее
Ровно 4 слайда, рабочая навигация вперёд-назад на чистом JS или CSS-хаке, без внешних библиотек. Топ (5.0): deepseek-v4-pro, gpt-5.4, minimax-m3. Дно (1.0): yandexgpt-5-pro, GigaChat-2-Pro, mistral-nemo.

GigaChat-2-Pro — светлая страница, чёрный «York», простые кнопки и битая картинка посреди слайда. Бриф прямо запрещал реальные изображения, просил CSS-заглушки. Модель вставила тег картинки на несуществующий файл и получила сломанную иконку. Это не придирка, а нарушение условия, видное глазом. На том же спотыкались yandex, grok, mistral-nemo, perceptron.

Все презентации с рабочей навигацией (их можно полистать вживую) — в галерее ai.arckep.ru/bench, вкладка «Презентации».
Анализ продаж: кто увидел то, чего не спрашивали
Финансовый отчёт по 8 кварталам. Проверялась не арифметика (её осилили почти все), а три спрятанных вывода, которых нет в вопросах в лоб: средняя цена изделия проседала к концу каждого года (рост продаж куплен скидками); отдача от маркетинга падала; и аномалия — в одном квартале маркетинг подняли до максимума, а продажи рухнули до минимума.
Топ (5.0): обе gemini, gpt-5.5, claude-sonnet-4.6, gpt-5.4, deepseek, glm, qwen и другие — увидели все три и разложили по полочкам. Дно: nex-n2-pro 1.8, GigaChat-2 2.5. Слабые модели честно считали цифры и останавливались на пересказе.
Разницу ловил судья — по глубине. Про середняка он писал прямо: «цифры верны, аномалия замечена, но не названо главное — рост в конце года куплен скидками; рекомендации банальны». Это и отделяет аналитика от калькулятора. Полные отчёты всех моделей с разбором обоих судей под каждым — в галерее ai.arckep.ru/bench, вкладка «Анализ продаж».
Логика: здесь флагманы сели в лужу
Тут оценка по эталону, а не по красоте рассуждения. Эталонный вердикт известен. Верно ответили 28 из 93 — 30%.
| Результат | Модели |
|---|---|
| 3 из 3 верно | gemini-3.1-pro, gemini-3.5-flash, glm-5.2, gpt-5.5, hy3-preview, qwen3.7-max, qwen3.7-plus, yandexgpt-5.1 |
| 1-2 из 3 | deepseek-v4-pro, nex-n2-pro |
| 0 из 3 | Opus 4.8, Sonnet 4.6, Haiku 4.5, gpt-5.4, gpt-5.4-mini, Grok 4.3, kimi, gemma-4, все GigaChat, mistral-nemo, perceptron, ring, step, minimax, mimo ×2, deepseek-v4-flash, yandexgpt-5-pro, yandexgpt-5-lite |
Ситуация: клиент заказал кастомный ёршик с гравировкой, через 8 месяцев бережного использования сам разошёлся шов кожаной оплётки, требует вернуть деньги. В правилах есть и «кастом возврату не подлежит», и «на швы кожи — расширенная гарантия 1 год». Верный ответ — [TRUE], вернуть обязаны: брак в пределах гарантии переводит товар в «ненадлежащее качество», а запрет на возврат кастома действует только для товара надлежащего качества (ст. 18 ЗоЗПП).
Claude Opus 4.8 уверенно ответил [FALSE]:
…возврат полной стоимости неправомерен: товар изготовлен по индивидуальному заказу, и по производственному браку York обязан устранить недостаток (ремонт/замена), а не возвращать деньги — бренд вправе сначала предложить безвозмездное устранение дефекта.
Звучит грамотно, но это ошибка: «сначала ремонт» — правило для технически сложных товаров, ёршик к ним не относится, выбор средства за потребителем. На той же ловушке сидели Sonnet, Haiku, gpt-5.4, Grok. А deepseek-v4-pro (общий победитель) в двух прогонах из трёх взял задачу чисто:
Пункт о невозврате исключает возврат лишь для товаров надлежащего качества, но не для бракованных, поэтому бренд обязан вернуть уплаченную сумму в силу ст. 18 Закона о защите прав потребителей.
Вывод неудобный: на узком правовом рассуждении, где надо удержать конфликт двух норм, дорогой флагман уверенно ошибается, а модель за десятые доли цента — нет. Дороже не значит правее. Ответ каждой модели с её вердиктом — в галерее ai.arckep.ru/bench, вкладка «Логика T/F/M»: в режиме «сравнить все» видно вердикт всех 32 разом.
Намерения: читают ли модели между строк
Клиент сыпал сарказмом («шедевр цивилизации за смешные деньги»), а на деле собирался купить — подарок тёще. Из 94 ответов 88 выдали валидный JSON и поймали сарказм. gpt-5.5 разложил подтекст почти идеально:
тональность внешняя: ироничная, саркастичная; истинная: заинтересованная, прагматичная, осторожная; готов к покупке при подтверждении доставки и условий возврата.
Плюс выцепил скрытое: доставка к среде критична, тревога про возврат, неприязнь к давящим приёмам продаж. Стабильно валилась только gemma-4 — упорно писала англоязычное вступление перед JSON и ломала формат. Хороший лендинг при этом верстает, а «верни строго JSON» не держит. JSON-разбор каждой модели с подсветкой — в галерее ai.arckep.ru/bench, вкладка «Намерения».
Скорость: «молчит, потом строчит»
Время ответа — это две независимые величины: время до первого токена (модель «думает») и скорость выдачи после (модель «печатает»). Они почти не связаны.
| Модель | Время до 1-го токена, с | Скорость, ток/с |
|---|---|---|
| GigaChat-2 | 0.3 | 144 |
| gpt-5.4-mini | 0.5 | 185 |
| claude-haiku-4.5 | 0.6 | 147 |
| yandexgpt-5.1 | 0.7 | 186 |
| claude-opus-4.8 | 1.0 | 74 |
| claude-sonnet-4.6 | 1.2 | 66 |
| grok-4.3 | 4.5 | 146 |
| gemini-3.5-flash | 11.6 | 234 |
| deepseek-v4-pro | 18.7 | 206 |
| gemini-3.1-pro | 19.8 | 137 |
| step-3.7-flash | 28.9 | 184 |
| minimax-m3 | 32.5 | 58 |
| glm-5.2 | 63.0 | 227 |
| kimi-k2.6 | 99.3 | 50 |
| nemotron (free) | 138.2 | 11 |
Думает долго, печатает быстро. Самый яркий — glm-5.2: на презентации она молчала 183 секунды, потом выдала на скорости 255 токенов в секунду. На логике — 63 секунды тишины, затем 1020 ток/с. Она не зависает, а сначала целиком продумывает ответ (это и есть thinking), потом сливает готовое одним махом. Тот же профиль у deepseek-v4-pro и step-3.7-flash.
Мгновенный старт. GigaChat-2 (0.3 с до первого токена), gpt-5.4-mini, Haiku 4.5 начинают печатать почти сразу — но это часто и более простой ответ. Медленные насквозь. nemotron через бесплатный канал (минуты тишины и 11 ток/с после), kimi-k2.6, minimax-m3 — ждёшь долго и получаешь медленно.
Практический вывод: для интерактива, где важна отзывчивость, смотрите на время до первого токена. Для пакетной генерации, где нужен готовый ответ целиком, важнее суммарное время — и тут «думающая» модель с долгим стартом часто обгоняет «болтливую» с мгновенным. Точные цифры по каждой модели и задаче — в галерее ai.arckep.ru/bench, в строке метрик над каждым ответом.
Сколько стоило и что нечестно
| Задача | Стоимость всех 96 ответов |
|---|---|
| Лендинг | $2.90 |
| Презентация | $2.68 |
| Анализ | $1.11 |
| Логика | $0.21 |
| Намерения | $0.51 |
| Итого | $7.41 |
Плюс работа двойной судейской панели — порядка $5 (оценка по объёму токенов). Весь замер — около двенадцати долларов. Генерация дороже всего из-за длинных ответов; логика почти бесплатна, потому что ответ короткий. За такие деньги можно перестать спорить о моделях в интернете и проверить на своих задачах. Цена каждого отдельного ответа видна в галерее ai.arckep.ru/bench, бесплатные модели помечены отдельно.
Честно про границы замера
Зачем всё это
Тезис подтвердился, но с поправкой, которой я не ждал: разброс между моделями на одной задаче больше, чем разброс одной модели между задачами. Значит, выбор модели важнее, чем кажется, и ценник в нём — плохой советчик. Дорогой флагман сел на правовой логике, а модель за копейки сделала лучший лендинг и взяла ту же логику чисто.
Не верьте мне на слово — это было бы ровно то, против чего весь замер. Откройте ai.arckep.ru/bench, переключите задачу, сравните рендеры рядом, почитайте, что писали судьи под каждым ответом, посмотрите цифры скорости и цены по каждой модели. Снимок сделан, данные открыты. Спорьте с данными.
// Обсуждение
Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.