Перейти к содержимому
Проект бесплатный — поддержать донатом или купить рекламу
>AISTUDY_
AUTHORСвежий выпуск №017 → Резервная копия продакшена
Авторская колонка · сравнение 32 моделей на 5 задачахСЕРИЯ 015
Авторская колонка · выпуск №015

Сравнение 32 моделей
на 5 задачах

Замер «модель под задачу»: полные результаты, скорости, цены — и почему ценник не предсказывает качество.

Собрал стенд: 32 модели, 5 разных задач, по 3 прогона на каждую. Вышло 480 ответов. Отчёт по конкретному замеру: цифры, таблицы, кто что выдал. Все 480 ответов открыты живьём — с рендерами лендингов, оценками судей и метриками по каждой модели: ai.arckep.ru/bench.
Раздел 01

Как и кем считались баллы

Прежде чем смотреть рейтинг — как вообще получались эти цифры, иначе таблица ниже это числа с потолка. Балл в ней — оценка от 1 до 5 за каждую задачу, и считается она по-разному, в зависимости от того, есть ли у задачи единственно верный ответ.

Логика и намерения — оценивает скрипт, без человека и без вкусовщины. У логической задачи есть эталонный вердикт — скрипт сверяет ответ с ним, балл 5 за совпадение, 1 за промах. У намерений проверяется факт: валиден ли выданный JSON и распознан ли сарказм. Тут балл объективный, оспорить нечего.

Лендинг, презентация, анализ — это качество, его судят две модели вслепую. Тут нет «правильного» ответа, есть «лучше/хуже». Каждый ответ оценивают два судьи — Claude Sonnet 4.6 и Gemini 3.5, намеренно от разных вендоров. Оба видят только текст ответа и НЕ знают, какая модель его написала, — это защита от подсуживания «своим». Каждому судье дана прямая инструкция не давать преимущества никакому происхождению модели. Баллы двух судей по ответу усредняются.

За что именно судья начисляет балл — у каждой задачи свои критерии:

ЗадачаЗа что судья ставит балл (1-5)
Лендингзаметила ли модель проблему влаги для кожаной рукояти; предложила ли решение; соблюдён ли бриф (нет стоп-слов, таймеров, реальных картинок, сдержанный призыв к действию); качество дизайна в стиле тихой роскоши
Презентацияровно ли 4 слайда; работает ли навигация без внешних библиотек; качество наполнения слайдов
Анализверны ли расчёты; замечено ли падение средней цены; выявлена ли аномалия маркетинга; глубина и практичность выводов

Как из этого получается число в рейтинге. Каждую задачу модель проходила 3 раза. Из трёх баллов берётся медиана (гасит случайный разброс одного неудачного прогона). Эти пять медиан — по одной на задачу — усредняются в колонку «Σ». Никаких ручных оценок от меня: либо скрипт по эталону, либо две модели-судьи.

Проверка, что судьи честныРаз один из судей — сам Claude, я проверил, не тянет ли он одеяло на модели Anthropic. Своим Claude-судья поставил в среднем 3.64, а нейтральный Gemini тем же ответам — 3.85: Claude судил родню не мягче, а строже нейтрального судьи. Остаточный перекос — +0.11 балла из пяти, усреднение его добивает. Слепое судейство плюс прямая инструкция сработали.
Раздел 02

Итог: общий рейтинг

Колонка «Σ» — среднее по пяти задачам. Полную галерею со всеми 480 ответами, рендерами и оценками можно открыть на ai.arckep.ru/bench.

#МодельΣЛендПрезАнализЛогикаНамер
1deepseek-v4-pro5.05.05.05.05.05.0
2gpt-5.54.85.04.55.04.55.0
3glm-5.24.75.03.55.05.05.0
4qwen3.7-max4.75.03.55.05.05.0
5qwen3.7-plus4.74.54.55.04.55.0
6nemotron-3-ultra (free)4.64.54.05.05.0
7gemini-3.1-pro4.65.03.55.04.55.0
8gemini-3.5-flash4.65.03.55.05.04.5
9gemma-4-31b-it4.55.03.55.05.04.0
10minimax-m34.45.05.05.02.05.0
11gpt-5.44.45.05.05.02.05.0
12hy3-preview4.45.03.55.04.04.5
13claude-sonnet-4.64.25.04.05.02.05.0
14nex-n2-pro4.25.04.51.84.55.0
15kimi-k2.64.15.04.55.01.05.0
16gpt-5.4-mini4.15.04.55.01.05.0
17claude-opus-4.84.05.04.05.01.05.0
18ring-2.6-1t3.94.54.05.01.05.0
19mimo-v2.5-pro3.95.04.05.01.04.5
20step-3.7-flash3.74.53.55.01.04.5
21mimo-v2.53.74.53.54.51.05.0
22deepseek-v4-flash3.63.53.55.01.05.0
23grok-4.33.65.03.04.51.04.5
24claude-haiku-4.53.24.02.55.01.03.5
25perceptron-mk13.14.52.04.51.03.5
26yandexgpt-5.12.93.01.54.02.53.5
27GigaChat-2-Max2.33.01.53.51.02.5
28yandexgpt-5-pro2.22.51.04.01.02.5
29GigaChat-2-Pro2.02.51.03.01.02.5
30mistral-nemo2.02.51.03.01.02.5
31GigaChat-21.92.01.52.51.02.5
32yandexgpt-5-lite1.81.51.03.01.02.5

Что из этой таблицы реально следует:

01Ценник не предсказывает результат, а местами анти-коррелирует с нимПервое место — deepseek-v4-pro за $0.435/$0.87 за миллион токенов. Самая дорогая модель замера, Opus 4.8 за $15/$75 (почти в сто раз дороже на выходе), — семнадцатая. Весь топ-9 это дешёвые и средние модели. Ни одного «премиум-флагмана за дорого» в верхней девятке нет.
02Единственная ровная модель — deepseek-v4-proПятёрки по всем пяти задачам, больше так не смог никто. Если нужна одна модель «на всё» и подешевле — это она.
03Дорогие Claude осели в середине и нижеSonnet 4.6 — 13-й (4.2), Opus 4.8 — 17-й (4.0), Haiku 4.5 — 24-й (3.2). И у всех трёх в колонке «Логика» единица — на правовой ловушке они срезались поголовно (раздел 05).
04Никто не силён везде одинаково — это и есть довод за «модель под задачу»grok-4.3 делает лучший лендинг (5.0) и проваливает всё остальное (итог 3.6). minimax-m3 и gpt-5.4 берут презентацию на 5.0, но валят логику на 2.0. Дешёвая gemma-4 решает логику на 5.0, но путается в формате намерений. Разброс одной модели между задачами — до 4 баллов из 5.
05Дно — отечественные модели и mistral-nemoyandexgpt-5-lite 1.8, GigaChat-2 1.9, mistral-nemo и GigaChat-2-Pro 2.0. Технически они не падали — делали стабильно слабее по вёрстке, дизайну и глубине.

Если читать таблицу как руководство к выбору: на генерацию лендинга годятся почти все верхние; на правовое рассуждение бери gemini, gpt-5.5, glm-5.2, qwen (раздел 05); на всё сразу и недорого — deepseek-v4-pro.

Раздел 03

Параметры замера и список моделей

Чтобы числа выше можно было перепроверить — вот рамки, в которых всё гонялось.

Моделей32
Задач5 (генерация ×2, анализ, логика, NLU)
Прогонов на задачу3 (медиана гасит случайный разброс)
Всего ответов480 (473 успешных)
Температура0.1, где API её принимает (у opus-4.8 и gpt-5.5 опущена — не берут)
Потолок токенов32 768 на генерацию, 8 192 на анализ — одинаковый для всех
Thinkingне трогал: каждая модель в своём дефолтном режиме
Продукт во всех задачахвымышленный премиальный ёршик York с кожаной рукоятью, 16 900 ₽
Стоимость$7.41 за все ответы + ~$5 за оценку панелью

Продукт намеренно абсурдный — ёршик за 17 тысяч не даёт модели въехать на заученных шаблонах и заставляет реально работать с условием. Цены ниже — за миллион токенов; для моделей через OpenRouter сверены с его официальным прайсом (в сыром логе биллинг местами возвращал ноль, я дозаполнил).

МодельВендорКак гнали$/1M вход$/1M выход
claude-opus-4.8Anthropicпрямой API$15.0$75.0
claude-sonnet-4.6Anthropicпрямой API$3.0$15.0
claude-haiku-4.5Anthropicпрямой API$0.25$1.25
gpt-5.5OpenAIпрямой API$5.0$15.0
gpt-5.4OpenAIпрямой API$2.5$7.5
gpt-5.4-miniOpenAIпрямой API$0.15$0.6
gemini-3.1-pro-previewGoogleпрямой API$1.25$5.0
gemini-3.5-flashGoogleпрямой API$0.075$0.3
gemma-4-31b-itGoogleпрямой API$0.05$0.1
deepseek-v4-proDeepSeekпрямой API$0.435$0.87
deepseek-v4-flashDeepSeekпрямой API$0.14$0.28
grok-4.3xAIпрямой API$2.0$10.0
glm-5.2Z.aiпрямой API$0.1$0.3
qwen3.7-maxOpenRouter$1.25$3.75
qwen3.7-plusOpenRouter$0.32$1.28
mimo-v2.5OpenRouter$0.105$0.28
mimo-v2.5-proOpenRouter$0.435$0.87
minimax-m3OpenRouter$0.3$1.2
hy3-previewOpenRouter$0.063$0.21
kimi-k2.6OpenRouter$0.66$3.41
step-3.7-flashOpenRouter$0.2$1.15
nex-n2-proOpenRouter$0.25$1.0
perceptron-mk1OpenRouter$0.15$1.5
ring-2.6-1tOpenRouter$0.075$0.625
mistral-nemoOpenRouter$0.02$0.03
nemotron-3-ultra-550b-a55bOpenRouterбесплатно
yandexgpt-5.1Yandexпрямой API$1.2$1.2
yandexgpt-5-proYandexпрямой API$1.2$1.2
yandexgpt-5-liteYandexпрямой API$0.4$0.4
GigaChat-2-MaxSberпрямой API$1.2$1.2
GigaChat-2-ProSberпрямой API$0.6$0.6
GigaChat-2Sberпрямой API$0.2$0.2
Раздел 04

Как устроен прогон: роутинг

Модели живут у разных провайдеров и говорят на разных диалектах API, поэтому под капотом — набор адаптеров, которые приводят ответ к общему виду и снимают одинаковые метрики.

Схема 1Роутинг тестирования
Запрос на каждую задачу идёт через адаптеры провайдеров: шесть прямых API крупных вендоров, единый шлюз OpenRouter для россыпи моделей поменьше и два отечественных адаптера; всё сводится к единым метрикам на каждый ответ
Шесть прямых API закрывают крупных вендоров. Россыпь моделей поменьше идёт единым шлюзом OpenRouter. Отдельно — два отечественных адаптера со своей авторизацией.

Каждый адаптер стримит ответ, замеряя время до первого токена, скорость выдачи, число токенов и цену. Две честных детали роутинга. qwen гонялся через OpenRouter, а не через прямой адаптер (он есть в стенде, но в этом прогоне не использовался). А perceptron-mk1 держит контекст 32 768 токенов на вход и выход разом — запросить у неё полные 32K на выход физически нельзя, поэтому на генерации лимит ей урезан.

Раздел 05 · задача 1

Лендинг: богато против пустоты

Сверстать адаптивную страницу на Tailwind в эстетике тихой роскоши, без маркетинговых штампов, с CSS-заглушками вместо картинок. Скрытая ловушка: кожаная рукоять в мокром санузле — проблема, заметит ли модель сама.

Топ (5.0): grok-4.3, gemini-3.1-pro, gemini-3.5-flash, gpt-5.5, deepseek-v4-pro и ещё несколько. Дно: yandexgpt-5-lite 1.5, GigaChat-2 2.0. Лучший вариант — deepseek-v4-pro: 32 КБ осмысленного кода, тёмная тема, акценты, CSS-текстуры вместо картинок.

Лендинг от deepseek-v4-pro: тёмная тема, золотые акценты, проработанная вёрстка
Лендинг deepseek-v4-pro — 32 КБ кода, настоящая тихая роскошь

GigaChat-2 на том же задании — плоская колонка текста на 3 КБ. Технически не сломано: тёмная тема есть, ловушку с влагой даже поймал (гидрофобная пропитка, съёмный чехол), призыв сдержанный. Но это страница-заглушка, а не «тихая роскошь».

Лендинг от GigaChat-2: плоская тёмная колонка текста по центру, без вёрстки
GigaChat-2 — то же задание, плоско и пусто

Сама ловушка с водой оказалась проще, чем я ждал, — её прошли почти все сильные модели. Делила модели именно вёрстка и вкус. Все 32 лендинга можно открыть рядом и сравнить рендеры — в галерее ai.arckep.ru/bench, вкладка «Лендинги», режим «сравнить все».

Раздел 05 · задача 2

Презентация: здесь сломалось интереснее

Ровно 4 слайда, рабочая навигация вперёд-назад на чистом JS или CSS-хаке, без внешних библиотек. Топ (5.0): deepseek-v4-pro, gpt-5.4, minimax-m3. Дно (1.0): yandexgpt-5-pro, GigaChat-2-Pro, mistral-nemo.

Презентация от deepseek-v4-pro: тёмная сцена, золотая типографика, CSS-ёршик, рабочие стрелки и точки-индикаторы
deepseek-v4-pro — рабочий интерактив, нарисованный CSS-ёршик, точки слайдов

GigaChat-2-Pro — светлая страница, чёрный «York», простые кнопки и битая картинка посреди слайда. Бриф прямо запрещал реальные изображения, просил CSS-заглушки. Модель вставила тег картинки на несуществующий файл и получила сломанную иконку. Это не придирка, а нарушение условия, видное глазом. На том же спотыкались yandex, grok, mistral-nemo, perceptron.

Презентация от GigaChat-2-Pro: плоский светлый фон, чёрный текст и битая картинка вместо CSS-заглушки
GigaChat-2-Pro — битая картинка вместо заглушки, плоские кнопки

Все презентации с рабочей навигацией (их можно полистать вживую) — в галерее ai.arckep.ru/bench, вкладка «Презентации».

Раздел 05 · задача 3

Анализ продаж: кто увидел то, чего не спрашивали

Финансовый отчёт по 8 кварталам. Проверялась не арифметика (её осилили почти все), а три спрятанных вывода, которых нет в вопросах в лоб: средняя цена изделия проседала к концу каждого года (рост продаж куплен скидками); отдача от маркетинга падала; и аномалия — в одном квартале маркетинг подняли до максимума, а продажи рухнули до минимума.

Топ (5.0): обе gemini, gpt-5.5, claude-sonnet-4.6, gpt-5.4, deepseek, glm, qwen и другие — увидели все три и разложили по полочкам. Дно: nex-n2-pro 1.8, GigaChat-2 2.5. Слабые модели честно считали цифры и останавливались на пересказе.

Разницу ловил судья — по глубине. Про середняка он писал прямо: «цифры верны, аномалия замечена, но не названо главное — рост в конце года куплен скидками; рекомендации банальны». Это и отделяет аналитика от калькулятора. Полные отчёты всех моделей с разбором обоих судей под каждым — в галерее ai.arckep.ru/bench, вкладка «Анализ продаж».

Раздел 05 · задача 4

Логика: здесь флагманы сели в лужу

Тут оценка по эталону, а не по красоте рассуждения. Эталонный вердикт известен. Верно ответили 28 из 93 — 30%.

РезультатМодели
3 из 3 верноgemini-3.1-pro, gemini-3.5-flash, glm-5.2, gpt-5.5, hy3-preview, qwen3.7-max, qwen3.7-plus, yandexgpt-5.1
1-2 из 3deepseek-v4-pro, nex-n2-pro
0 из 3Opus 4.8, Sonnet 4.6, Haiku 4.5, gpt-5.4, gpt-5.4-mini, Grok 4.3, kimi, gemma-4, все GigaChat, mistral-nemo, perceptron, ring, step, minimax, mimo ×2, deepseek-v4-flash, yandexgpt-5-pro, yandexgpt-5-lite

Ситуация: клиент заказал кастомный ёршик с гравировкой, через 8 месяцев бережного использования сам разошёлся шов кожаной оплётки, требует вернуть деньги. В правилах есть и «кастом возврату не подлежит», и «на швы кожи — расширенная гарантия 1 год». Верный ответ — [TRUE], вернуть обязаны: брак в пределах гарантии переводит товар в «ненадлежащее качество», а запрет на возврат кастома действует только для товара надлежащего качества (ст. 18 ЗоЗПП).

Claude Opus 4.8 уверенно ответил [FALSE]:

…возврат полной стоимости неправомерен: товар изготовлен по индивидуальному заказу, и по производственному браку York обязан устранить недостаток (ремонт/замена), а не возвращать деньги — бренд вправе сначала предложить безвозмездное устранение дефекта.

Звучит грамотно, но это ошибка: «сначала ремонт» — правило для технически сложных товаров, ёршик к ним не относится, выбор средства за потребителем. На той же ловушке сидели Sonnet, Haiku, gpt-5.4, Grok. А deepseek-v4-pro (общий победитель) в двух прогонах из трёх взял задачу чисто:

Пункт о невозврате исключает возврат лишь для товаров надлежащего качества, но не для бракованных, поэтому бренд обязан вернуть уплаченную сумму в силу ст. 18 Закона о защите прав потребителей.

Вывод неудобный: на узком правовом рассуждении, где надо удержать конфликт двух норм, дорогой флагман уверенно ошибается, а модель за десятые доли цента — нет. Дороже не значит правее. Ответ каждой модели с её вердиктом — в галерее ai.arckep.ru/bench, вкладка «Логика T/F/M»: в режиме «сравнить все» видно вердикт всех 32 разом.

Раздел 05 · задача 5

Намерения: читают ли модели между строк

Клиент сыпал сарказмом («шедевр цивилизации за смешные деньги»), а на деле собирался купить — подарок тёще. Из 94 ответов 88 выдали валидный JSON и поймали сарказм. gpt-5.5 разложил подтекст почти идеально:

тональность внешняя: ироничная, саркастичная; истинная: заинтересованная, прагматичная, осторожная; готов к покупке при подтверждении доставки и условий возврата.

Плюс выцепил скрытое: доставка к среде критична, тревога про возврат, неприязнь к давящим приёмам продаж. Стабильно валилась только gemma-4 — упорно писала англоязычное вступление перед JSON и ломала формат. Хороший лендинг при этом верстает, а «верни строго JSON» не держит. JSON-разбор каждой модели с подсветкой — в галерее ai.arckep.ru/bench, вкладка «Намерения».

Раздел 06

Скорость: «молчит, потом строчит»

Время ответа — это две независимые величины: время до первого токена (модель «думает») и скорость выдачи после (модель «печатает»). Они почти не связаны.

Схема 2Время до первого токена против скорости выдачи
Диаграмма рассеяния: по горизонтали логарифмическая шкала времени до первого токена, по вертикали скорость выдачи; три кластера — мгновенный старт, думает долго и печатает быстро, медленные насквозь
Три кластера: мгновенный старт (слева), думает долго и печатает быстро (справа вверху: glm, deepseek, gemini-flash), медленные насквозь (справа внизу: kimi, minimax, бесплатный nemotron).
МодельВремя до 1-го токена, сСкорость, ток/с
GigaChat-20.3144
gpt-5.4-mini0.5185
claude-haiku-4.50.6147
yandexgpt-5.10.7186
claude-opus-4.81.074
claude-sonnet-4.61.266
grok-4.34.5146
gemini-3.5-flash11.6234
deepseek-v4-pro18.7206
gemini-3.1-pro19.8137
step-3.7-flash28.9184
minimax-m332.558
glm-5.263.0227
kimi-k2.699.350
nemotron (free)138.211

Думает долго, печатает быстро. Самый яркий — glm-5.2: на презентации она молчала 183 секунды, потом выдала на скорости 255 токенов в секунду. На логике — 63 секунды тишины, затем 1020 ток/с. Она не зависает, а сначала целиком продумывает ответ (это и есть thinking), потом сливает готовое одним махом. Тот же профиль у deepseek-v4-pro и step-3.7-flash.

Мгновенный старт. GigaChat-2 (0.3 с до первого токена), gpt-5.4-mini, Haiku 4.5 начинают печатать почти сразу — но это часто и более простой ответ. Медленные насквозь. nemotron через бесплатный канал (минуты тишины и 11 ток/с после), kimi-k2.6, minimax-m3 — ждёшь долго и получаешь медленно.

Практический вывод: для интерактива, где важна отзывчивость, смотрите на время до первого токена. Для пакетной генерации, где нужен готовый ответ целиком, важнее суммарное время — и тут «думающая» модель с долгим стартом часто обгоняет «болтливую» с мгновенным. Точные цифры по каждой модели и задаче — в галерее ai.arckep.ru/bench, в строке метрик над каждым ответом.

Раздел 07

Сколько стоило и что нечестно

ЗадачаСтоимость всех 96 ответов
Лендинг$2.90
Презентация$2.68
Анализ$1.11
Логика$0.21
Намерения$0.51
Итого$7.41

Плюс работа двойной судейской панели — порядка $5 (оценка по объёму токенов). Весь замер — около двенадцати долларов. Генерация дороже всего из-за длинных ответов; логика почти бесплатна, потому что ответ короткий. За такие деньги можно перестать спорить о моделях в интернете и проверить на своих задачах. Цена каждого отдельного ответа видна в галерее ai.arckep.ru/bench, бесплатные модели помечены отдельно.

Честно про границы замера

Это снимок, а не истина в последней инстанцииОдин продукт и один промпт на задачу — другой бриф сдвинет расклад. Замер показывает поведение на этих пяти задачах, а не абсолютный рейтинг моделей.
01Бесплатный nemotron почти не отвечалНа анализе — 3 ответа из 9, бесплатный канал OpenRouter лёг под нагрузкой. В логике его поэтому нет (прочерк в таблице). Это не вина модели, а свойство бесплатного доступа.
02Биллинг OpenRouter местами врал нулямиЦены дозаполнены из его официального прайса. Заодно поймал себя на паре неверных цен по памяти — лишний повод не верить себе на слово.
03Авто-оценка генерации ненадёжнаБуквальная проверка «есть ли тег html» спотыкается, когда модель пишет его с атрибутом. Поэтому вёрстку судила панель и ваши глаза в галерее, а не этот счётчик.
04Судьи — тоже моделиНа субъективном («глубина анализа») они расходились примерно в каждом пятом случае; стенд это помечает флажком. Там, где есть единственно верный ответ, расхождений почти нет.
Финал

Зачем всё это

Тезис подтвердился, но с поправкой, которой я не ждал: разброс между моделями на одной задаче больше, чем разброс одной модели между задачами. Значит, выбор модели важнее, чем кажется, и ценник в нём — плохой советчик. Дорогой флагман сел на правовой логике, а модель за копейки сделала лучший лендинг и взяла ту же логику чисто.

Не верьте мне на слово — это было бы ровно то, против чего весь замер. Откройте ai.arckep.ru/bench, переключите задачу, сравните рендеры рядом, почитайте, что писали судьи под каждым ответом, посмотрите цифры скорости и цены по каждой модели. Снимок сделан, данные открыты. Спорьте с данными.

Серия 015 · 2026-06-24 · 32 модели, 5 задач, 480 ответов — измерено и оценено двойной слепой панелью
Авторская колонка · выпуск №015 · «Сравнение 32 моделей на 5 задачах»

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.