Авторская колонка · сравнение 32 моделей на 5 задачахСЕРИЯ 015

Авторская колонка · выпуск №015

Сравнение 32 моделей
на 5 задачах

Замер «модель под задачу»: полные результаты, скорости, цены — и почему ценник не предсказывает качество.

Собрал стенд: 32 модели, 5 разных задач, по 3 прогона на каждую. Вышло 480 ответов. Отчёт по конкретному замеру: цифры, таблицы, кто что выдал. Все 480 ответов открыты живьём — с рендерами лендингов, оценками судей и метриками по каждой модели: ai.arckep.ru/bench.

Раздел 01

Как и кем считались баллы

Прежде чем смотреть рейтинг — как вообще получались эти цифры, иначе таблица ниже это числа с потолка. Балл в ней — оценка от 1 до 5 за каждую задачу, и считается она по-разному, в зависимости от того, есть ли у задачи единственно верный ответ.

Логика и намерения — оценивает скрипт, без человека и без вкусовщины. У логической задачи есть эталонный вердикт — скрипт сверяет ответ с ним, балл 5 за совпадение, 1 за промах. У намерений проверяется факт: валиден ли выданный JSON и распознан ли сарказм. Тут балл объективный, оспорить нечего.

Лендинг, презентация, анализ — это качество, его судят две модели вслепую. Тут нет «правильного» ответа, есть «лучше/хуже». Каждый ответ оценивают два судьи — Claude Sonnet 4.6 и Gemini 3.5, намеренно от разных вендоров. Оба видят только текст ответа и НЕ знают, какая модель его написала, — это защита от подсуживания «своим». Каждому судье дана прямая инструкция не давать преимущества никакому происхождению модели. Баллы двух судей по ответу усредняются.

За что именно судья начисляет балл — у каждой задачи свои критерии:

Задача	За что судья ставит балл (1-5)
Лендинг	заметила ли модель проблему влаги для кожаной рукояти; предложила ли решение; соблюдён ли бриф (нет стоп-слов, таймеров, реальных картинок, сдержанный призыв к действию); качество дизайна в стиле тихой роскоши
Презентация	ровно ли 4 слайда; работает ли навигация без внешних библиотек; качество наполнения слайдов
Анализ	верны ли расчёты; замечено ли падение средней цены; выявлена ли аномалия маркетинга; глубина и практичность выводов

Как из этого получается число в рейтинге. Каждую задачу модель проходила 3 раза. Из трёх баллов берётся медиана (гасит случайный разброс одного неудачного прогона). Эти пять медиан — по одной на задачу — усредняются в колонку «Σ». Никаких ручных оценок от меня: либо скрипт по эталону, либо две модели-судьи.

Проверка, что судьи честныРаз один из судей — сам Claude, я проверил, не тянет ли он одеяло на модели Anthropic. Своим Claude-судья поставил в среднем 3.64, а нейтральный Gemini тем же ответам — 3.85: Claude судил родню не мягче, а строже нейтрального судьи. Остаточный перекос — +0.11 балла из пяти, усреднение его добивает. Слепое судейство плюс прямая инструкция сработали.

Раздел 02

Итог: общий рейтинг

Колонка «Σ» — среднее по пяти задачам. Полную галерею со всеми 480 ответами, рендерами и оценками можно открыть на ai.arckep.ru/bench.

#	Модель	Σ	Ленд	През	Анализ	Логика	Намер
1	deepseek-v4-pro	5.0	5.0	5.0	5.0	5.0	5.0
2	gpt-5.5	4.8	5.0	4.5	5.0	4.5	5.0
3	glm-5.2	4.7	5.0	3.5	5.0	5.0	5.0
4	qwen3.7-max	4.7	5.0	3.5	5.0	5.0	5.0
5	qwen3.7-plus	4.7	4.5	4.5	5.0	4.5	5.0
6	nemotron-3-ultra (free)	4.6	4.5	4.0	5.0	—	5.0
7	gemini-3.1-pro	4.6	5.0	3.5	5.0	4.5	5.0
8	gemini-3.5-flash	4.6	5.0	3.5	5.0	5.0	4.5
9	gemma-4-31b-it	4.5	5.0	3.5	5.0	5.0	4.0
10	minimax-m3	4.4	5.0	5.0	5.0	2.0	5.0
11	gpt-5.4	4.4	5.0	5.0	5.0	2.0	5.0
12	hy3-preview	4.4	5.0	3.5	5.0	4.0	4.5
13	claude-sonnet-4.6	4.2	5.0	4.0	5.0	2.0	5.0
14	nex-n2-pro	4.2	5.0	4.5	1.8	4.5	5.0
15	kimi-k2.6	4.1	5.0	4.5	5.0	1.0	5.0
16	gpt-5.4-mini	4.1	5.0	4.5	5.0	1.0	5.0
17	claude-opus-4.8	4.0	5.0	4.0	5.0	1.0	5.0
18	ring-2.6-1t	3.9	4.5	4.0	5.0	1.0	5.0
19	mimo-v2.5-pro	3.9	5.0	4.0	5.0	1.0	4.5
20	step-3.7-flash	3.7	4.5	3.5	5.0	1.0	4.5
21	mimo-v2.5	3.7	4.5	3.5	4.5	1.0	5.0
22	deepseek-v4-flash	3.6	3.5	3.5	5.0	1.0	5.0
23	grok-4.3	3.6	5.0	3.0	4.5	1.0	4.5
24	claude-haiku-4.5	3.2	4.0	2.5	5.0	1.0	3.5
25	perceptron-mk1	3.1	4.5	2.0	4.5	1.0	3.5
26	yandexgpt-5.1	2.9	3.0	1.5	4.0	2.5	3.5
27	GigaChat-2-Max	2.3	3.0	1.5	3.5	1.0	2.5
28	yandexgpt-5-pro	2.2	2.5	1.0	4.0	1.0	2.5
29	GigaChat-2-Pro	2.0	2.5	1.0	3.0	1.0	2.5
30	mistral-nemo	2.0	2.5	1.0	3.0	1.0	2.5
31	GigaChat-2	1.9	2.0	1.5	2.5	1.0	2.5
32	yandexgpt-5-lite	1.8	1.5	1.0	3.0	1.0	2.5

Что из этой таблицы реально следует:

01Ценник не предсказывает результат, а местами анти-коррелирует с нимПервое место — deepseek-v4-pro за $0.435/$0.87 за миллион токенов. Самая дорогая модель замера, Opus 4.8 за $15/$75 (почти в сто раз дороже на выходе), — семнадцатая. Весь топ-9 это дешёвые и средние модели. Ни одного «премиум-флагмана за дорого» в верхней девятке нет.

02Единственная ровная модель — deepseek-v4-proПятёрки по всем пяти задачам, больше так не смог никто. Если нужна одна модель «на всё» и подешевле — это она.

03Дорогие Claude осели в середине и нижеSonnet 4.6 — 13-й (4.2), Opus 4.8 — 17-й (4.0), Haiku 4.5 — 24-й (3.2). И у всех трёх в колонке «Логика» единица — на правовой ловушке они срезались поголовно (раздел 05).

04Никто не силён везде одинаково — это и есть довод за «модель под задачу»grok-4.3 делает лучший лендинг (5.0) и проваливает всё остальное (итог 3.6). minimax-m3 и gpt-5.4 берут презентацию на 5.0, но валят логику на 2.0. Дешёвая gemma-4 решает логику на 5.0, но путается в формате намерений. Разброс одной модели между задачами — до 4 баллов из 5.

05Дно — отечественные модели и mistral-nemoyandexgpt-5-lite 1.8, GigaChat-2 1.9, mistral-nemo и GigaChat-2-Pro 2.0. Технически они не падали — делали стабильно слабее по вёрстке, дизайну и глубине.

Если читать таблицу как руководство к выбору: на генерацию лендинга годятся почти все верхние; на правовое рассуждение бери gemini, gpt-5.5, glm-5.2, qwen (раздел 05); на всё сразу и недорого — deepseek-v4-pro.

Раздел 03

Параметры замера и список моделей

Чтобы числа выше можно было перепроверить — вот рамки, в которых всё гонялось.

Моделей	32
Задач	5 (генерация ×2, анализ, логика, NLU)
Прогонов на задачу	3 (медиана гасит случайный разброс)
Всего ответов	480 (473 успешных)
Температура	0.1, где API её принимает (у opus-4.8 и gpt-5.5 опущена — не берут)
Потолок токенов	32 768 на генерацию, 8 192 на анализ — одинаковый для всех
Thinking	не трогал: каждая модель в своём дефолтном режиме
Продукт во всех задачах	вымышленный премиальный ёршик York с кожаной рукоятью, 16 900 ₽
Стоимость	$7.41 за все ответы + ~$5 за оценку панелью

Продукт намеренно абсурдный — ёршик за 17 тысяч не даёт модели въехать на заученных шаблонах и заставляет реально работать с условием. Цены ниже — за миллион токенов; для моделей через OpenRouter сверены с его официальным прайсом (в сыром логе биллинг местами возвращал ноль, я дозаполнил).

Модель	Вендор	Как гнали	$/1M вход	$/1M выход
claude-opus-4.8	Anthropic	прямой API	$15.0	$75.0
claude-sonnet-4.6	Anthropic	прямой API	$3.0	$15.0
claude-haiku-4.5	Anthropic	прямой API	$0.25	$1.25
gpt-5.5	OpenAI	прямой API	$5.0	$15.0
gpt-5.4	OpenAI	прямой API	$2.5	$7.5
gpt-5.4-mini	OpenAI	прямой API	$0.15	$0.6
gemini-3.1-pro-preview	Google	прямой API	$1.25	$5.0
gemini-3.5-flash	Google	прямой API	$0.075	$0.3
gemma-4-31b-it	Google	прямой API	$0.05	$0.1
deepseek-v4-pro	DeepSeek	прямой API	$0.435	$0.87
deepseek-v4-flash	DeepSeek	прямой API	$0.14	$0.28
grok-4.3	xAI	прямой API	$2.0	$10.0
glm-5.2	Z.ai	прямой API	$0.1	$0.3
qwen3.7-max	—	OpenRouter	$1.25	$3.75
qwen3.7-plus	—	OpenRouter	$0.32	$1.28
mimo-v2.5	—	OpenRouter	$0.105	$0.28
mimo-v2.5-pro	—	OpenRouter	$0.435	$0.87
minimax-m3	—	OpenRouter	$0.3	$1.2
hy3-preview	—	OpenRouter	$0.063	$0.21
kimi-k2.6	—	OpenRouter	$0.66	$3.41
step-3.7-flash	—	OpenRouter	$0.2	$1.15
nex-n2-pro	—	OpenRouter	$0.25	$1.0
perceptron-mk1	—	OpenRouter	$0.15	$1.5
ring-2.6-1t	—	OpenRouter	$0.075	$0.625
mistral-nemo	—	OpenRouter	$0.02	$0.03
nemotron-3-ultra-550b-a55b	—	OpenRouter	бесплатно	—
yandexgpt-5.1	Yandex	прямой API	$1.2	$1.2
yandexgpt-5-pro	Yandex	прямой API	$1.2	$1.2
yandexgpt-5-lite	Yandex	прямой API	$0.4	$0.4
GigaChat-2-Max	Sber	прямой API	$1.2	$1.2
GigaChat-2-Pro	Sber	прямой API	$0.6	$0.6
GigaChat-2	Sber	прямой API	$0.2	$0.2

Раздел 04

Как устроен прогон: роутинг

Модели живут у разных провайдеров и говорят на разных диалектах API, поэтому под капотом — набор адаптеров, которые приводят ответ к общему виду и снимают одинаковые метрики.

Запрос на каждую задачу идёт через адаптеры провайдеров: шесть прямых API крупных вендоров, единый шлюз OpenRouter для россыпи моделей поменьше и два отечественных адаптера; всё сводится к единым метрикам на каждый ответ — Схема 1Роутинг тестирования

Каждый адаптер стримит ответ, замеряя время до первого токена, скорость выдачи, число токенов и цену. Две честных детали роутинга. qwen гонялся через OpenRouter, а не через прямой адаптер (он есть в стенде, но в этом прогоне не использовался). А perceptron-mk1 держит контекст 32 768 токенов на вход и выход разом — запросить у неё полные 32K на выход физически нельзя, поэтому на генерации лимит ей урезан.

Раздел 05 · задача 1

Лендинг: богато против пустоты

Сверстать адаптивную страницу на Tailwind в эстетике тихой роскоши, без маркетинговых штампов, с CSS-заглушками вместо картинок. Скрытая ловушка: кожаная рукоять в мокром санузле — проблема, заметит ли модель сама.

Топ (5.0): grok-4.3, gemini-3.1-pro, gemini-3.5-flash, gpt-5.5, deepseek-v4-pro и ещё несколько. Дно: yandexgpt-5-lite 1.5, GigaChat-2 2.0. Лучший вариант — deepseek-v4-pro: 32 КБ осмысленного кода, тёмная тема, акценты, CSS-текстуры вместо картинок.

Лендинг от deepseek-v4-pro: тёмная тема, золотые акценты, проработанная вёрстка — Лендинг deepseek-v4-pro — 32 КБ кода, настоящая тихая роскошь

GigaChat-2 на том же задании — плоская колонка текста на 3 КБ. Технически не сломано: тёмная тема есть, ловушку с влагой даже поймал (гидрофобная пропитка, съёмный чехол), призыв сдержанный. Но это страница-заглушка, а не «тихая роскошь».

Лендинг от GigaChat-2: плоская тёмная колонка текста по центру, без вёрстки — GigaChat-2 — то же задание, плоско и пусто

Сама ловушка с водой оказалась проще, чем я ждал, — её прошли почти все сильные модели. Делила модели именно вёрстка и вкус. Все 32 лендинга можно открыть рядом и сравнить рендеры — в галерее ai.arckep.ru/bench, вкладка «Лендинги», режим «сравнить все».

Раздел 05 · задача 2

Презентация: здесь сломалось интереснее

Ровно 4 слайда, рабочая навигация вперёд-назад на чистом JS или CSS-хаке, без внешних библиотек. Топ (5.0): deepseek-v4-pro, gpt-5.4, minimax-m3. Дно (1.0): yandexgpt-5-pro, GigaChat-2-Pro, mistral-nemo.

Презентация от deepseek-v4-pro: тёмная сцена, золотая типографика, CSS-ёршик, рабочие стрелки и точки-индикаторы — deepseek-v4-pro — рабочий интерактив, нарисованный CSS-ёршик, точки слайдов

GigaChat-2-Pro — светлая страница, чёрный «York», простые кнопки и битая картинка посреди слайда. Бриф прямо запрещал реальные изображения, просил CSS-заглушки. Модель вставила тег картинки на несуществующий файл и получила сломанную иконку. Это не придирка, а нарушение условия, видное глазом. На том же спотыкались yandex, grok, mistral-nemo, perceptron.

Презентация от GigaChat-2-Pro: плоский светлый фон, чёрный текст и битая картинка вместо CSS-заглушки — GigaChat-2-Pro — битая картинка вместо заглушки, плоские кнопки

Все презентации с рабочей навигацией (их можно полистать вживую) — в галерее ai.arckep.ru/bench, вкладка «Презентации».

Раздел 05 · задача 3

Анализ продаж: кто увидел то, чего не спрашивали

Финансовый отчёт по 8 кварталам. Проверялась не арифметика (её осилили почти все), а три спрятанных вывода, которых нет в вопросах в лоб: средняя цена изделия проседала к концу каждого года (рост продаж куплен скидками); отдача от маркетинга падала; и аномалия — в одном квартале маркетинг подняли до максимума, а продажи рухнули до минимума.

Топ (5.0): обе gemini, gpt-5.5, claude-sonnet-4.6, gpt-5.4, deepseek, glm, qwen и другие — увидели все три и разложили по полочкам. Дно: nex-n2-pro 1.8, GigaChat-2 2.5. Слабые модели честно считали цифры и останавливались на пересказе.

Разницу ловил судья — по глубине. Про середняка он писал прямо: «цифры верны, аномалия замечена, но не названо главное — рост в конце года куплен скидками; рекомендации банальны». Это и отделяет аналитика от калькулятора. Полные отчёты всех моделей с разбором обоих судей под каждым — в галерее ai.arckep.ru/bench, вкладка «Анализ продаж».

Раздел 05 · задача 4

Логика: здесь флагманы сели в лужу

Тут оценка по эталону, а не по красоте рассуждения. Эталонный вердикт известен. Верно ответили 28 из 93 — 30%.

Результат	Модели
3 из 3 верно	gemini-3.1-pro, gemini-3.5-flash, glm-5.2, gpt-5.5, hy3-preview, qwen3.7-max, qwen3.7-plus, yandexgpt-5.1
1-2 из 3	deepseek-v4-pro, nex-n2-pro
0 из 3	Opus 4.8, Sonnet 4.6, Haiku 4.5, gpt-5.4, gpt-5.4-mini, Grok 4.3, kimi, gemma-4, все GigaChat, mistral-nemo, perceptron, ring, step, minimax, mimo ×2, deepseek-v4-flash, yandexgpt-5-pro, yandexgpt-5-lite

Ситуация: клиент заказал кастомный ёршик с гравировкой, через 8 месяцев бережного использования сам разошёлся шов кожаной оплётки, требует вернуть деньги. В правилах есть и «кастом возврату не подлежит», и «на швы кожи — расширенная гарантия 1 год». Верный ответ — [TRUE], вернуть обязаны: брак в пределах гарантии переводит товар в «ненадлежащее качество», а запрет на возврат кастома действует только для товара надлежащего качества (ст. 18 ЗоЗПП).

Claude Opus 4.8 уверенно ответил [FALSE]:

…возврат полной стоимости неправомерен: товар изготовлен по индивидуальному заказу, и по производственному браку York обязан устранить недостаток (ремонт/замена), а не возвращать деньги — бренд вправе сначала предложить безвозмездное устранение дефекта.

Звучит грамотно, но это ошибка: «сначала ремонт» — правило для технически сложных товаров, ёршик к ним не относится, выбор средства за потребителем. На той же ловушке сидели Sonnet, Haiku, gpt-5.4, Grok. А deepseek-v4-pro (общий победитель) в двух прогонах из трёх взял задачу чисто:

Пункт о невозврате исключает возврат лишь для товаров надлежащего качества, но не для бракованных, поэтому бренд обязан вернуть уплаченную сумму в силу ст. 18 Закона о защите прав потребителей.

Вывод неудобный: на узком правовом рассуждении, где надо удержать конфликт двух норм, дорогой флагман уверенно ошибается, а модель за десятые доли цента — нет. Дороже не значит правее. Ответ каждой модели с её вердиктом — в галерее ai.arckep.ru/bench, вкладка «Логика T/F/M»: в режиме «сравнить все» видно вердикт всех 32 разом.

Раздел 05 · задача 5

Намерения: читают ли модели между строк

Клиент сыпал сарказмом («шедевр цивилизации за смешные деньги»), а на деле собирался купить — подарок тёще. Из 94 ответов 88 выдали валидный JSON и поймали сарказм. gpt-5.5 разложил подтекст почти идеально:

тональность внешняя: ироничная, саркастичная; истинная: заинтересованная, прагматичная, осторожная; готов к покупке при подтверждении доставки и условий возврата.

Плюс выцепил скрытое: доставка к среде критична, тревога про возврат, неприязнь к давящим приёмам продаж. Стабильно валилась только gemma-4 — упорно писала англоязычное вступление перед JSON и ломала формат. Хороший лендинг при этом верстает, а «верни строго JSON» не держит. JSON-разбор каждой модели с подсветкой — в галерее ai.arckep.ru/bench, вкладка «Намерения».

Раздел 06

Скорость: «молчит, потом строчит»

Время ответа — это две независимые величины: время до первого токена (модель «думает») и скорость выдачи после (модель «печатает»). Они почти не связаны.

Диаграмма рассеяния: по горизонтали логарифмическая шкала времени до первого токена, по вертикали скорость выдачи; три кластера — мгновенный старт, думает долго и печатает быстро, медленные насквозь — Схема 2Время до первого токена против скорости выдачи

Модель	Время до 1-го токена, с	Скорость, ток/с
GigaChat-2	0.3	144
gpt-5.4-mini	0.5	185
claude-haiku-4.5	0.6	147
yandexgpt-5.1	0.7	186
claude-opus-4.8	1.0	74
claude-sonnet-4.6	1.2	66
grok-4.3	4.5	146
gemini-3.5-flash	11.6	234
deepseek-v4-pro	18.7	206
gemini-3.1-pro	19.8	137
step-3.7-flash	28.9	184
minimax-m3	32.5	58
glm-5.2	63.0	227
kimi-k2.6	99.3	50
nemotron (free)	138.2	11

Думает долго, печатает быстро. Самый яркий — glm-5.2: на презентации она молчала 183 секунды, потом выдала на скорости 255 токенов в секунду. На логике — 63 секунды тишины, затем 1020 ток/с. Она не зависает, а сначала целиком продумывает ответ (это и есть thinking), потом сливает готовое одним махом. Тот же профиль у deepseek-v4-pro и step-3.7-flash.

Мгновенный старт. GigaChat-2 (0.3 с до первого токена), gpt-5.4-mini, Haiku 4.5 начинают печатать почти сразу — но это часто и более простой ответ. Медленные насквозь. nemotron через бесплатный канал (минуты тишины и 11 ток/с после), kimi-k2.6, minimax-m3 — ждёшь долго и получаешь медленно.

Практический вывод: для интерактива, где важна отзывчивость, смотрите на время до первого токена. Для пакетной генерации, где нужен готовый ответ целиком, важнее суммарное время — и тут «думающая» модель с долгим стартом часто обгоняет «болтливую» с мгновенным. Точные цифры по каждой модели и задаче — в галерее ai.arckep.ru/bench, в строке метрик над каждым ответом.

Раздел 07

Сколько стоило и что нечестно

Задача	Стоимость всех 96 ответов
Лендинг	$2.90
Презентация	$2.68
Анализ	$1.11
Логика	$0.21
Намерения	$0.51
Итого	$7.41

Плюс работа двойной судейской панели — порядка $5 (оценка по объёму токенов). Весь замер — около двенадцати долларов. Генерация дороже всего из-за длинных ответов; логика почти бесплатна, потому что ответ короткий. За такие деньги можно перестать спорить о моделях в интернете и проверить на своих задачах. Цена каждого отдельного ответа видна в галерее ai.arckep.ru/bench, бесплатные модели помечены отдельно.

Честно про границы замера

Это снимок, а не истина в последней инстанцииОдин продукт и один промпт на задачу — другой бриф сдвинет расклад. Замер показывает поведение на этих пяти задачах, а не абсолютный рейтинг моделей.

01Бесплатный nemotron почти не отвечалНа анализе — 3 ответа из 9, бесплатный канал OpenRouter лёг под нагрузкой. В логике его поэтому нет (прочерк в таблице). Это не вина модели, а свойство бесплатного доступа.

02Биллинг OpenRouter местами врал нулямиЦены дозаполнены из его официального прайса. Заодно поймал себя на паре неверных цен по памяти — лишний повод не верить себе на слово.

03Авто-оценка генерации ненадёжнаБуквальная проверка «есть ли тег html» спотыкается, когда модель пишет его с атрибутом. Поэтому вёрстку судила панель и ваши глаза в галерее, а не этот счётчик.

04Судьи — тоже моделиНа субъективном («глубина анализа») они расходились примерно в каждом пятом случае; стенд это помечает флажком. Там, где есть единственно верный ответ, расхождений почти нет.

Финал

Зачем всё это

Тезис подтвердился, но с поправкой, которой я не ждал: разброс между моделями на одной задаче больше, чем разброс одной модели между задачами. Значит, выбор модели важнее, чем кажется, и ценник в нём — плохой советчик. Дорогой флагман сел на правовой логике, а модель за копейки сделала лучший лендинг и взяла ту же логику чисто.

Не верьте мне на слово — это было бы ровно то, против чего весь замер. Откройте ai.arckep.ru/bench, переключите задачу, сравните рендеры рядом, почитайте, что писали судьи под каждым ответом, посмотрите цифры скорости и цены по каждой модели. Снимок сделан, данные открыты. Спорьте с данными.

Серия 015 · 2026-06-24 · 32 модели, 5 задач, 480 ответов — измерено и оценено двойной слепой панелью

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.

Сравнение 32 моделейна 5 задачах