Мы прогнали 13 моделей на 31 задаче из трёх доменов — Sports, HR, Sales. До 77% решений возвращают верное число. Только 22–34% используют логику, эквивалентную эталону. Разница между «компилируется» и «правильно» — и есть предмет этого аудита.
Полный отчёт длиной ~12 минут чтения. Если торопитесь — вот суть.
Протестировали 13 LLM на 31 задаче по Qlik Set Analysis из 3 разных доменов — Sports, HR, Sales — с обучающей платформы qata.datanomix.pro.
Двухфазная методология + проверка стабильности + двойная проверка правильности (по числу + по логике выражения).
Лояльная оценка (число): 65–77% у топ-моделей. Строгая оценка (логика эквивалентна): 22–34%. Значит много «правильных» ответов получено через альтернативные/неточные выражения, работающие случайно на этих данных.
Использовать LLM только с человеческим ревью или Qlik runtime-валидацией. Лучшая модель — GPT-5 — даёт ~34% строго-правильных ответов. Бюджет: $17.35 из $20.
До 77% решений возвращают верное число — судья V1 их засчитывает. Но только 22–34% используют логику Set Analysis, эквивалентную эталону. Лучшая модель — GPT-5 — даёт 34% по строгой оценке.
V1 (лояльный, Opus-судья): засчитан результат, если число совпало с эталонным KPI. V2 (строгий, Sonnet-судья): засчитано, если Set Analysis выражение семантически эквивалентно эталону с qata.datanomix.pro. Из 868 ответов нашли 114 случаев coincidental correctness — верное число из неэквивалентного выражения.
Топ-модели (Gemini 2.5 Pro, GPT-5, Opus 4.7) — итоговое число совпало с эталонным KPI.
Те же модели — логика выражения эквивалентна референсу. GPT-5 в Phase 2 — 34%.
Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (8B параметров).
| Категория | Модели | Обоснование |
|---|---|---|
| Топ-премиум | Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro | Флагманы. Проверить оправданность цены. |
| Средние | Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3 | Sweet spot для production. |
| Бюджетные | Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B | Экономия при сохранении качества. |
| Спец. для кода | DeepSeek Coder V3 · Qwen 2.5 Coder 32B | Может ли специализация на коде дать преимущество? |
Каждая задача описывает бизнес-метрику словами. Модель должна вернуть Qlik Set Analysis выражение. Затем — двойная оценка.
Отбор: каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard по V1 и V2.
Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — проверить эффект промпт-инжиниринга.
V1 (Opus): «число совпало с эталоном?». V2 (Sonnet): «выражение эквивалентно эталону с qata.datanomix.pro?». Разница — это «логический разрыв».
Не только финальные числа, но и неочевидные эффекты, которые повторятся у любой команды, интегрирующей LLM в Qlik-стек.
Первый прогон: GPT-5 = 0/31,
Gemini 2.5 Pro = 2/31.
Reasoning-модели тратят токены на скрытое размышление; при
дефолтном max_tokens=500 бюджет уходит на reasoning, ответ
обрезается или пустой.
После max_tokens=4000 + reasoning_effort=low:
GPT-5 → 24/31 (77%),
Gemini 2.5 Pro → 24/31 (77%).
Из 868 ответов нашли 114 случаев coincidental correctness — верное число через выражение, отличающееся от эталона. Два типичных паттерна:
Паттерн А · ID вместо Name (Sports task #2):
count(distinct {<Sex={"M"}>} Name) / count(distinct Name)
Count({<Sex={'M'}>} DISTINCT ID) / Count(DISTINCT ID)
Паттерн Б · Games вместо Year+Season (Sports task #1):
{<Year = {'1996'},
Season = {'Summer'}>}
{<Games = {'1996 Summer'}>}
Часть «coincidental» случаев — легитимные альтернативные
решения, которые на этих данных дают тот же результат и могут
считаться допустимыми в production. Если в схеме ID гарантированно уникален per-athlete,
Count(distinct ID) = Count(distinct Name) всегда.
Реалистичная оценка точности — между V1 и V2 интерпретациями.
В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).
Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).
Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.
DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным:
V1: 45% → 36% V2: 15%
Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.
На одинаковых задачах с temperature=0:
Утверждения «X лучше Y на 3-5 п.п.» по нашим данным не доказываются — это шум.
Иллюстративный срез топ-результатов. Полные сырые данные и скоры — в репозитории на GitHub.
| # | Model | Provider | Loyal V1 | Strict V2 | Coincidental |
|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 77% | 42% | 6 Top | |
| 02 | GPT-5 | OpenAI | 77% | 29% | 9 Top |
| 03 | Claude Opus 4.7 | Anthropic | 68% | 29% | 4 Top |
| 04 | Claude Sonnet 4.6 | Anthropic | 61% | 29% | 5 Mid |
| 05 | Grok 3 | xAI | 55% | 26% | 6 Mid |
| 06 | Claude Haiku 4.5 | Anthropic | 45% | 19% | 6 Mid |
| 07 | DeepSeek V3 | DeepSeek | 42% | 19% | 3 Mid |
| 08 | Mistral Large | Mistral | 35% | 23% | 3 Mid |
| 09 | Gemini 2.5 Flash | 26% | 6% | 5 Low | |
| 10 | GPT-5 mini | OpenAI | 19% | 13% | 2 Low |
| 11 | Qwen 2.5 72B | Alibaba | 19% | 10% | 5 Low |
| 12 | Llama 3.3 70B | Meta | 10% | 6% | 2 Low |
| 13 | Qwen 2.5 Coder 32B | Alibaba | 13% | 3% | 2 Low |
* Coincidental — случаи, когда модель вернула верное число через выражение с логикой, отличающейся от эталона. DeepSeek Coder V3 исключён из таблицы (API broken: 0/31).
Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по V2 (строгий судья).
| Модель | V2 strict | V1 loyal | Тренд |
|---|---|---|---|
| GPT-5 | 32/93 (34%) | 51/93 (55%) | Единственный явный лидер |
| Gemini 2.5 Pro | 30/93 (32%) | 43/93 (46%) | Close 2nd |
| Claude Opus 4.7 | 24/93 (26%) | 45/93 (48%) | Top tier |
| Claude Sonnet 4.6 | 20/93 (22%) | 43/93 (46%) | Sweet spot |
| DeepSeek V3 | 14/93 (15%) | 27/93 (29%) | Budget |
70% бюджета съел LLM-as-judge (Claude Opus в V1). При повторе с Sonnet (V2) стоимость в 14 раз ниже за то же количество ответов — гипотеза «Sonnet/Haiku в роли судьи» подтверждена.
| Модель · Роль | Spend | Requests | Tokens |
|---|---|---|---|
| Claude Opus 4.7 · судья V1 | $12.30 | 1,980 | 1.81M |
| Gemini 2.5 Pro · кандидат | $1.91 | 253 | 247K |
| GPT-5 · кандидат | $1.46 | 253 | 199K |
| Sonnet 4.6 · кандидат + судья V2 | $0.85 | 870 | ~150K |
| Остальные 9 моделей | $0.83 | 950 | 320K |
| Итого | $17.35 | ~4,300 | ~2.7M |
Три сценария интеграции с реалистичной точностью (с человеческим ревью) и стоимостью на 1000 запросов.
| Сценарий | Модель | Промпт | Точность* | $/1000 |
|---|---|---|---|---|
| Базовый ассистент | Claude Sonnet 4.6 | стандартный | ~30–50% | ~$2 |
| Премиум (критические задачи) | GPT-5 | стандартный | ~35–55% | ~$20 |
| Прототипирование | DeepSeek V3 | стандартный | ~15–30% | ~$0.30 |
* С обязательным человеческим ревью.
max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.LLM могут генерировать корректный Qlik Set Analysis — но только в режиме ассистента для человека, с обязательной валидацией через Qlik runtime. 34% строго-правильных у лучшей модели — это «каждый третий ответ работает», а не «можно генерировать и применять автоматически».
Четыре главных вопроса и ответ на каждый.
| Критерий | Рекомендованная модель | Инсайт |
|---|---|---|
| Лучшая для строгой генерации (V2) | GPT-5 | Лидер по строгой оценке (эквивалентность логики эталону) — 34%. |
| Оптимальная для базового ассистента | Claude Sonnet 4.6 | Sweet spot для production — реалистичная точность ~30–50% (с ревью). |
| Стоимость Sonnet 4.6 на 1000 запросов | ~$2 | Экономия до 14× по сравнению с Opus. |
| Ключевая причина выбора Sonnet | Баланс точности и стоимости | Приемлемая точность 30–50% при очень низкой стоимости. |