DATANOMIX · LLM AUDIT
Issue 01 / 2026 Set Analysis Domain v1.0
Technical Audit · Reading time 6 min

LLM пишут верный
правдоподобный код
для Qlik Set Analysis.

Мы прогнали 13 моделей на 31 задаче из трёх доменов — Sports, HR, Sales. До 77% решений возвращают верное число. Только 22–34% используют логику, эквивалентную эталону. Разница между «компилируется» и «правильно» — и есть предмет этого аудита.

МОДЕЛЕЙ ПРОТЕСТИРОВАНО
13
GPT-5 Opus 4.7 Gemini 2.5 Pro +10
БЮДЖЕТ
$17.35
OF $20.00 LIMIT · OPENROUTER
ДОМЕН
Set Analysis
SPORTS · HR · SALES
ЗАДАЧ ДЛЯ ПРОВЕРКИ
31
VERIFIED_LOGIC_SETS

Резюме в четырёх пунктах.

Полный отчёт длиной ~12 минут чтения. Если торопитесь — вот суть.

01 · Scope

Протестировали 13 LLM на 31 задаче по Qlik Set Analysis из 3 разных доменов — Sports, HR, Sales — с обучающей платформы qata.datanomix.pro.

02 · Method

Двухфазная методология + проверка стабильности + двойная проверка правильности (по числу + по логике выражения).

03 · Finding

Лояльная оценка (число): 65–77% у топ-моделей. Строгая оценка (логика эквивалентна): 22–34%. Значит много «правильных» ответов получено через альтернативные/неточные выражения, работающие случайно на этих данных.

04 · Production

Использовать LLM только с человеческим ревью или Qlik runtime-валидацией. Лучшая модель — GPT-5 — даёт ~34% строго-правильных ответов. Бюджет: $17.35 из $20.

Четыре цели исследования.

  1. Понять — какие LLM-модели реально справляются с генерацией Qlik Set Analysis.
  2. Сравнить модели по точности, стоимости, скорости и стабильности.
  3. Проверить гипотезу: можно ли промпт-инжинирингом дешёвую модель довести до уровня дорогой.
  4. Сформировать data-driven рекомендации для возможной интеграции LLM в продукт.

До 77% решений возвращают верное число — судья V1 их засчитывает. Но только 22–34% используют логику Set Analysis, эквивалентную эталону. Лучшая модель — GPT-5 — даёт 34% по строгой оценке.

V1 (лояльный, Opus-судья): засчитан результат, если число совпало с эталонным KPI. V2 (строгий, Sonnet-судья): засчитано, если Set Analysis выражение семантически эквивалентно эталону с qata.datanomix.pro. Из 868 ответов нашли 114 случаев coincidental correctness — верное число из неэквивалентного выражения.

Loyal V1 · top tier
65–77%

Топ-модели (Gemini 2.5 Pro, GPT-5, Opus 4.7) — итоговое число совпало с эталонным KPI.

Strict V2 · top tier
22–34%

Те же модели — логика выражения эквивалентна референсу. GPT-5 в Phase 2 — 34%.

13 моделей · 4 категории.

Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (8B параметров).

Категория Модели Обоснование
Топ-премиум Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro Флагманы. Проверить оправданность цены.
Средние Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3 Sweet spot для production.
Бюджетные Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B Экономия при сохранении качества.
Спец. для кода DeepSeek Coder V3 · Qwen 2.5 Coder 32B Может ли специализация на коде дать преимущество?

Три шага от промпта до балла.

Каждая задача описывает бизнес-метрику словами. Модель должна вернуть Qlik Set Analysis выражение. Затем — двойная оценка.

01 · PHASE 1

13 × 31 × 1 промпт

Отбор: каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard по V1 и V2.

02 · PHASE 2

5 финалистов × 3 промпта

Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — проверить эффект промпт-инжиниринга.

03 · JUDGE V1+V2

Двойной судья

V1 (Opus): «число совпало с эталоном?». V2 (Sonnet): «выражение эквивалентно эталону с qata.datanomix.pro?». Разница — это «логический разрыв».

Шесть технических открытий.

Не только финальные числа, но и неочевидные эффекты, которые повторятся у любой команды, интегрирующей LLM в Qlik-стек.

⚠ Reasoning trap

Reasoning-модели нужно настраивать.

Первый прогон: GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Reasoning-модели тратят токены на скрытое размышление; при дефолтном max_tokens=500 бюджет уходит на reasoning, ответ обрезается или пустой.

После max_tokens=4000 + reasoning_effort=low: GPT-5 → 24/31 (77%), Gemini 2.5 Pro → 24/31 (77%).

★ Coincidental correctness

Верное число из неверной логики — 114 случаев.

Из 868 ответов нашли 114 случаев coincidental correctness — верное число через выражение, отличающееся от эталона. Два типичных паттерна:

Паттерн А · ID вместо Name (Sports task #2):

Эталон
count(distinct {<Sex={"M"}>} Name)
/ count(distinct Name)
LLM (совпало случайно)
Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)

Паттерн Б · Games вместо Year+Season (Sports task #1):

Эталон
{<Year = {'1996'},
   Season = {'Summer'}>}
LLM (совпало случайно)
{<Games = {'1996 Summer'}>}
◆ Nuance

Не все 114 случаев — строго неправильные.

Часть «coincidental» случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production. Если в схеме ID гарантированно уникален per-athlete, Count(distinct ID) = Count(distinct Name) всегда.

Реалистичная оценка точности — между V1 и V2 интерпретациями.

⚠ Prompt effect · counter-intuitive

Обогащённый промпт ухудшает результаты.

В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).

Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).

Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.

✗ Hypothesis rejected

«Дешёвая + умный промпт = дорогая» — нет.

DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным:

V1: 45% → 36%    V2: 15%

Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.

∿ Stability noise ±5–15 п.п.

Повторный прогон даёт другие числа.

На одинаковых задачах с temperature=0:

GPT-523 → 24+1 Claude Opus 4.719 → 23+4 Gemini 2.5 Pro19 → 22+3 Claude Sonnet 4.620 → 20±0 · единственная стабильная DeepSeek V314 → 12−2

Утверждения «X лучше Y на 3-5 п.п.» по нашим данным не доказываются — это шум.

13 моделей, ранжированных по строгой точности.

Иллюстративный срез топ-результатов. Полные сырые данные и скоры — в репозитории на GitHub.

# Model Provider Loyal V1 Strict V2 Coincidental
01Gemini 2.5 ProGoogle77%42%6 Top
02GPT-5OpenAI77%29%9 Top
03Claude Opus 4.7Anthropic68%29%4 Top
04Claude Sonnet 4.6Anthropic61%29%5 Mid
05Grok 3xAI55%26%6 Mid
06Claude Haiku 4.5Anthropic45%19%6 Mid
07DeepSeek V3DeepSeek42%19%3 Mid
08Mistral LargeMistral35%23%3 Mid
09Gemini 2.5 FlashGoogle26%6%5 Low
10GPT-5 miniOpenAI19%13%2 Low
11Qwen 2.5 72BAlibaba19%10%5 Low
12Llama 3.3 70BMeta10%6%2 Low
13Qwen 2.5 Coder 32BAlibaba13%3%2 Low

* Coincidental — случаи, когда модель вернула верное число через выражение с логикой, отличающейся от эталона. DeepSeek Coder V3 исключён из таблицы (API broken: 0/31).

Кто держится при варьировании промпта.

Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по V2 (строгий судья).

Модель V2 strict V1 loyal Тренд
GPT-532/93 (34%)51/93 (55%)Единственный явный лидер
Gemini 2.5 Pro30/93 (32%)43/93 (46%)Close 2nd
Claude Opus 4.724/93 (26%)45/93 (48%)Top tier
Claude Sonnet 4.620/93 (22%)43/93 (46%)Sweet spot
DeepSeek V314/93 (15%)27/93 (29%)Budget

$17.35 на весь бенчмарк.

70% бюджета съел LLM-as-judge (Claude Opus в V1). При повторе с Sonnet (V2) стоимость в 14 раз ниже за то же количество ответов — гипотеза «Sonnet/Haiku в роли судьи» подтверждена.

Модель · Роль Spend Requests Tokens
Claude Opus 4.7 · судья V1$12.301,9801.81M
Gemini 2.5 Pro · кандидат$1.91253247K
GPT-5 · кандидат$1.46253199K
Sonnet 4.6 · кандидат + судья V2$0.85870~150K
Остальные 9 моделей$0.83950320K
Итого$17.35~4,300~2.7M

Если LLM пойдёт в продукт.

Три сценария интеграции с реалистичной точностью (с человеческим ревью) и стоимостью на 1000 запросов.

Сценарий Модель Промпт Точность* $/1000
Базовый ассистент Claude Sonnet 4.6 стандартный ~30–50% ~$2
Премиум (критические задачи) GPT-5 стандартный ~35–55% ~$20
Прототипирование DeepSeek V3 стандартный ~15–30% ~$0.30

* С обязательным человеческим ревью.

Четыре правила, без которых не идти в прод.

  1. Никогда без ревью. Никогда не использовать без человеческого ревью или Qlik runtime-валидации. Лучшая модель даёт ~34% строго-правильных — каждый второй ответ требует проверки.
  2. Настроить reasoning-модели. GPT-5, Gemini 2.5 Pro требуют max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.
  3. Не перегружать few-shot. Для большинства моделей обогащённый промпт снижает точность. Простой промпт + строгая валидация работают лучше.
  4. Sonnet/Haiku в роли судьи. Не Opus. Экономия 5–14× без потери качества оценки — проверено на 868 ответах.

LLM могут генерировать корректный Qlik Set Analysis — но только в режиме ассистента для человека, с обязательной валидацией через Qlik runtime. 34% строго-правильных у лучшей модели — это «каждый третий ответ работает», а не «можно генерировать и применять автоматически».

Краткое резюме по моделям.

Четыре главных вопроса и ответ на каждый.

Критерий Рекомендованная модель Инсайт
Лучшая для строгой генерации (V2) GPT-5 Лидер по строгой оценке (эквивалентность логики эталону) — 34%.
Оптимальная для базового ассистента Claude Sonnet 4.6 Sweet spot для production — реалистичная точность ~30–50% (с ревью).
Стоимость Sonnet 4.6 на 1000 запросов ~$2 Экономия до 14× по сравнению с Opus.
Ключевая причина выбора Sonnet Баланс точности и стоимости Приемлемая точность 30–50% при очень низкой стоимости.
© 2026 · Datanomix · Open Research
Built for engineers, not for marketing.
Reproduce on GitHub