LLM × Qlik Set Analysis — Технический аудит

TL;DR

Резюме в четырёх пунктах.

Полный отчёт длиной ~12 минут чтения. Если торопитесь — вот суть.

01 · Scope

Протестировали 13 LLM на 31 задаче по Qlik Set Analysis из 3 разных доменов — Sports, HR, Sales — с обучающей платформы qata.datanomix.pro.

02 · Method

Двухфазная методология + проверка стабильности + двойная проверка правильности (по числу + по логике выражения).

03 · Finding

Оценка по числу (число): 65–77% у топ-моделей. Оценка по логике (логика эквивалентна): 22–34%. Значит много «правильных» ответов получено через альтернативные/неточные выражения, работающие случайно на этих данных.

04 · Production

Использовать LLM только с человеческим ревью или Qlik runtime-валидацией. Лучшая модель — GPT-5 — даёт ~34% логически-корректных ответов. Бюджет: $17.35 из $20.

Goals

Четыре цели исследования.

Понять — какие LLM-модели реально справляются с генерацией Qlik Set Analysis.
Сравнить модели по точности, стоимости, скорости и стабильности.
Проверить гипотезу: можно ли промпт-инжинирингом дешёвую модель довести до уровня дорогой.
Сформировать data-driven рекомендации для возможной интеграции LLM в продукт.

Как мы проверяли ответы

Двойная оценка: число и логика.

Каждый ответ модели прогоняли через двух независимых LLM-судей. Один смотрел что получилось, второй — как это написано. Когда расходятся — появляется тот самый «логический разрыв».

Проверка №1 · Claude Opus 4.7

«Совпало ли итоговое число с эталонным KPI?»

Судья запускает выражение модели в Qlik и сверяет полученное число с эталонным KPI из тренинговой платформы. Если число совпало — засчитано, логика выражения не анализируется.

На этой проверке топ-модели показали 65–77%. Дальше по тексту это называем «совпадение по числу».

Проверка №2 · Claude Sonnet 4.6

«Эквивалентно ли выражение эталонной формуле?»

Судья читает Set Analysis-выражение и сравнивает его с эталонным с qata.datanomix.pro. Засчитано только если выражения семантически эквивалентны. Совпало число «случайно» через другую логику — не засчитано.

На этой проверке топ-модели показали лишь 22–34%. Дальше — «совпадение по логике».

Candidates

Кандидаты: 13 моделей в 4 категориях.

Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (8B параметров).

Категория	Модели	Обоснование
Топ-премиум	Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro	Флагманы. Проверить оправданность цены.
Средние	Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3	Sweet spot для production.
Бюджетные	Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B	Экономия при сохранении качества.
Спец. для кода	DeepSeek Coder V3 · Qwen 2.5 Coder 32B	Может ли специализация на коде дать преимущество?

The Finding

На проверке №1 (число совпало с эталонным KPI) топ-модели выдают 65–77%. На проверке №2 (выражение эквивалентно эталонной формуле) — лишь 22–34%. Эту разницу мы и называем «логическим разрывом».

Часть решений возвращает верное число через выражение, не совпадающее с эталоном — на тестовых данных совпадение «случайное», на других данных результат может разойтись. Часть этих случаев — допустимые альтернативы, но мы их специально отделяем.

Лучшая модель по логике эквивалентности — GPT-5: 34%.

Подробности про обе проверки и судей — выше в блоке «Как мы проверяли ответы». Из 868 ответов нашли 114 случаев coincidental correctness — верное число из неэквивалентного выражения.

Проверка №1: число

65–77%

У топ-моделей (Gemini 2.5 Pro, GPT-5, Opus 4.7) итоговое число совпадает с эталонным KPI в 65–77% задач.

Проверка №2: логика

22–34%

Те же модели — логика выражения эквивалентна референсу. GPT-5 в Phase 2 — 34%.

Findings

Шесть технических открытий.

Не только финальные числа, но и неочевидные эффекты, которые повторятся у любой команды, интегрирующей LLM в Qlik-стек.

⚠ Reasoning trap

Reasoning-модели нужно настраивать.

Первый прогон: GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Reasoning-модели тратят токены на скрытое размышление; при дефолтном max_tokens=500 бюджет уходит на reasoning, ответ обрезается или пустой.

После max_tokens=4000 + reasoning_effort=low: GPT-5 → 24/31 (77%), Gemini 2.5 Pro → 24/31 (77%).

★ Coincidental correctness

114 случаев, когда модель угадала число, но не угадала выражение.

Из 868 ответов нашли 114 случаев coincidental correctness — верное число через выражение, отличающееся от эталона. Два типичных паттерна:

Паттерн А · ID вместо Name (Sports task #2):

Эталон

count(distinct {<Sex={"M"}>} Name)
/ count(distinct Name)

LLM (совпало случайно)

Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)

Паттерн Б · Games вместо Year+Season (Sports task #1):

Эталон

{<Year = {'1996'},
   Season = {'Summer'}>}

LLM (совпало случайно)

{<Games = {'1996 Summer'}>}

◆ Nuance

Не все 114 случаев — строго неправильные.

Часть «coincidental» случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production. Если в схеме ID гарантированно уникален per-athlete, Count(distinct ID) = Count(distinct Name) всегда.

Реалистичная оценка точности модели — где-то между двумя цифрами: совпадением по числу и совпадением по логике.

⚠ Prompt effect · counter-intuitive

Обогащённый промпт ухудшает результаты.

В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).

Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).

Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.

✗ Hypothesis rejected

Умный промпт не превращает дешёвую модель в дорогую.

Мы хотели проверить: можно ли обогащённым промптом (примеры + best practices + chain-of-thought) подтянуть дешёвую DeepSeek V3 к уровню флагманов. Результат — наоборот, обогащение снизило точность:

По числу: 45% → 36% · по логике: 15%

Гипотеза «дешёвая модель + умный промпт = премиум» не подтвердилась. Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.

∿ Stability noise ±5–15 п.п.

Повторный прогон даёт другие числа.

На одинаковых задачах с temperature=0:

GPT-523 → 24+1 Claude Opus 4.719 → 23+4 Gemini 2.5 Pro19 → 22+3 Claude Sonnet 4.620 → 20±0 · единственная стабильная DeepSeek V314 → 12−2

Утверждения «X лучше Y на 3-5 п.п.» по нашим данным не доказываются — это шум.

On-prem / Local deployment

Какую open-source модель развернуть локально?

Отдельный вопрос: если LLM в облаке нельзя по политике безопасности — что брать on-prem.

★ Local deployment

Из локальных моделей, которые мы протестировали, лучший — DeepSeek V3 с ~19% точности по логике (когда сгенерированное выражение совпадает с эталоном). Qwen 2.5 72B заметно хуже — около 10%. Qwen 2.5 Coder 32B вообще слабо — 3%: для длинных цепочек CALCULATE/SUMX в set analysis 32B параметров не хватает. GLM мы не тестировали.

Один важный нюанс: даже у лидера правильная логика выражения — в 1 из 5 случаев. То есть в продакшене любую open-source модель надо обязательно использовать с валидацией. Без неё пока сыровато.

Models · Leaderboard

13 моделей, ранжированных по по логике точности.

Иллюстративный срез топ-результатов. Полные сырые данные и скоры — в репозитории на GitHub.

#	Model	Provider	Число OK	Логика OK	Coincidental
01	Gemini 2.5 Pro	Google	77%	42%	6 Top
02	GPT-5	OpenAI	77%	29%	9 Top
03	Claude Opus 4.7	Anthropic	68%	29%	4 Top
04	Claude Sonnet 4.6	Anthropic	61%	29%	5 Mid
05	Grok 3	xAI	55%	26%	6 Mid
06	Claude Haiku 4.5	Anthropic	45%	19%	6 Mid
07	DeepSeek V3	DeepSeek	42%	19%	3 Mid
08	Mistral Large	Mistral	35%	23%	3 Mid
09	Gemini 2.5 Flash	Google	26%	6%	5 Low
10	GPT-5 mini	OpenAI	19%	13%	2 Low
11	Qwen 2.5 72B	Alibaba	19%	10%	5 Low
12	Llama 3.3 70B	Meta	10%	6%	2 Low
13	Qwen 2.5 Coder 32B	Alibaba	13%	3%	2 Low

* Coincidental — случаи, когда модель вернула верное число через выражение с логикой, отличающейся от эталона. DeepSeek Coder V3 исключён из таблицы (API broken: 0/31).

Phase 2 · 5 finalists × 3 prompts

Кто держится при варьировании промпта.

Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по «по логике» (по логике судья).

Модель	Логика OK	Число OK	Тренд
GPT-5	32/93 (34%)	51/93 (55%)	Единственный явный лидер
Gemini 2.5 Pro	30/93 (32%)	43/93 (46%)	Close 2nd
Claude Opus 4.7	24/93 (26%)	45/93 (48%)	Top tier
Claude Sonnet 4.6	20/93 (22%)	43/93 (46%)	Sweet spot
DeepSeek V3	14/93 (15%)	27/93 (29%)	Budget

Cost breakdown

$17.35 на весь бенчмарк.

70% бюджета съел LLM-as-judge (Claude Opus в роли судьи по числу). При повторе с Sonnet (по логике) стоимость в 14 раз ниже за то же количество ответов — гипотеза «Sonnet/Haiku в роли судьи» подтверждена.

Модель · Роль	Spend	Requests	Tokens
Claude Opus 4.7 · судья по числу	$12.30	1,980	1.81M
Gemini 2.5 Pro · кандидат	$1.91	253	247K
GPT-5 · кандидат	$1.46	253	199K
Sonnet 4.6 · кандидат + судья по логике	$0.85	870	~150K
Остальные 9 моделей	$0.83	950	320K
Итого	$17.35	~4,300	~2.7M

Production guidance

Если LLM пойдёт в продукт.

Три сценария интеграции с реалистичной точностью (с человеческим ревью) и стоимостью на 1000 запросов.

Сценарий	Модель	Промпт	Точность*	$/1000
Базовый ассистент	Claude Sonnet 4.6	стандартный	~30–50%	~$2
Премиум (критические задачи)	GPT-5	стандартный	~35–55%	~$20
Прототипирование	DeepSeek V3	стандартный	~15–30%	~$0.30

* С обязательным человеческим ревью.

Production requirements

Четыре правила, без которых не идти в прод.

Никогда без ревью. Никогда не использовать без человеческого ревью или Qlik runtime-валидации. Лучшая модель даёт ~34% логически-корректных — каждый второй ответ требует проверки.
Настроить reasoning-модели. GPT-5, Gemini 2.5 Pro требуют max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.
Не перегружать few-shot. Для большинства моделей обогащённый промпт снижает точность. Простой промпт + по логике валидация работают лучше.
Sonnet/Haiku в роли судьи. Не Opus. Экономия 5–14× без потери качества оценки — проверено на 868 ответах.

Критерий	Рекомендованная модель	Инсайт
Лучшая для генерации по логике (по логике)	GPT-5	Лидер по оценке по логике (эквивалентность логики эталону) — 34%.
Оптимальная для базового ассистента	Claude Sonnet 4.6	Sweet spot для production — реалистичная точность ~30–50% (с ревью).
Стоимость Sonnet 4.6 на 1000 запросов	~$2	Экономия до 14× по сравнению с Opus.
Ключевая причина выбора Sonnet	Баланс точности и стоимости	Приемлемая точность 30–50% при очень низкой стоимости.

LLM пишут верный
правдоподобный код
для Qlik Set Analysis.

Резюме в четырёх пунктах.

Четыре цели исследования.

Три шага от промпта до балла.

13 × 31 × 1 промпт

5 финалистов × 3 промпта

Двойная оценка: число и логика.

«Совпало ли итоговое число с эталонным KPI?»

«Эквивалентно ли выражение эталонной формуле?»

Кандидаты: 13 моделей в 4 категориях.

Шесть технических открытий.

Reasoning-модели нужно настраивать.

114 случаев, когда модель угадала число, но не угадала выражение.

Не все 114 случаев — строго неправильные.

Обогащённый промпт ухудшает результаты.

Умный промпт не превращает дешёвую модель в дорогую.

Повторный прогон даёт другие числа.

Какую open-source модель развернуть локально?

13 моделей, ранжированных по по логике точности.

Кто держится при варьировании промпта.

$17.35 на весь бенчмарк.

Если LLM пойдёт в продукт.

Четыре правила, без которых не идти в прод.

Краткое резюме по моделям.

LLM пишут верный правдоподобный код для Qlik Set Analysis.

Резюме в четырёх пунктах.

Четыре цели исследования.

Три шага от промпта до балла.

13 × 31 × 1 промпт

5 финалистов × 3 промпта

Двойная оценка: число и логика.

«Совпало ли итоговое число с эталонным KPI?»

«Эквивалентно ли выражение эталонной формуле?»

Кандидаты: 13 моделей в 4 категориях.

Шесть технических открытий.

Reasoning-модели нужно настраивать.

114 случаев, когда модель угадала число, но не угадала выражение.

Не все 114 случаев — строго неправильные.

Обогащённый промпт ухудшает результаты.

Умный промпт не превращает дешёвую модель в дорогую.

Повторный прогон даёт другие числа.

Какую open-source модель развернуть локально?

13 моделей, ранжированных по по логике точности.

Кто держится при варьировании промпта.

$17.35 на весь бенчмарк.

Если LLM пойдёт в продукт.

Четыре правила, без которых не идти в прод.

Краткое резюме по моделям.

LLM пишут верный
правдоподобный код
для Qlik Set Analysis.