это всё фигня на кипре

Cyprus Data Chat
@cyprusdata

@Serg_Gini

Это всё фигня Как вы проверяете вставляемые числа?)

2026-04-23 18:37:16

@olegb_07

Ну если фигня то извините - я в таком тоне не готов

2026-04-23 18:38:04

@Serg_Gini

В том плане, что «гуманитарные» части - политики, правила .. всё что текстом Там понятно как работать Интересно про числа. Фигня - не в том плане, что вы фигню сделали, а в том, что о том как с этим работать примерно понятно

2026-04-23 18:39:33

@olegb_07

Если я правильно понял то под числами ты имеешь ввиду номера счетов, остатки суммы платежей ?

2026-04-23 18:41:31

@Serg_Gini

Любые числа, где ошибаться нельзя. Счета, суммы переводов, остатки. Понятно что расчеты делаются кодом, но даже если расчет вернул правильное число - модель может показать что-то другое

2026-04-23 19:16:11

@mivitalii

Делаем похожие системы, аналитика + выводы и рекомендации по маркетингу. Т.е. агенту даем условные 5-15 выгрузок ( срезы данных, динамика показателей и т.д.), он должен сформировать сводку - нарратив "что сейчас происходит" с контрольными показателями + экспертные рекомендации ( из базы, или как сейчас стало модно, скилла). Для проверки чисел используем сложный llm as a judge, с custom chain of thought - по сути делает перекрестную сверку. Но без чудес - без проверки врали примерно в каждом 8-10 показателе ( галлюцинации), стали врать примерно в каждом 30-40м :) За счет сложной кустарной работы по распиливанию на субагентов - можно сделать выше, но пока вот так. 100% надежность от ЛЛМ, с любой обвязкой - это сказочники в нашем маленьком городке :)

2026-04-23 19:06:41

@199884498

Это показатели на уровне чисел или итоговых рекомендаций?

2026-04-23 19:07:28

@mivitalii

Это, условно, отчет для C-левел на 4-5 страниц. Там может быть от 30 до 50 показателей. Мы держим на особом контроле несколько самых важных ( типа общая выручка, маржинальность и т.д.). По второстепенным показателям как раз без проверок - sonnet наврет где-то в каждом 10м показателе ( было много входного контекста, сложные структуры и тд). С проверками - наврем в 1 из 40, условно :)

2026-04-23 19:12:43

@199884498

Круто, что вы измеряете

2026-04-23 19:18:58

@mivitalii

Спасибо. Если честно, делали еще в начале 2025 - там такие проверки тянули буквально 1-2 топовые модели. На днях проверили на Qwen 3.6 мелком - тащит, проигрывая топам всего единицы процентов. Времена!)

2026-04-23 19:21:39

@Serg_Gini

Вот такой информации я и ждал! Спасибо

2026-04-23 21:14:19