@olegb_07Ну если фигня то извините - я в таком тоне не готов
2026-04-23 18:38:04
@Serg_GiniВ том плане, что «гуманитарные» части - политики, правила .. всё что текстом
Там понятно как работать
Интересно про числа.
Фигня - не в том плане, что вы фигню сделали, а в том, что о том как с этим работать примерно понятно
2026-04-23 18:39:33
@olegb_07Если я правильно понял то под числами ты имеешь ввиду номера счетов, остатки суммы платежей ?
2026-04-23 18:41:31
@Serg_GiniЛюбые числа, где ошибаться нельзя.
Счета, суммы переводов, остатки.
Понятно что расчеты делаются кодом, но даже если расчет вернул правильное число - модель может показать что-то другое
2026-04-23 19:16:11
@mivitaliiДелаем похожие системы, аналитика + выводы и рекомендации по маркетингу.
Т.е. агенту даем условные 5-15 выгрузок ( срезы данных, динамика показателей и т.д.), он должен сформировать сводку - нарратив "что сейчас происходит" с контрольными показателями + экспертные рекомендации ( из базы, или как сейчас стало модно, скилла).
Для проверки чисел используем сложный llm as a judge, с custom chain of thought - по сути делает перекрестную сверку.
Но без чудес - без проверки врали примерно в каждом 8-10 показателе ( галлюцинации), стали врать примерно в каждом 30-40м :)
За счет сложной кустарной работы по распиливанию на субагентов - можно сделать выше, но пока вот так.
100% надежность от ЛЛМ, с любой обвязкой - это сказочники в нашем маленьком городке :)
2026-04-23 19:06:41
@199884498Это показатели на уровне чисел или итоговых рекомендаций?
2026-04-23 19:07:28
@mivitaliiЭто, условно, отчет для C-левел на 4-5 страниц. Там может быть от 30 до 50 показателей.
Мы держим на особом контроле несколько самых важных ( типа общая выручка, маржинальность и т.д.).
По второстепенным показателям как раз без проверок - sonnet наврет где-то в каждом 10м показателе ( было много входного контекста, сложные структуры и тд). С проверками - наврем в 1 из 40, условно :)
2026-04-23 19:12:43
@199884498Круто, что вы измеряете
2026-04-23 19:18:58
@mivitaliiСпасибо.
Если честно, делали еще в начале 2025 - там такие проверки тянули буквально 1-2 топовые модели.
На днях проверили на Qwen 3.6 мелком - тащит, проигрывая топам всего единицы процентов. Времена!)
2026-04-23 19:21:39
@Serg_GiniВот такой информации я и ждал!
Спасибо
2026-04-23 21:14:19
