@phyx00У нас все еще сложнее чем у банков 😆
2026-04-23 18:14:17
@olegb_07Тем более интересно обменяться
2026-04-23 18:14:53
@199884498Ну у меня тот же вопрос, как вы это измеряете?)
2026-04-23 18:15:45
@olegb_07У нас встроена система отчетности специальная - там LLM читает постфактум разговоры ботов и выявляет любые проблемы - когда бот ответил не так как надо - и дальше кейсы классифицируются и строится аналитика
Основной кейс кстати не галюцинации а
- нет нужных знаний
- или нет нужных интеграций с core banking system
2026-04-23 18:18:53
@199884498Считаете ли вы, что LLM будет в состоянии надежно выявить галлюцинацию другой LLM (или у вас детерминирована client-facing часть)? Если да, как вы это проверяли? Я вижу тут довольно сложную иерархическую цепочку замеров с ручной разметкой реальных запросов, желательно людьми не из команды (так как иначе они начинают фиксить кейсы, которые размечали и завышают точность)
2026-04-23 18:23:56
@mac_seemИнтересная тема. Особенно про платформу. Мы тоже пилим разных агентов, в т.ч. для формирования отчетов для менеджмента (как тут выше приводили пример), есть и другие эксперименты. Интересна оркестрация агентов, роли и политики агентов, шаринг контента между агентами и тп. Если кому интересно, было бы классно собраться и очно обменяться опытом.
2026-04-28 05:57:03
