@VitaliySkСудя по описанию двух слов не хватит
2026-04-22 14:53:26
@199884498Поброюзжу, что пока не видел ни одного такого чатбота, у которого был бы адекватным образом измерен уровень галлюцинаций в ответах
2026-04-23 17:13:28
@olegb_07Могу показать бота кандидата и дать с ним пообщаться
2026-04-23 17:37:47
@199884498было бы интересно, но если ты сам не делал замеров, то это уже подтверждает мои опасения)
2026-04-23 17:18:53
@phyx00Он бай дефолт не может галлюцинировать
2026-04-23 17:18:18
@199884498а он при этом приносит пользу по сравнению с небольшим набором дашбордов с фильтрами? не верю
2026-04-23 17:20:14
@phyx00Да я не буду переубеждать)
2026-04-23 17:21:04
@phyx00здесь должен был быть медиа файл, но наш сервер не резиновый: MessageMediaUnsupported
2026-04-23 17:33:45
@VitaliySkТы описал Palantir и Centcom прямо сейчас )))
2026-04-23 17:34:44
@phyx00Я вообще Греческий учу, ничего не знаю 😅
2026-04-23 17:35:21
@199884498Именно в удержании контекста и перехода от промежуточных результатов к выводу с проверкой очевидных подготовленному человеку подводных камней все решения которые я пока видел не справляются совершенно. Что логично потому что ллм из коробки не умеет даже надежно сравнивать два числа, если промпт не строго про это. Я готов поверить что сложная обвязка может закрыть проблему, но для того чтобы это сделать нужен замер уровня галлюцинаций и пока я не видел ни одного такого аккуратного e2e замера для аналитической системы.
Примеры файлов агентов которые у меня воспроизводились стабильно:
- не может найти день в котором данные не отправлялись 8 часов. В смысле отрицает аномалии на периоде. Если показать пальцем соглашается, затем предлагает заведомо неправильное объяснение происходящего и галюцинирует рост использования сразу после «блекаута»
- обозначает отклонение абсолютно в рамках нормального шума величины как стоящий изучения пик, разбирает по когортам и придумывает бизнес инсайты на основе шума в этих когортах
- принял нормальную недельную сезонность за рост относительно скользящего среднего
2026-04-23 17:49:14
@phyx00Это очень валидные кейсы, их можно отполировать
2026-04-23 17:51:01
@199884498Да, их можно пофиксить промптами или хитрой обвязкой, но 3 уважаемых компании ухитрились «не заметить» эти кейсы (которые буквально были вторыми-третьими в моем тыканье палкой) и делают удивленные лица на вопросы об уровне галлюцинаций. Я знаю что больше половины потенциальных юзеров «замены аналитика для простых задач» примет такие ответы агента без проблем потому что они генерят правдоподобные шаги и обоснования для этих ответов. И честно говоря если бы оно галюцинировало реже (скажем, 5%), то это становится даже опаснее, потому что галлюцинации будут согласованы с человеческими ошибками и при этом даже у аналитиков будет серьезный соблазн доверять модели
2026-04-24 19:15:35
@mivitaliiПростите, фейспалм.
2026-04-23 17:42:54
@phyx00Прощаю )
2026-04-23 17:44:48
