Ну то есть разбираться, применимы ли они - не нужно?
Разбираться, как влияют выбросы в твоих данных на сходимость и качество теста - тоже?
Ну наверное можно и так.
И про эффект множественных тестов можно тоже не догадываться. С 20й подряд попытки улучшить интерфейс приложения - можно радостно насчитать в калькуляторе стат значимую разницу. И катить в прод!)
2023-04-04 06:38:28
это другая крайность.
2023-04-04 06:38:18
следующий вопрос: множественные тесты. это я так понимаю пересечение экспериментов?
вроде это решается независимым и равномерным сплитованием трафика?
2023-04-04 06:41:28
Нет, я не про это.
У вас есть задача улучшить интерфейс. Вы пробуете подряд 20 улучшений, для каждого запускаете свой тест и ждете стат значимости.
И 20й тест наконец сработал. Что делать?
2023-04-04 06:43:09
понятный пример, не думал об этом, изучу на досуге. В моей скромной практике мы внедряли то что прокрасилось и все, простые люди :) Со временем правда местами наблюдалось "выгорание" эффекта фич.
2023-04-04 06:48:46
Поправку на ошибку I рода можно добавить
2023-04-04 18:13:34