Ну то есть разбираться, применимы ли они - не нужно? Разбираться, как влияют выбросы в твоих данных на сходимость и качество теста - тоже? Ну наверное можно и так. И про эффект множественных тестов можно тоже не догадываться. С 20й подряд попытки улучшить интерфейс приложения - можно радостно насчитать в калькуляторе стат значимую разницу. И катить в прод!)

2023-04-04 06:38:28


это другая крайность.

2023-04-04 06:38:18


следующий вопрос: множественные тесты. это я так понимаю пересечение экспериментов? вроде это решается независимым и равномерным сплитованием трафика?

2023-04-04 06:41:28


Нет, я не про это. У вас есть задача улучшить интерфейс. Вы пробуете подряд 20 улучшений, для каждого запускаете свой тест и ждете стат значимости. И 20й тест наконец сработал. Что делать?

2023-04-04 06:43:09


понятный пример, не думал об этом, изучу на досуге. В моей скромной практике мы внедряли то что прокрасилось и все, простые люди :) Со временем правда местами наблюдалось "выгорание" эффекта фич.

2023-04-04 06:48:46


Поправку на ошибку I рода можно добавить

2023-04-04 18:13:34