Короче, это правда долгая тема) Так что делать с 20ю тестами подряд, последний из которых таки сработал?)

2023-04-04 07:09:22


Не знаю как ответить, смотря какие тесты.

2023-04-04 11:45:37


Тут логика простая. Мы при расчете значимости теста устанавливаем параметр Alpha, он обычно 0.95. его смысл в том, чтобы вероятность ложного прокрашивания теста ( т.е. даже в случае стат значимости по t-тесту) была не больше 1-0.95. Когда подряд делаем кучу тестов и ждем, чтобы сработал хотя бы один из них - вероятность ложного прокрашивания растет как 1-0.95^N, где N - число наших попыток. Т.е. если после 20 безуспешных тестов вдруг сработал 21й - то это скорее всего просто ложное срабатывание.

2023-04-04 11:51:43


я могу быть не прав, но мне казалось, что это касается случаев, когда мы тестируем несколько метрик в одном тесте

2023-04-04 11:55:13


И это тоже.

2023-04-04 11:55:24