Не знаю как ответить, смотря какие тесты.
2023-04-04 11:45:37
Тут логика простая. Мы при расчете значимости теста устанавливаем параметр Alpha, он обычно 0.95. его смысл в том, чтобы вероятность ложного прокрашивания теста ( т.е. даже в случае стат значимости по t-тесту) была не больше 1-0.95.
Когда подряд делаем кучу тестов и ждем, чтобы сработал хотя бы один из них - вероятность ложного прокрашивания растет как 1-0.95^N, где N - число наших попыток.
Т.е. если после 20 безуспешных тестов вдруг сработал 21й - то это скорее всего просто ложное срабатывание.
2023-04-04 11:51:43
я могу быть не прав, но мне казалось, что это касается случаев, когда мы тестируем несколько метрик в одном тесте
2023-04-04 11:55:13
И это тоже.
2023-04-04 11:55:24