Vitaly
@mivitalii
@mivitalii
https://en.m.wikipedia.org/wiki/Bonferroni_correction
Может, в википедии не так коряво пишут, как я тут)
Может, в википедии не так коряво пишут, как я тут)
2023-04-04 12:54:20
Igor Bodrov
@bo_drit
@bo_drit
Если я запущу два теста параллельно - A vs C1 и B vs C2, где С1, С2 - собранные по одинаковой процедуре контроли, почему тут мы не говорим, что возникает множественное сравнение?
💬 ответы (1)
2023-04-04 12:49:59
Vitaly
@mivitalii
@mivitalii
Т.е. не так важно, параллельно несколько тестов или последовательно пытаетесь найти лучший вариант из 20ти.
Чем больше вариантов тестируете, тем выше вероятность "случайного" прокрашивания единичного теста, т.е. подтверждения стат значимости там, где ее нет.
💬 ответы (2)
2023-04-04 11:56:49
Vitaly
@mivitalii
@mivitalii
Аналогичная история, если вы делаете не АБ тест, а ABCDEF тест, тоесть параллельно запустили 6 вариантов дизайна, например.
Тут вы по факту запустили по факту 14 тестов ( 14 возможных пар для сравнения каждый с каждым) и вероятность что хоть одна пара ложно прокрасится - взлетает ближе к 1ке)
💬 ответы (2)
2023-04-04 11:55:08
Vitaly
@mivitalii
@mivitalii
Короче, это правда долгая тема)
Так что делать с 20ю тестами подряд, последний из которых таки сработал?)
💬 ответы (4)
2023-04-04 07:09:22
Vitaly
@mivitalii
@mivitalii
Про разницу между z и t вроде бы все просто, на самом деле) Насколько я помню, начиная с нескольких тысяч событий - вообще без разницы, t или z :)
Вот кажется неплохой пример объяснения.
https://www.khanacademy.org/math/statistics-probability/significance-tests-one-sample/more-significance-testing-videos/v/z-statistics-vs-t-statistics
Вот кажется неплохой пример объяснения.
https://www.khanacademy.org/math/statistics-probability/significance-tests-one-sample/more-significance-testing-videos/v/z-statistics-vs-t-statistics
💬 ответы (1)
2023-04-04 11:46:00
Evgeny K
@joegone
@joegone
я говорю конкретно про практику: аб-тесты интерфейсов сайтов, мобилок, геймплэй игр
💬 ответы (4)
2023-04-04 11:43:36
Leandro Cassius
@147812713
@147812713
После вчерашнего обсуждения, я стал читать статьи которые отправили тут, и ещё и вот эту статью прочитал. В итоге мне показалось проще использовать бутстреп чем пытаться разбираться в специфике одного или другого теста. Ну чуть дольше надо ждать, но если бутстреп уже знакомый и подходит для большинств случаев, то почему бы и не пользоваться?
💬 ответы (3)
2023-04-04 06:45:19
Vitaly
@mivitalii
@mivitalii
Ну то есть разбираться, применимы ли они - не нужно?
Разбираться, как влияют выбросы в твоих данных на сходимость и качество теста - тоже?
Ну наверное можно и так.
И про эффект множественных тестов можно тоже не догадываться. С 20й подряд попытки улучшить интерфейс приложения - можно радостно насчитать в калькуляторе стат значимую разницу. И катить в прод!)
💬 ответы (5)
2023-04-04 06:38:28
Vitaly
@mivitalii
@mivitalii
Тип распределения, наверное, не так вашен сначала. Но понимание, что у конверсии на выборке N юзеров есть доверительные интервалы, и что между 1.5% и 1.65% может не оказаться значимой разницы - очень важно, ИМХО.
💬 ответы (1)
2023-04-04 06:32:06
Evgeny K
@joegone
@joegone
Я допускаю что ничего не знаю о мире слишком больших или наоборот дефицитных данных, или о мире абтестов непрерывных метрик типа арпу в игрушках или маркетплейсах.
Когда все эти умные слова действительно помогают в делах?
💬 ответы (2)
2023-04-04 06:11:21
Evgeny K
@joegone
@joegone
Ок, тогда давайте продолжим. Действительно было очень интересно присутствовать при битве грандов матстата. А можно теперь пример из жизни когда для аб-теста конверсии действительно важно т-тест или z-test?
Или по другому: в каких случаях действительно важно так глубоко копать в тип теста и распределения?
Я продакт в мобилке и пару лет абтестил конверсии вообще без этого вот всего. Возможно где-то это было не вполне корректно, но задача была искать реальные сдвиги, а не микроулучшения. Поэтому слова типа бутстрэп даже не звучали.
2023-04-04 06:16:25
Vitaly
@mivitalii
@mivitalii
Ребят, хотел бы извиниться за то, что развел такую дискуссию, тем более что начал с критики чужого резюме. Хотел как лучше, считал этот чат скорее тусовкой, где можно неформально дать совет, если видишь некую очевидную ( субъективно) проблему.. А получилось как-то не совсем то(
Постараюсь в следующий раз такое строго в личку)
💬 ответы (1)
2023-04-03 20:06:13