📊

Cyprus Data Chat
@cyprusdata  

Vitaly
@mivitalii

Тогда шансы что выграл хоть один чисто по ошибке - дико растут и надо делать поправку в альфе.

2023-04-04 13:17:12

Vitaly
@mivitalii

https://en.m.wikipedia.org/wiki/Bonferroni_correction
Может, в википедии не так коряво пишут, как я тут)

2023-04-04 12:54:20

Vitaly
@mivitalii

Если у вас просто параллельно два совершенно независимых теста на одной клиентской базе - там все ОК. Ну разве что тесты просто замедляют друг друга из-за возросшей дисперсии. Но это другое (с)

2023-04-04 12:52:30

Igor Bodrov
@bo_drit

Если я запущу два теста параллельно - A vs C1 и B vs C2, где С1, С2 - собранные по одинаковой процедуре контроли, почему тут мы не говорим, что возникает множественное сравнение?

💬 ответы (1)

2023-04-04 12:49:59

Vitaly
@mivitalii

Т.е. не так важно, параллельно несколько тестов или последовательно пытаетесь найти лучший вариант из 20ти. Чем больше вариантов тестируете, тем выше вероятность "случайного" прокрашивания единичного теста, т.е. подтверждения стат значимости там, где ее нет.

💬 ответы (2)

2023-04-04 11:56:49

Vitaly
@mivitalii

Аналогичная история, если вы делаете не АБ тест, а ABCDEF тест, тоесть параллельно запустили 6 вариантов дизайна, например. Тут вы по факту запустили по факту 14 тестов ( 14 возможных пар для сравнения каждый с каждым) и вероятность что хоть одна пара ложно прокрасится - взлетает ближе к 1ке)

💬 ответы (2)

2023-04-04 11:55:08

Vitaly
@mivitalii

Короче, это правда долгая тема) Так что делать с 20ю тестами подряд, последний из которых таки сработал?)

💬 ответы (4)

2023-04-04 07:09:22

Vitaly
@mivitalii

Про разницу между z и t вроде бы все просто, на самом деле) Насколько я помню, начиная с нескольких тысяч событий - вообще без разницы, t или z :)
Вот кажется неплохой пример объяснения.
https://www.khanacademy.org/math/statistics-probability/significance-tests-one-sample/more-significance-testing-videos/v/z-statistics-vs-t-statistics

💬 ответы (1)

2023-04-04 11:46:00

Evgeny K
@joegone

ok, иногда надо чистить данные. Следующее по порядку - применимость теста. Можно пожалуйста наглядный пример когда надо не t, а z или что еще бывает?

2023-04-04 06:50:18

Evgeny K
@joegone

я говорю конкретно про практику: аб-тесты интерфейсов сайтов, мобилок, геймплэй игр

💬 ответы (4)

2023-04-04 11:43:36

Evgeny K
@joegone

давай по порядку: удалять выбросы или нет - разве тут есть консенсус? типа сфигали лезть руками в то, что случилось

2023-04-04 06:39:13

Leandro Cassius
@147812713

После вчерашнего обсуждения, я стал читать статьи которые отправили тут, и ещё и вот эту статью прочитал. В итоге мне показалось проще использовать бутстреп чем пытаться разбираться в специфике одного или другого теста. Ну чуть дольше надо ждать, но если бутстреп уже знакомый и подходит для большинств случаев, то почему бы и не пользоваться?

💬 ответы (3)

2023-04-04 06:45:19

Vitaly
@mivitalii

Ну то есть разбираться, применимы ли они - не нужно? Разбираться, как влияют выбросы в твоих данных на сходимость и качество теста - тоже? Ну наверное можно и так. И про эффект множественных тестов можно тоже не догадываться. С 20й подряд попытки улучшить интерфейс приложения - можно радостно насчитать в калькуляторе стат значимую разницу. И катить в прод!)

💬 ответы (5)

2023-04-04 06:38:28

Evgeny K
@joegone

или там манна-уитни - это где обычно применяется? я не из вредности спрашиваю, я хочу узнать реальные кейсы в целях познания

2023-04-04 06:36:34

Vitaly
@mivitalii

Тип распределения, наверное, не так вашен сначала. Но понимание, что у конверсии на выборке N юзеров есть доверительные интервалы, и что между 1.5% и 1.65% может не оказаться значимой разницы - очень важно, ИМХО.

💬 ответы (1)

2023-04-04 06:32:06

Evgeny K
@joegone

Я допускаю что ничего не знаю о мире слишком больших или наоборот дефицитных данных, или о мире абтестов непрерывных метрик типа арпу в игрушках или маркетплейсах. Когда все эти умные слова действительно помогают в делах?

💬 ответы (2)

2023-04-04 06:11:21

Evgeny K
@joegone

Ок, тогда давайте продолжим. Действительно было очень интересно присутствовать при битве грандов матстата. А можно теперь пример из жизни когда для аб-теста конверсии действительно важно т-тест или z-test? Или по другому: в каких случаях действительно важно так глубоко копать в тип теста и распределения? Я продакт в мобилке и пару лет абтестил конверсии вообще без этого вот всего. Возможно где-то это было не вполне корректно, но задача была искать реальные сдвиги, а не микроулучшения. Поэтому слова типа бутстрэп даже не звучали.

2023-04-04 06:16:25

Fedor Turchenko
@Fedor_Turchenko

Я наоборот только за, чтобы были такие дискуссии) Сразу полетели полезные ссылки, да и в целом было интересно почитать разные мнения. Просто до сегодняшнего дня в чате, кроме анонсов митапов и постов с вакансиями, ничего особо и не было 😅

2023-04-03 20:05:59

Vitaly
@mivitalii

Ребят, хотел бы извиниться за то, что развел такую дискуссию, тем более что начал с критики чужого резюме. Хотел как лучше, считал этот чат скорее тусовкой, где можно неформально дать совет, если видишь некую очевидную ( субъективно) проблему.. А получилось как-то не совсем то( Постараюсь в следующий раз такое строго в личку)

💬 ответы (1)

2023-04-03 20:06:13

Anastasia
@403840178

Кажется, назрела тема для следующего дата митапа)

2023-04-03 18:46:17

следующая страница