1. Фриквентистские доверительные интервалы

Интерпретация доверительных интервалов не легкое дело. Если вы знакомы с этим понятием и считаете, что все ясно: раз, два, три, четыре, пять.

Так что дальше я излагаю свое мнение
… и мне больше не интересно про это спорить

Доверительный интервал для среднего:

\[\bar{x} \pm \text{z-score} \times \frac{\sigma}{\sqrt{n}}\]

z-score — это число в станадртных отклонениях нормального распределения, которые содержат центральные 95%, 99% и т. п. данных. Для 95% доверительного интервала это 1.96, для 99% доверительного интервала это 2.58.

[1] 1.959964
[1] 2.575829

Построим доверительный интервал для среднего веса 20-дневных цыплят из встроенного датасета ChickWeight.

Визуализация доверительного интервала

1.1

Чтобы не скучать, посчитайте 95% доверительный интервал для среднего значения уровня кислотности (ph) в датасете про мочу. Укажите нижнюю границу доверительного интервала (mean - ci) (два знака после запятой).


1.2 Бутстрэп

Если нужны какие-то более изощренные статистики, то можно использовать бустрэп.

1.3 Доверительный интервал и биномиальные данные

Сначала данные:

  • количество “не” в 311 рассказов А. Чехова
  • число слов в каждом рассказе

Распространение логики доверительного интервала на биномиальные данные называется интервал Вальда:

\[\bar{x} = \theta; \sigma = \sqrt{\frac{\theta\times(1-\theta)}{n}}\]

Тогда интервал Вальда:

\[\theta \pm z\times\sqrt{\frac{\theta\times(1-\theta)} {n}}\]

Есть только одна проблема: работает он плохо. Его аналоги перечислены в других работах:

  • assymptotic method with continuity correction
  • Wilson score
  • Wilson Score method with continuity correction
  • Jeffreys interval
  • Clopper–Pearson interval (default in R binom.test())
  • Agresti–Coull interval
  • … см. пакет binom

В базовом пакете функция binom.test() не позволяет выбирать тип доверительного интервала. ci.method = "Clopper-Pearson" возможна, если включить библиотеку mosaic.

1.4

В базе данных Phoible, в которой собраны фонологические инвентари в языках мира. В датасет записано три переменных:

  • language — язык;
  • consonants — количество согласных;
  • phonemes — количество фонем.

Посчитайте долю, которая составляет согласные от всего фонологического набора каждого языка и доверительный интервал для него (ci.method = "Clopper-Pearson"). Полученные интервалы округлите до 3 знаков после запятой, а в ответ укажите название языка на букву N с интервалом равный 0.514.


2. Байесовский доверительный интервал

2.1 Симметричный интервал (equal-tailed interval): медиана и квантили

Байесовский доверительный \(k\)-% интервал (по-английски credible interval) — это интервал \([\frac{k}{2}, 1-\frac{k}{2}]\) от апостериорного распределения. Давайте проапдейтим данные рассказов Чехова при помощи априорного распределения с параметрами (\(\alpha = 5.283022\), \(\beta = 231.6328\)), а дальше можем использовать функцию qbeta(), чтобы получить интервал, в котором находятся центральные \(k\)%.

2.2 Интервал максимальной (апостериорной) плотности (Highest (posterior) density interval): мода и HDI

В качестве аргумента в пользу HDI всегда приводят вот такое распределение:

2.4

В базе данных Phoible, в которой собраны фонологические инвентари в языках мира. В датасет записано три переменных:

  • language — язык;
  • consonants — количество согласных;
  • phonemes — количество фонем.

Посчитайте медиану и 80% симметричный интервал, которую составляет согласные от всего фонологического набора каждого языка, используя априорное бета распределение с параметрами α = 9.300246 и β = 4.4545. В ответе укажите язык, у которого интервал равен 0.083.


2.5

В базе данных Phoible, в которой собраны фонологические инвентари в языках мира. В датасет записано три переменных:

  • language — язык;
  • consonants — количество согласных;
  • phonemes — количество фонем.

Посчитайте моду и 80% интервал максимальной апостериорной плотности, которую составляет согласные от всего фонологического набора каждого языка, используя априорное бета распределение с параметрами α = 9.300246 и β = 4.4545. В ответе укажите язык, у которого интервал равен 0.091.


3. Вопросы к апостериорному распределению

A frequentist uses impeccable logic to answer the wrong question, while a Bayesian answers the right question by making assumptions that nobody can fully believe in. (P. G. Hammer)

  1. попытка оценить параметр θ и какой-нибудь интервал, в котором он лежит (см. предыдущий раздел).
  2. ответить на вопросы вроде
    • какая вероятность что значение θ больше некоторого значения \(x\)?
    • какая вероятность что значение θ лежит в интервале \([x; y]\)?
    • и т. п.

И это не p-value! Это настоящие вероятности!




© Г. Мороз 2019 с помощью RMarkdown. Исходный код на GitHub