Возможен ли отказ от выборки? Байесовский подход к типологическому исследованию

Г. Мороз (Лаборатория языковой конвергенции)

XV конференция по типологии и грамматике для молодых исследователей
Санкт-Петербург, 23.11.2018

Презентация доступна: https://tinyurl.com/ybtpprzk

Два вида статистики

В статистических исследованиях существует несколько школ, основые (см. (Efron and Hastie 2016)):

  1. фриквентистская
  2. байесовская

Разница подходов

В любой задаче мы пытаемся оценить некоторый параметр θ генеральной совокупности.

Фриквентисткий подход

Фриквентисткий подход исходит из идеи, что есть некоторая генеральная совокупность из которой мы берем выборки и оцениваем параметр θ̂. Таким образом параметр считается фиксированным, а оценка, полученная на основе выборки — результат независимого эксперимента. Результаты разных экспериментов должны быть основаны на разных выборках, а различия, полученные в результате разных экспериментов объясняются флуктуацией выборки.

Байесовский подход

В байесовском подходе всему, в том числе оцениваемому параметру приписывается вероятностное распределение, которое получается по формуле Байеса из априорного распределения (некоторые изначальные предположения о природе θ) и оценки, полученных из выборки.

Подходы к типологическому исследованию

Фриквентистский

Байесовский

Что потом можно сделать с полученными оценками?

Переходы из одного типа в другой:

P(VSO → VSO) P(SVO → VSO) P(SOV → VSO)
P(VSO → SVO) P(SVO → SVO) P(SOV → SVO)
P(VSO → SOV) P(SVO → SOV) P(SOV → SOV)

Произвольные вероятности из [Widmann 2001]:

0.90 0.02 0.01
0.09 0.90 0.09
0.01 0.08 0.90

Markov chains [Widmann 2001]

Type 1: VSO; Type 2: SVO; Type 3: SOV

Недостатки фриквентистского подхода: репрезентативность выборки

Недостатки фриквентистского подхода: репрезентативность выборки

Недостатки байесовского подхода: априорное распределение

Мое предложение

Empirical Bayes Estimation: общее

Empirical Bayes Estimation (Robbins 1985) — это техника, которая позваляет получать априорное распределение на основании большого количества данных.

Empirical Bayes Estimation: пример 1

Допустим, что мы получили парметры оценки 5 успехов и 15 неудач. Какую оценку получит языковая семья, в которой два языка и оба с абруптивными?

Empirical Bayes Estimation: пример 2

Допустим, что мы получили парметры оценки 5 успехов и 15 неудач. Какую оценку получит языковая семья, в которой два языка и оба не имеют абруптивных?

Empirical Bayes Estimation: пример 3

Допустим, что мы получили парметры оценки 5 успехов и 15 неудач. Какую оценку получит языковая семья, в которой двадцать языков и 19 не имеют абруптивных?

Empirical Bayes Estimation: исследуем выбросы

Спасибо!

Г. Мороз ()

Ссылка на презентацию: https://tinyurl.com/ybtpprzk

Referenses

Baker, D. 2010. “Language Sampling.” In The Oxford Handbook of Linguistic Typology, edited by J. J. Song. Oxford University Press.

Bell, A. 1978. “Language Samples.” In Universals of Human Language, Vol. 4: Syntax, edited by Joseph Harold Greenberg, Charles Albert Ferguson, and Edith A Moravcsik. Stanford University Press.

Dryer, Matthew S. 1989. “Large Linguistic Areas and Language Sampling.” Studies in Language. International Journal Sponsored by the Foundation “Foundations of Language” 13 (2). John Benjamins Publishing Company: 257–92.

Efron, Bradley, and Trevor Hastie. 2016. Computer Age Statistical Inference. Vol. 5. Cambridge University Press.

Janssen, Dirk P., Balthasar Bickel, and Fernando Zúñiga. 2006. “Randomization Tests in Language Typology.” Linguistic Typology. Walter de Gruyter, 419–40.

Maslova, Elena. 2000. “A Dynamic Approach to the Verification of Distributional Universals.” Linguistic Typology 4 (3). Walter de Gruyter, Berlin/New York: 307–33.

Nichols, Johanna. 1992. Linguistic Diversity in Space and Time. University of Chicago Press.

Perkins, Revere D. 1989. “Statistical Techniques for Determining Language Sample Size.” Studies in Language. International Journal Sponsored by the Foundation “Foundations of Language” 13 (2). John Benjamins Publishing Company: 293–315.

Rietveld, Toni, and Roeland Van Hout. 1993. Statistical Techniques for the Study of Language and Language Behaviour. Walter de Gruyter.

Rijkhoff, Jan, and Dik Bakker. 1998. “Language Sampling.” Linguistic Typology 2 (3): 263–314.

Robbins, Herbert. 1985. “An Empirical Bayes Approach to Statistics.” In Herbert Robbins Selected Papers, 41–47. Springer.

Widmann, Thomas Martin. 2001. “Language Sampling for Typological Studies.” Master’s thesis, University of Aarhus.