Возможен ли отказ от выборки? Байесовский подход к типологическому исследованию

Г. Мороз (Лаборатория языковой конвергенции)

XV конференция по типологии и грамматике для молодых исследователей
Санкт-Петербург, 23.11.2018

Презентация доступна: https://tinyurl.com/ybtpprzk

Два вида статистики

В статистических исследованиях существует несколько школ, основые (см. (Efron and Hastie 2016)):

фриквентистская
байесовская

Разница подходов

В любой задаче мы пытаемся оценить некоторый параметр θ генеральной совокупности.

Фриквентисткий подход

Фриквентисткий подход исходит из идеи, что есть некоторая генеральная совокупность из которой мы берем выборки и оцениваем параметр θ̂. Таким образом параметр считается фиксированным, а оценка, полученная на основе выборки — результат независимого эксперимента. Результаты разных экспериментов должны быть основаны на разных выборках, а различия, полученные в результате разных экспериментов объясняются флуктуацией выборки.

параметр θ – фиксирован
данные варьируются

Байесовский подход

В байесовском подходе всему, в том числе оцениваемому параметру приписывается вероятностное распределение, которое получается по формуле Байеса из априорного распределения (некоторые изначальные предположения о природе θ) и оценки, полученных из выборки.

параметр θ – носит вероятностный характер
данные фиксированы

Подходы к типологическому исследованию

Фриквентистский

Создаем репрезентативную выборку языков
Оцениваем интересующий нас параметр
При повторном исследовании пересобираем выборку

Байесовский

Собираем в априорное распределение наши ожидания, предыдущие работы и т. п.
Создаем выборку языков
Обновляем наши ожидания при помощи данных из выборки

Что потом можно сделать с полученными оценками?

написать статью
построить марковские цепи [Manova 2000], [Widmann 2001]

Переходы из одного типа в другой:

P(VSO → VSO)	P(SVO → VSO)	P(SOV → VSO)
P(VSO → SVO)	P(SVO → SVO)	P(SOV → SVO)
P(VSO → SOV)	P(SVO → SOV)	P(SOV → SOV)

Произвольные вероятности из [Widmann 2001]:

0.90	0.02	0.01
0.09	0.90	0.09
0.01	0.08	0.90

Markov chains [Widmann 2001]

Type 1: VSO; Type 2: SVO; Type 3: SOV

Недостатки фриквентистского подхода: репрезентативность выборки

(Bell 1978) “Language Samples”
(Dryer 1989) “Large Linguistic Areas and Language Sampling”
(Perkins 1989) “Statistical Techniques for Determining Language Sample Size”
(Nichols 1992) “Linguistic Diversity in Space and Time”
(Rietveld and Van Hout 1993) “Statistical Techniques for the Study of Language and Language Behaviour”
(Rijkhoff and Bakker 1998) “Language sampling”
(Maslova 2000) “A dynamic approach to the verification of distributional universals”
(Widmann 2001) “Language Sampling for Typological Studies”
(Janssen, Bickel, and Zúñiga 2006) “Randomization Tests in Language Typology”
(Baker 2010) “Language Sampling”

Недостатки фриквентистского подхода: репрезентативность выборки

генетические
контакты
? культурные
типологические
библиографические
популяционные

Недостатки байесовского подхода: априорное распределение

эта технику ругают за субъективизм
математическая сложность (лингвистам трудно все, что не пропорция/проценты)

Мое предложение

Единицей исследования можно считать языковую семью
Исследуем все доступные материалы по выборке семей
Нет выборкам (но если очень нужно их можно делать из всех доступных данных)
Не обязательно ждать конца исследования, чтобы получить результаты (Байесовское мышление)
Сравниваем внутригрупповую дисперсию признака с дисперсией по всем группам
- получаем ответ на вопрос, что редко, что часто
- получаем “ответ” на вопрос: типологическое vs. ареальное vs. генеалогическое
Empirical Bayes Estimation
Missing species problem

Empirical Bayes Estimation: общее

Empirical Bayes Estimation (Robbins 1985) — это техника, которая позваляет получать априорное распределение на основании большого количества данных.

Допустим у нас есть несколько языковых семей (с разным количеством языков)
Для каждого языка мы выясняем параметр θ (например, есть абруптивные звуки?)
Дальше для каждой языковой семьи мы получаем долю языков с интересующим нас параметром
Отсекаем семьи с малым количеством языков (я брал семьи с количеством языков больше 5)
Оцениваем бета распределение (α — количество успехов, β — количество неудач), которое описывает распределение долей в языковых семьях
Используем полученные параметры бета распределения в качестве априорного распределения для того, чтобы обновить наши данные
Исследуем выбросы

Empirical Bayes Estimation: пример 1

Допустим, что мы получили парметры оценки 5 успехов и 15 неудач. Какую оценку получит языковая семья, в которой два языка и оба с абруптивными?

Empirical Bayes Estimation: пример 2

Допустим, что мы получили парметры оценки 5 успехов и 15 неудач. Какую оценку получит языковая семья, в которой два языка и оба не имеют абруптивных?

Empirical Bayes Estimation: пример 3

Допустим, что мы получили парметры оценки 5 успехов и 15 неудач. Какую оценку получит языковая семья, в которой двадцать языков и 19 не имеют абруптивных?

Empirical Bayes Estimation: исследуем выбросы

База данных PHOIBLE

Спасибо!

Г. Мороз (agricolamz@gmail.com)

Ссылка на презентацию: https://tinyurl.com/ybtpprzk

Referenses

Baker, D. 2010. “Language Sampling.” In The Oxford Handbook of Linguistic Typology, edited by J. J. Song. Oxford University Press.

Bell, A. 1978. “Language Samples.” In Universals of Human Language, Vol. 4: Syntax, edited by Joseph Harold Greenberg, Charles Albert Ferguson, and Edith A Moravcsik. Stanford University Press.

Dryer, Matthew S. 1989. “Large Linguistic Areas and Language Sampling.” Studies in Language. International Journal Sponsored by the Foundation “Foundations of Language” 13 (2). John Benjamins Publishing Company: 257–92.

Efron, Bradley, and Trevor Hastie. 2016. Computer Age Statistical Inference. Vol. 5. Cambridge University Press.

Janssen, Dirk P., Balthasar Bickel, and Fernando Zúñiga. 2006. “Randomization Tests in Language Typology.” Linguistic Typology. Walter de Gruyter, 419–40.

Maslova, Elena. 2000. “A Dynamic Approach to the Verification of Distributional Universals.” Linguistic Typology 4 (3). Walter de Gruyter, Berlin/New York: 307–33.

Nichols, Johanna. 1992. Linguistic Diversity in Space and Time. University of Chicago Press.

Perkins, Revere D. 1989. “Statistical Techniques for Determining Language Sample Size.” Studies in Language. International Journal Sponsored by the Foundation “Foundations of Language” 13 (2). John Benjamins Publishing Company: 293–315.

Rietveld, Toni, and Roeland Van Hout. 1993. Statistical Techniques for the Study of Language and Language Behaviour. Walter de Gruyter.

Rijkhoff, Jan, and Dik Bakker. 1998. “Language Sampling.” Linguistic Typology 2 (3): 263–314.

Robbins, Herbert. 1985. “An Empirical Bayes Approach to Statistics.” In Herbert Robbins Selected Papers, 41–47. Springer.

Widmann, Thomas Martin. 2001. “Language Sampling for Typological Studies.” Master’s thesis, University of Aarhus.