1. Информация о корпусе LOB (BrE)

В датасет (https://goo.gl/pY55GP) собрана информация о корпусе британского английского:

1.1 Как скоррелированы средняя длина слов (towl) и количество токенов (to)? Найдите коэффициент корреляции и доверительный интервал для него.

1.2 Постройте регрессионную модель зависимости средней длины слов (towl) от количества токенов (to). Напишите математическую формулу получившейся модели и Adjusted R-squared.

2. Данные для моделирования гендерных различий

В датасет (https://goo.gl/Gj4Ynb) записаны данные из британского национального корпуса. На основании всех параметров постройте линейную регрессию, предсказывающую среднее значение длины слова, и выберите оптимальную модель (используйте аргумент “both”).

2.1 Найдите AIC получившейся модели.

2.2 Какие два предиктора получившийся модели имеют наименьший коэффициент корреляции? Предполагается, что будут взяты коэффициенты из получившийся модели и скормлены функции cor() в виде датафрейма. Не забудьте выкинуть категориальную переменную author_sex. Если Вы используете dplyr, то преобразование из матрицы в датафрейм можно сделать командой: … cor() %>% data.frame(., row.names(.)) %>% …

3. Частотный словарь [Ляшевская, Шаров 2009]

3.1 Смотрите, какой красивый график!

library(tidyverse)
freq.dict <- read.csv("http://goo.gl/aUNwr6", sep='\t')

3.2 Назовите интерсепт, коэффициенты регрессионной модели log(Freq.ipm.) ~ log(Doc), а также значение Adjusted R-squared.