Корреляция и регрессионный анализ

1. Информация о корпусе LOB (BrE)

В датасет (https://goo.gl/pY55GP) собрана информация о корпусе британского английского:

to Token count
ty Type count (distinct words)
se Sentence count
towl Average word length (averaged across tokens in document)
tywl Average word length (averaged across distinct types in document)

1.1 Как скоррелированы средняя длина слов (towl) и количество токенов (to)? Найдите коэффициент корреляции и доверительный интервал для него.

1.2 Постройте регрессионную модель зависимости средней длины слов (towl) от количества токенов (to). Напишите математическую формулу получившейся модели и Adjusted R-squared.

2. Данные для моделирования гендерных различий

В датасет (https://goo.gl/Gj4Ynb) записаны данные из британского национального корпуса. На основании всех параметров постройте линейную регрессию, предсказывающую среднее значение длины слова, и выберите оптимальную модель (используйте аргумент “both”).

2.1 Найдите AIC получившейся модели.

2.2 Какие два предиктора получившийся модели имеют наименьший коэффициент корреляции? Предполагается, что будут взяты коэффициенты из получившийся модели и скормлены функции cor() в виде датафрейма. Не забудьте выкинуть категориальную переменную author_sex. Если Вы используете dplyr, то преобразование из матрицы в датафрейм можно сделать командой: … cor() %>% data.frame(., row.names(.)) %>% …

3. Частотный словарь [Ляшевская, Шаров 2009]

3.1 Смотрите, какой красивый график!

library(tidyverse)
freq.dict <- read.csv("http://goo.gl/aUNwr6", sep='\t')

3.2 Назовите интерсепт, коэффициенты регрессионной модели log(Freq.ipm.) ~ log(Doc), а также значение Adjusted R-squared.