В датасет (https://goo.gl/pY55GP) собрана информация о корпусе британского английского:
1.1 Как скоррелированы средняя длина слов (towl) и количество токенов (to)? Найдите коэффициент корреляции и доверительный интервал для него.
1.2 Постройте регрессионную модель зависимости средней длины слов (towl) от количества токенов (to). Напишите математическую формулу получившейся модели и Adjusted R-squared.
В датасет (https://goo.gl/Gj4Ynb) записаны данные из британского национального корпуса. На основании всех параметров постройте линейную регрессию, предсказывающую среднее значение длины слова, и выберите оптимальную модель (используйте аргумент “both”).
2.1 Найдите AIC получившейся модели.
2.2 Какие два предиктора получившийся модели имеют наименьший коэффициент корреляции? Предполагается, что будут взяты коэффициенты из получившийся модели и скормлены функции cor() в виде датафрейма. Не забудьте выкинуть категориальную переменную author_sex. Если Вы используете dplyr, то преобразование из матрицы в датафрейм можно сделать командой: … cor() %>% data.frame(., row.names(.)) %>% …
3.1 Смотрите, какой красивый график!
library(tidyverse)
freq.dict <- read.csv("http://goo.gl/aUNwr6", sep='\t')
3.2 Назовите интерсепт, коэффициенты регрессионной модели log(Freq.ipm.) ~ log(Doc)
, а также значение Adjusted R-squared.