• Наука о данных в R для ЦГИ
  • 1 О курсе
  • 2 Введение в R
    • 2.1 Наука о данных
    • 2.2 Установка R и RStudio
    • 2.3 Полезные ссылки
    • 2.4 Rstudio
    • 2.5 Введение в R
      • 2.5.1 R как калькулятор
      • 2.5.2 Функции
      • 2.5.3 Переменные
    • 2.6 Типы данных
    • 2.7 Вектор
      • 2.7.1 Coercion
      • 2.7.2 Операции с векторами
      • 2.7.3 Recycling
      • 2.7.4 Индексирование векторов
      • 2.7.5 NA — пропущенные значения
      • 2.7.6 В любой непонятной ситуации — ищите в поисковике
    • 2.8 Матрицы (matrix)
    • 2.9 Списки (list)
    • 2.10 Data.frame
    • 2.11 Начинаем работу с реальными данными
      • 2.11.1 Рабочая папка и проекты
      • 2.11.2 Импорт данных
    • 2.12 Препроцессинг данных в R
      • 2.12.1 Исследование данных
      • 2.12.2 Subsetting
      • 2.12.3 Создание новых колонок
      • 2.12.4 data.table vs. tidyverse
  • 3 tidyverse: Загрузка и трансформация данных
    • 3.1 Загрузка данных
      • 3.1.1 Рабочая директория
      • 3.1.2 Форматы данных: .csv
      • 3.1.3 Загрузка данных: readr, readxl
    • 3.2 tibble
    • 3.3 dplyr
      • 3.3.1 dplyr::filter()
      • 3.3.2 dplyr::slice()
      • 3.3.3 dplyr::select()
      • 3.3.4 dplyr::arrange()
      • 3.3.5 dplyr::distinct()
      • 3.3.6 dplyr::mutate()
      • 3.3.7 dplyr::group_by(...) %>% summarise(...)
    • 3.4 Соединение датафреймов
      • 3.4.1 bind_...
      • 3.4.2 dplyr::.._join()
    • 3.5 tidyr package
    • 3.6 Полезные надстройки
  • 4 Визуализация данных
    • 4.1 Зачем визуализировать данные?
      • 4.1.1 Квартет Анскомба
      • 4.1.2 Датазаурус
    • 4.2 Основы ggplot2
      • 4.2.1 Диаграмма рассеяния (Scaterplot)
      • 4.2.2 Слои
      • 4.2.3 aes()
      • 4.2.4 Оформление
      • 4.2.5 Логарифмические шкалы
      • 4.2.6 annotate()
    • 4.3 Столбчатые диаграммы (barplots)
    • 4.4 Факторы
    • 4.5 Дотплот
    • 4.6 Гистограммы
    • 4.7 Функции плотности
    • 4.8 Точки, джиттер (jitter), вайолинплот (violinplot), ящики с усами (boxplot),
    • 4.9 Фасетизация
    • 4.10 Визуализация комбинаций признаков
      • 4.10.1 Потоковая Диаграмма (Sankey diagram)
      • 4.10.2 UpSet Plot
  • 5 Работа со строками
    • 5.1 Работа со строками в R
    • 5.2 Как получить строку?
    • 5.3 Соединение и разделение строк
    • 5.4 Количество символов
      • 5.4.1 Подсчет количества символов
      • 5.4.2 Подгонка количества символов
    • 5.5 Сортировка
    • 5.6 Поиск подстроки
    • 5.7 Изменение строк
      • 5.7.1 Изменение регистра
      • 5.7.2 Выделение подстроки
      • 5.7.3 Замена подстроки
      • 5.7.4 Удаление подстроки
      • 5.7.5 Транслитерация строк
    • 5.8 Регулярные выражения
      • 5.8.1 Экранирование метасимволов
      • 5.8.2 Классы знаков
      • 5.8.3 Квантификация
      • 5.8.4 Позиционная проверка (look arounds)
    • 5.9 Определение языка
    • 5.10 Расстояния между строками
  • 6 Работа со списками
    • 6.1 Что такое списки?
      • 6.1.1 Превращение JSON в список и обратно
      • 6.1.2 Превращение .xml в список и обратно
      • 6.1.3 Просмотр списков в R
    • 6.2 Пакет purrr
      • 6.2.1 Функция map() и map...()
      • 6.2.2 Фильтрация списков
      • 6.2.3 Операции со списками
  • 7 Представление данных: rmarkdown, shiny
    • 7.1 rmarkdown
      • 7.1.1 Установка
      • 7.1.2 Составляющие rmarkdown-документа
      • 7.1.3 Пример rmarkdown-документа
      • 7.1.4 Markdown
      • 7.1.5 Pandoc
      • 7.1.6 Code chunks
      • 7.1.7 YAML шапка
      • 7.1.8 Где хостить .html?
    • 7.2 Бывают и другие способы представления данных
  • 8 Собственные функции и использование их в tidyverse
    • 8.1 Напоминание: логические операции
    • 8.2 Создание собственных функций
    • 8.3 Использование условий в tidyverse
      • 8.3.1 Условия в строчках
      • 8.3.2 Условия в столбцах
    • 8.4 Reinvent the map function
  • 9 Работа с текстами: gutenbergr, tidytext, udpipe
    • 9.1 Пакет gutenbergr
    • 9.2 Библиотека tidytext
    • 9.3 Пакет udpipe
  • 10 Работа с геоданными: leaflet
    • 10.1 Векторная и растровая графика
    • 10.2 Картографические примитивы
    • 10.3 leaflet
      • 10.3.1 .csv файлы
      • 10.3.2 Комбинация карт: leafsync
      • 10.3.3 Работа с .geojson
  • 11 Работа со временем: lubridate
    • 11.1 Создание даты
    • 11.2 Извлечение компонентов даты
    • 11.3 Операции с датами
    • 11.4 Визуализация времени: данные Левада-центра
  • 12 Сбор данных из интернета: rvest
    • 12.1 Введение
    • 12.2 Работа с пакетом rvest
      • 12.2.1 Простой случай
    • 12.3 Использование атрибута class
      • 12.3.1 Чтение таблиц
      • 12.3.2 Некоторые советы
  • 13 Описательная статистика, распределения
    • 13.1 Описательная статистика
      • 13.1.1 Категориальные переменные
      • 13.1.2 Числовые переменные
    • 13.2 От частотности к вероятности
      • 13.2.1 Категориальная переменная
      • 13.2.2 Числовая переменная
      • 13.2.3 Распределения
      • 13.2.4 Давайте посчитаем вероятности
  • 14 Проверка статистических гипотез
    • 14.1 О статистике
    • 14.2 Проверка нулевой гипотезы
    • 14.3 Классификация статистических тестов
      • 14.3.1 Количество выборок
      • 14.3.2 Направление
      • 14.3.3 Парные vs. непарные
      • 14.3.4 Параметрические vs. непараметрические
      • 14.3.5 Классификация тестов
    • 14.4 Одновыборочные тесты
      • 14.4.1 Биномиальный тест
      • 14.4.2 Одновыборочный t-тест
      • 14.4.3 Тест Уилкоксона
    • 14.5 Двухвыборочные тесты
      • 14.5.1 Двухвыборочный t-тест
      • 14.5.2 Двухвыборочный парный t-тест
      • 14.5.3 Критерий Манна-Уитни
      • 14.5.4 χ², тест Фишера
      • 14.5.5 Критерий Мак Немара
    • 14.6 Об эффекте множественных сравнений
    • 14.7 Велечина эффекта
    • 14.8 Послесловие
  • 15 Статистические тесты для работы с категориальными данными
  • 16 Регрессия
  • 17 Кластеризация
  • 18 Методы уменьшения размерностей
  • 19 Работа с сетями
  • 20 Задания
    • 20.1 Вектор
    • 20.2 Вектор. Операции с векторами
    • 20.3 Вектор. Индексирование
    • 20.4 Списки
    • 20.5 Матрицы
    • 20.6 Датафрейм
  • 21 Решения_заданий
    • 21.1 Вектор
    • 21.2 Вектор. Операции с векторами
    • 21.3 Вектор. Индексирование
    • 21.4 Списки
    • 21.5 Матрицы
    • 21.6 Датафрейм
  • Ссылки на литературу

Наука о данных в R для программы Цифровых гуманитарных исследований

16 Регрессия

https://antoinesoetewey.shinyapps.io/statistics-202/