Данные доступны здесь.
На этом этапе, данные надо почистить и подкорректировать: нужно в полученной автоматически разметке удалить лишнюю разметку и добавить нехватающую. Этим НЕ НАДО заниматься на семинаре. Скачайте уже корректные файлы: звук и текстгрид. Потом, используя команды из вкладки Tier
можно поменять структуру разметки на ту, которая хороша для документации языка. Я считаю, что необходимы следующие слои:
Эта структура представлена на рисунке ниже:
К сожалению, запись и чтение файлов в Praat нужно настраивать: для сегодняшнего семинара необходимо поменять кодировку чтения и записи файлов.
Я предлагаю автоматически заполнить полученные файлы, используя следующие файлы:
Для разметки звуков нужно создавать аннотацию в каждой второй разметке:
Аналогично можно разметить остальные слои. После этого можно воспользоваться вот этим скриптом и вынуть всю необходимую информацию. Нам понадобиться только длительность, хотя скрипт вынимает еще и ЧОТ, а также форманты гласных. Если у Вас что-то не получается, можно попробовать запустить скрипт на этом текстгриде. Если у Вас все равно не получилось, можно взять вот этот файл с результатами.