Разметка ранее затранскрибированного файла в системе ELAN

Для работы понадобится ELAN и файл транскрипции вашей записи LiveCorpus ...2.txt (то есть последняя версия транскрипции, в которой вы выверяли хезитации и вставляли теги о нестандартном произношении и т.п.)

1. Уберите в файле транскрипции все xml теги

Создайте копию файла (например, rockclub2.txt -- Сохранить как -- rockclub3.txt)
Удалите все теги в угловых скобках (регулярное выражение для замены: <.*?> )

Было:

Валера@ Ну <distinct form="чё">что</distinct> их читать-то <distinct form="вапще">вообще</distinct>?

Стало:

Валера@ Ну что их читать-то вообще?

Разделите метку говорящего и саму реплику знаком табуляции. В итоге у вас должен получиться файл с разделителем-табуляцией для двух столбцов.
Разбейте файл на реплики (минимальные диалогические единицы), ориентируясь на точку, !, ? или знаки \\ в вашей транскрипции. В начале каждой реплики должна идти метка говорящего.
Используйте регулярные выражения для замены, чтобы сохранять метку говорящего в начале строки.

Было:

Валера@	Ну что их читать-то вообще?
Наташа@	Ну как это? Зрители. Комментарии зрителей читать надо. Что нет?
Валера@	Если б они дело писали, а всякую муру...

Стало:

Валера@ 	Ну что их читать-то вообще?
Наташа@ 	Ну как это?
Наташа@ 	Зрители.
Наташа@ 	Комментарии зрителей читать надо.
Наташа@ 	Что нет?
Валера@ 	Если б они дело писали, а всякую муру...

Не забудьте сохранить отредактированный файл.

2. В ELAN создайте новый проект (File -- New), привяжите к нему файл с вашей видео- (или аудио-) записью.

3. Импортируйте текстовый файл в проект (File -- Import -- CSV/Tab-delimited file)

Как вы догадываетесь, теперь метка говорящего будет представлять имя слоя, а реплика -- аннотацию ELAN-а.
Укажите параметры импорта:

Теперь проект должен выглядеть так:

4. Импортируйте типы слоев из шаблона LiveCorpus_template

Type -- Import...

5. Переименуйте слои в вашей аннотации по образцу Валера@text, Наташа@text, присвойте им тип Paragraph

Tier -- Change Tier Attributes...

6. Перейдите в режим Выделения аннотаций и измените время начала и конца каждой реплики согласно времени звучания в записи.

Чтобы сдвинуть реплику, активируйте слой, в котором она располагается (двойным кликом на имени слоя) и двигайте мышкой саму реплику влево-вправа или ее границы.
Вот так в результате выглядит мой файл:

Если вы хотите объединить две аннотации в одну (сделать единую реплику):
** выделите аннотацию, Right Click -- Merge with Next Annotation /Ctrl+A/ (или Merge with Previous Annotation /Ctrl+B/)
Если вы хотите разделить аннотацию на две: наведите мышкой на точку разбиения и Right Click -- Split Annotation

7. Токенизируйте каждый текстовый слой (необязательное задание)

Перейдите в режим аннотации (Option -- Annotation)
Для каждого говорящего создайте новый слой вида ...@word, связанный с родительским слоем ...@text отношением subdivision:

Токенизируйте каждый слой: Tier -- Tokenize tier... Подробности тут.
Выставлять временные метки для каждого слова не нужно.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Day11-ELAN-hw.md

Day11-ELAN-hw.md

Разметка ранее затранскрибированного файла в системе ELAN

1. Уберите в файле транскрипции все xml теги

2. В ELAN создайте новый проект (File -- New), привяжите к нему файл с вашей видео- (или аудио-) записью.

3. Импортируйте текстовый файл в проект (File -- Import -- CSV/Tab-delimited file)

4. Импортируйте типы слоев из шаблона LiveCorpus_template

5. Переименуйте слои в вашей аннотации по образцу Валера@text, Наташа@text, присвойте им тип Paragraph

6. Перейдите в режим Выделения аннотаций и измените время начала и конца каждой реплики согласно времени звучания в записи.

7. Токенизируйте каждый текстовый слой (необязательное задание)

8. В конце работы сохраните проект, загрузите .eaf файл в папку LiveCorpus вашего репозитория.

Files

Day11-ELAN-hw.md

Latest commit

History

Day11-ELAN-hw.md

File metadata and controls

Разметка ранее затранскрибированного файла в системе ELAN

1. Уберите в файле транскрипции все xml теги

2. В ELAN создайте новый проект (File -- New), привяжите к нему файл с вашей видео- (или аудио-) записью.

3. Импортируйте текстовый файл в проект (File -- Import -- CSV/Tab-delimited file)

4. Импортируйте типы слоев из шаблона LiveCorpus_template

5. Переименуйте слои в вашей аннотации по образцу Валера@text, Наташа@text, присвойте им тип Paragraph

6. Перейдите в режим Выделения аннотаций и измените время начала и конца каждой реплики согласно времени звучания в записи.

7. Токенизируйте каждый текстовый слой (необязательное задание)

8. В конце работы сохраните проект, загрузите .eaf файл в папку LiveCorpus вашего репозитория.