Для работы понадобится ELAN и файл транскрипции вашей записи LiveCorpus ...2.txt (то есть последняя версия транскрипции, в которой вы выверяли хезитации и вставляли теги о нестандартном произношении и т.п.)
- Создайте копию файла (например, rockclub2.txt -- Сохранить как -- rockclub3.txt)
- Удалите все теги в угловых скобках (регулярное выражение для замены: <.*?> )
Было:
Валера@ Ну <distinct form="чё">что</distinct> их читать-то <distinct form="вапще">вообще</distinct>?
Стало:
Валера@ Ну что их читать-то вообще?
-
Разделите метку говорящего и саму реплику знаком табуляции. В итоге у вас должен получиться файл с разделителем-табуляцией для двух столбцов.
-
Разбейте файл на реплики (минимальные диалогические единицы), ориентируясь на точку,
!
,?
или знаки\\
в вашей транскрипции. В начале каждой реплики должна идти метка говорящего.
Используйте регулярные выражения для замены, чтобы сохранять метку говорящего в начале строки.
Было:
Валера@ Ну что их читать-то вообще?
Наташа@ Ну как это? Зрители. Комментарии зрителей читать надо. Что нет?
Валера@ Если б они дело писали, а всякую муру...
Стало:
Валера@ Ну что их читать-то вообще?
Наташа@ Ну как это?
Наташа@ Зрители.
Наташа@ Комментарии зрителей читать надо.
Наташа@ Что нет?
Валера@ Если б они дело писали, а всякую муру...
- Не забудьте сохранить отредактированный файл.
2. В ELAN создайте новый проект (File -- New), привяжите к нему файл с вашей видео- (или аудио-) записью.
- Как вы догадываетесь, теперь метка говорящего будет представлять имя слоя, а реплика -- аннотацию ELAN-а.
- Укажите параметры импорта:
Теперь проект должен выглядеть так:
4. Импортируйте типы слоев из шаблона LiveCorpus_template
- Type -- Import...
5. Переименуйте слои в вашей аннотации по образцу Валера@text, Наташа@text, присвойте им тип Paragraph
- Tier -- Change Tier Attributes...
6. Перейдите в режим Выделения аннотаций и измените время начала и конца каждой реплики согласно времени звучания в записи.
- Чтобы сдвинуть реплику, активируйте слой, в котором она располагается (двойным кликом на имени слоя) и двигайте мышкой саму реплику влево-вправа или ее границы.
Вот так в результате выглядит мой файл:
-
Если вы хотите объединить две аннотации в одну (сделать единую реплику):
** выделите аннотацию, Right Click -- Merge with Next Annotation /Ctrl+A/ (или Merge with Previous Annotation /Ctrl+B/) -
Если вы хотите разделить аннотацию на две: наведите мышкой на точку разбиения и Right Click -- Split Annotation
- Перейдите в режим аннотации (Option -- Annotation)
- Для каждого говорящего создайте новый слой вида ...@word, связанный с родительским слоем ...@text отношением subdivision:
-
Токенизируйте каждый слой: Tier -- Tokenize tier... Подробности тут.
-
Выставлять временные метки для каждого слова не нужно.