-
Notifications
You must be signed in to change notification settings - Fork 0
Соответствие речи докладчика плану (презентации)
Соответствие оценивается на основе вхождения ключевых слов презентации в речь докладчика.
Если докладчик не говорит о вещах, упомянутых на слайде, то визуальное сопровождение его речи служит отвлекающим фактором. В таком случае низкий результат работы критерия свидетельствует о том, что докладчику стоит актуализировать презентацию, убрать "лишние" слайды.
Проблема, оказывающая внушительное влияние на работу критерия -- это качество работы распознавателя.
- он не способен работать с англицизмами, а значит, в лучшем случае пропускает их, а в худшем - заменяет несвязанными словами из русской речи
- проблемы с дикцией, скачки интонации, скорость речи и другие факторы приводят к серьезным ошибкам, порой содержимое транскрипции значительно отличается от реально произнесенного текста
Для снижения влияния ошибок распознавателя на оценку производится стемминг. Также опора идет на предположительно грамотно написанный (не содержащий орфографических ошибок) текст презентации, вхождение которого в транскрипцию речи проверяется построенным алгоритмом.
Для демонстрации проблемы возьмет 4 репетиции одного и того же доклада (докладчик не менялся). Установим процент совпадения этих слов в разных докладах.
Репетиции | Процент |
---|---|
1 и 2 | 42,926% |
1 и 3 | 40,567% |
1 и 4 | 41,555% |
2 и 3 | 45,389% |
2 и 4 | 47,197% |
3 и 4 | 45,236% |
Если выбрать из докладов наиболее часто употребимые слова и сравнить их по проценту совпадения, то получим следующее совпадение (в среднем в транскрипции данного доклада 736 слов):
Репетиции | 15 КС, % | 20 КС, % | 30 КС, % | 40 КС, % | 100 КС, % |
---|---|---|---|---|---|
1 и 2 | 80 | 75 | 66 | 67 | 63 |
1 и 3 | 80 | 70 | 66 | 65 | 62 |
1 и 4 | 73 | 75 | 66 | 73 | 57 |
2 и 3 | 80 | 80 | 70 | 65 | 65 |
2 и 4 | 80 | 85 | 76 | 65 | 59 |
3 и 4 | 87 | 70 | 66 | 62 | 56 |
Из данной таблицы можем сделать вывод, что слова, по сути являющиеся ошибками распознавателя, имеют низкую частоту и в масштабе всей 13-15 минутной репетиции не оказывают критического влияния на результат.
Для оценки веса слайдов была преведена следующая работа:
- Извлечение всех презентаций из базы данных
- Удаление дубликатов и некорректных файлов
- Извлечение первых строк с каждого слайда (не всегда то, что является заголовком, отформатировано как заголовок)
- Проведены токенизация, лемматизация и морфемный анализ - остались только русские существительные и глаголы
- Выбраны наболее часто встречающиеся в первых строках слайда слова
Данные, которые были проанализированы, и результаты анализа можно найти в папке title_analysis. 30 наиболее часто ввстречающихся слов приведены на рисунке ниже.
Если представить те же результаты в таблице, получим:
word | frequency | word | frequency |
---|---|---|---|
создание | 23 | архитектура | 33 |
система | 23 | обзор | 35 |
слайд | 24 | данные | 37 |
оценка | 24 | сравнение | 40 |
анализ | 25 | актуальность | 47 |
модель | 25 | решение | 48 |
технология | 26 | метод | 48 |
пример | 26 | апробация | 63 |
аналог | 28 | заключение | 76 |
веб | 28 | цель | 84 |
инструмент | 28 | приложение | 84 |
результат | 29 | алгоритм | 84 |
эксперимент | 29 | работа | 93 |
реализация | 31 | задача | 131 |
исследование | 33 | разработка | 134 |
После субъективной оценки полученных данных было принято повысить вес таким слайдам, как:
- задача
- приложение
- цель
- метод
- актуальность
- обзор
Пониженный вес назначается таким слайдам, как:
- пример
- омодель
- данные
- технология
Причиной этому служит то, что на них может быть использовано много цифр, картинок или английских слов, что неизбежно приведет к проблемам при сравнении.
Вопрос вызывают такие слайды, как
- реультат
- эксперимент
- апробация
Первая составляющая критерия - послайдовое сравнение. Из слайда извлекаются слова, которые в контексте некой предметной области, словарь для которой необходимо загрузить вручную, имеют наибольшее значение. Далее проверяется, были ли произнесены эти слова в устной речи. Результат послайдового сравнения вычисляется с учетом весов слайдов. Вторая составляющая - процент совпадения существительных, прилагательных и глаголов после стемминга, которые выбраны как ключевые для речи и для презентации в целом. Далее два этих числа суммируются с весами 0.4 и 0.6 соответственно.