-
Notifications
You must be signed in to change notification settings - Fork 0
[Архипов] Способы оценки меры соответствия содержания слайдов и речи студента на этом слайде
Данная задача является задачей определения семантической близости текстов. Наша задача определить эту метрику для некоторых (каких именно, будет уточнено позже) слайдов презентации. Суть критерия в том, чтобы оценить, насколько речь студента соответствует содержимому слайда.
Для решения задачи семантической схожести были рассмотрены следующие варианты решения:
- TF IDF
- Word2Vec
- Doc2Vec
- SpaCy
- Оценка с помощью n-грамм и косинусного сходства
Первые три решения -- это модели машинного обучения, а SpaCy -- библиотека для обработки естественного языка. Для русского языка есть 3 версии обработчиков -- small, medium и large. Я протестировал все 3.
От решения ожидается, что для схожих текстов показатель их семантической близости будет достаточно высок, а для различных текстов будет близок к нулю
Тесты будут проводиться для нормализованных текстов и для не нормализованных (возможно, это каким-либо образом скажется на результате работы)
Тестирование проводилось на моём докладе с кафедрального семинара.
Для наглядности сопоставлю мои слова и текст с презентации.
Речь: Всем здравствуйте, меня зовут Архипов Вадим, и тема моего сегодняшнего доклада это проектирование и внедрение модуля анализа точной транскрипции для тренажера публичных выступлений.
Презентация: ПРОЕКТИРОВАНИЕ И ВНЕДРЕНИЕ МОДУЛЯ АНАЛИЗА ТОЧНОЙ ТРАНСКРИБЦИИ ДЛЯ ТРЕНАЖЁРА ПУБЛИЧНЫХ ВЫСТУПЛЕНИЙ Архипов Вадим СПБГЭТУ «ЛЭТИ», каф. МОЭВМ
Речь: Целью данной работы является повышение точности распознавания человеческой речи тренажером публичных выступлений путем внедрения в него модуля точной транскрипции. Здесь хотелось бы дать небольшую вводную. Дело в том, что для того, чтобы тренировать у студентов навык публичного выступления, на кафедре МОЕВМ был разработан тренажер. Схема взаимодействия студентов с этим тренажером следующая. Студент загружает туда презентацию, нажимает кнопку записи и надиктовывает свое выступление, после чего отправляет его на проверку, где оно уже проверяется, вычисляется некоторые метрики. И навык студент получает оценку своему выступлению. На данный момент там стоит модуль распознавания речи ВОСК, который не то чтобы сильно устраивает нас. И было решено заменить его на другой модуль, который обеспечил бы более точное распознавание речи и возможно более быстро.
Презентация: Цель и задачи• Цель – Повышение точности распознавания человеческой речи тренажером публичных выступлений путём внедрения в него модуля точной транскрибции• Задачи исследования:1. Обзор существующих моделей транскрибции 2. Описание требуемых изменений в системе 3. Описание способа оценки качества работы системы 2
Речь: Задачи исследования были следующими. Это обзор существующих моделей транскрипции, описание требуемых изменений в системе и описание способа оценки качества работы системы. В процессе исследования были изучены модели распознавания речи, которые могли бы заменить ВОСК, были выделены критерии для сравнения этих моделей, а также было произведено сравнение аналогов по критериям. И здесь хочется сделать remarку, что искомое решение должно обладать высоким процентом правильно распознанных слов и работать не слишком медленно. Была сделана некоторая оценка, и было решено положить время обработки меньше чем 0 ,7, помноженное на время выступления.
Презентация: Постановка задачи В процессе исследования были:• Изучены модели распознавания речи, которые могут заменить VOSK• Выделены критерии для сравнения найденных аналогов• Произведено сравнение аналогов по критериям Найденное решение должно обладать высоким процентом правильно распознанных слов и работать не слишком медленно (время обработки ≤ 0.7 ∗ время выступления)3
Речь: В работе были рассмотрены такие решения, как Whisper, Deep Speech, Calde, Wavto Vec 2 .0 и Simulus M4T. В скобках указана модель, если данное решение поставляет несколько моделей. Например, для Whisper AI была выбрана модель Whisper Large. В кассетах есть еще 5 других, каждая отличается. Они отличаются друг от друга параметрами, количеством параметров, и датасетом, на котором они были обучены.
Презентация: 1.1. Поиск аналого��В работе были рассмотрены самые популярные решения, способные осуществить speech-to-text преобразование• Whisper AI (Whisper Large)• Deep Speech 2 • Kaldi (Librispeech ASR model)• Wav2Vec 2.0 (Large)• SeamlessM4T (Large)4
Речь: Выбор критерий сравнения. Были выбраны следующие критерии сравнения. Первое, самое важное, Real -time factor, который показывает, с какой скоростью происходит обработка аудиозаписи. Как вычисляется он как длительность обработки аудиозаписи делить на длительность этой аудиозаписи. Вторым критериям является World -Sphere -Ordinary. Это процентная величина, которая показывает, насколько точно происходит обработка записи. Чем ниже это значение, тем более точно система расшифровала аудио. И третий критерий. Это поддержка русского языка. Так как тренажер публичных выступлений ориентирован по большей части на русскоязычные выступления, то имеет смысл больше предпочтения в выборе модели отдавать моделям, которые поддержку русского языка встроили сами разработчики. Поскольку в теории такие модели будут работать точнее и быстрее, поскольку разработчики обучили их на большем количестве данных.
Презентация: 1.2. Выбор критериев сравнения• RTF (Real-Time Factor) – Показывает, с какой скоростью происходит обработка аудиозаписи. 𝑅𝑇𝐹 =𝑓(𝑑)𝑑 , 𝑓 𝑑 −время обработки аудио, 𝑑 − длительность аудио • WER (Words Error Rate) – Показывает, насколько точно происходит обработка записи• Поддержка русского языка – Поскольку тренажёр ориентирован на русскоязычные выступления 5
Речь: В данной таблице привезены результаты сравнения по критериям. В ходе анализа данной таблицы было принято решение использовать в проекте модель от Whisper AI, поскольку она поддерживает русский язык. Модель не нужно дополнительно обучать работать с ним. Иметь один из самых низких RTF и также имеет самый низкий процент ошибок, допущенных при распознавании.
Презентация: 1.3. Результаты сравнения по критериям RTF WER Поддержка русского языка Whisper AI0.1726.2% (ENG)7,1% (RUS)Модель не нужно дополнительно обучать DeepSpeech 2.00.28611.85% (ENG)Модель необходимо обучатьKaldi0.4618.92% (ENG)Модель необходимо обучать Wav2Vec 2.00.12010% (ENG)Модель необходимо обучатьSeamLessM4T0.077.44 (ENG)10.31 (RUS)Модель не нужно дополнительно обучать6
Речь: Для того, чтобы обеспечить работу Whisper в проекте, как отдельного узла, необходимо...
Презентация: 2.1. Описание требуемых изменен��й• Требуется обеспечить работу Whisper внутри проекта как отдельного узла, который бы получал на вход аудиозапись, а на выход отдавал бы транскрибцию7
Речь: После того, как Whisper будет интегрирован, предлагается провести ряд экспериментов, в частности сравнить Whisper и VOSC по точности работы. Входными данными в этих экспериментах будут выступать аудиозаписи публичных выступлений, для которых известна точная транскрипция. На выходе мы будем получать процент ошибок, которые модели допустили при распознавании. Шаги эксперимента будут следующими. В Whisper и VOSC поочередно будут загружаться аудиозаписи и получатся транскрипции. Далее эти транскрипции будут сравниваться с эталонной и будет подсчитываться процент допущенных ошибок. Ожидается, что процента ошибок распознавания Whisper будет меньше, чем процент ошибок допущенных VOSC при распознавании.
Презентация: 3.1. Способы оценки качества. Сравнение точности работы Название Сравнение точности работы Whisper и VOSK Входные данные Аудиозаписи публичных выступлений,для которых известна точная транскрибция Выходные данные Процент ошибок, допущенных моделями при распознавании Шаги проведения эксперимента 1. Загрузить запись выступления в Whisper и вVOSK2.Сравнить полученные транскрибции с эталонной и вычислить процент ошибок,допущенных моделями при распознавании Ожидаемый результат Процент ошибок распознавания Whisper будет меньше, чем у VOSK8
Речь: И второй эксперимент, который также предлагается провести, это сравнить скорость работы моделей Whisper и VOSC. Для этого требуется в каждой из этих моделей загрузить одинаковые аудиозаписи публичных выступлений и дождаться окончания их обработки. Зафиксировать время, за которое модели это сделали, и сравнить. Ожидается, что Whisper справится быстрее, чем VOSC.
Презентация: 3.1. Способы оценки качества. Сравнение скорости работы Название Сравнение скорости работы Whisper и VOSK Входные данные Аудиозапись публичного выступления Выходные данные Время, затраченное моделью на обработку записи Шаги проведения эксперимента 1. Загрузить запись выст��пления в Whisper и вVOSK2. Дождаться окончания обработки записи ��зафиксировать время, которое потребовалось системе для этого Ожидаемый результат Whisper требуется меньше времени на обработку аудиозаписи, чем VOSK 9
Речь: В заключении можно сказать, что были изучены инструменты для осуществления транскрипции речи. Для дальнейших исследований была выбрана модель Whisper Large, которая в среднем работает на 54 % точнее, чем рассматривание аналоги. Эта модель будет интегрирована в тренажер с помощью технологии контейнеризации Docker, а дальнейшие исследования могут включать в себя непосредственную интеграцию модели Whisper в тренажер и проведение обозначенных выше экспериментов.
Презентация: Заключение• Были изучены инструменты транскрибции речи. Для дальнейших исследований была выбрана модель Whisper Large, которая в среднем работает на 54% точнее, чем рассматриваемые аналоги• Новая модель будет интегрирована в тренажер с помощью технологии контейнеризации Docker• Дальнейшие исследования могут включать в себя непос��едственную интеграцию модели Whisper Large в тренажёр и проведение экспериментов10
Речь: На этом у меня все. Спасибо за внимание.
Презентация: СПАСИБО ЗА ВНИМАНИЕ!11
Речь: Ну здесь уже идут пояснения.
Презентация: 12DeepSpeech RTF = 0.2 (2 X GTX 1070)DeepSpeech RTF = x (Nvidia TITAN RTX)↑ 2 𝐺𝑇𝑋 1070𝑇𝑖𝑡𝑎𝑛 𝑅𝑇𝑋 = 0.2𝑥 ↓2 𝐺𝑇𝑋 1070𝑇𝑖𝑡𝑎𝑛 𝑅𝑇𝑋 = 𝑥0.2 ⇒ 𝑥 = 0.2 ∗ 2 𝐺𝑇𝑋 1070𝑇𝑖𝑡𝑎𝑛 𝑅𝑇𝑋= 0.2 ∗ 2 ∗ 34.8148.56= 0.286 https://technical.city/ru/video
Есть еще один текст, тематика которого далека от темы презентации -- текст про страшные фильмы. Здесь я его не привожу, но буду сравнивать его со слайдами презентации, чтобы посмотреть, как предлагаемое решение поведет себя, если тексты выступления и тексты презентации не будут совпадать.
(Чем ближе результат к 1, тем более похожими являются тексты)
Слайд/Метод | Схожие тексты, без нормализации | Схожие тексты, с нормализацией | Различные тексты, без нормализации | Различные тексты, с нормализацией |
---|---|---|---|---|
1 | 0.337 | 0.442 | 0.000 | 0.000 |
2 | 0.126 | 0.247 | 0.011 | 0.011 |
3 | 0.493 | 0.537 | 0.029 | 0.029 |
4 | 0.240 | 0.112 | 0.005 | 0.012 |
5 | 0.389 | 0.539 | 0.016 | 0.000 |
6 | 0.220 | 0.293 | 0.024 | 0.000 |
7 | 0.219 | 0.353 | 0.061 | 0.030 |
8 | 0.400 | 0.539 | 0.000 | 0.009 |
9 | 0.188 | 0.347 | 0.055 | 0.025 |
10 | 0.691 | 0.788 | 0.031 | 0.023 |
11 | 0.407 | 0.580 | 0.089 | 0.000 |
12 | 0.000 | 0.000 | 0.000 | 0.000 |
Среднее по слайдам | 0.309 | 0.398 | 0.027 | 0.012 |
Слайд/Метод | Схожие тексты, без нормализации | Схожие тексты, с нормализацией | Различные тексты, без нормализации | Различные тексты, с нормализацией |
---|---|---|---|---|
1 | 0.527 | 0.680 | 0.173 | 0.022 |
2 | 0.253 | 0.468 | 0.151 | 0.116 |
3 | 0.612 | 0.628 | 0.132 | 0.261 |
4 | 0.394 | 0.230 | 0.203 | 0.172 |
5 | 0.538 | 0.674 | 0.498 | -0.011 |
6 | 0.376 | 0.505 | 0.345 | 0.017 |
7 | 0.381 | 0.548 | 0.236 | -0.142 |
8 | 0.751 | 0.690 | 0.462 | 0.089 |
9 | 0.487 | 0.582 | 0.437 | -0.041 |
10 | 0.824 | 0.871 | 0.402 | 0.354 |
11 | 0.328 | 0.685 | 0.081 | -0.019 |
12 | 0.049 | 0.000 | 0.248 | 0.000 |
Среднее по слайдам | 0.459 | 0.597 | 0.280 | 0.074 |
Слайд/Метод | Схожие тексты, без нормализации | Схожие тексты, с нормализацией | Различные тексты, без нормализации | Различные тексты, с нормализацией |
---|---|---|---|---|
1 | 0.756 | 0.788 | 0.698 | 0.782 |
2 | 0.998 | 0.999 | 1.000 | 1.000 |
3 | 0.999 | 0.999 | 0.999 | 0.999 |
4 | 0.938 | 0.615 | 1.000 | 0.999 |
5 | 1.000 | 1.000 | 1.000 | 1.000 |
6 | 0.984 | 0.936 | 0.999 | 0.999 |
7 | 0.509 | 0.560 | 1.000 | 1.000 |
8 | 1.000 | 0.999 | 1.000 | 1.000 |
9 | 0.991 | 0.994 | 1.000 | 1.000 |
10 | 0.996 | 0.996 | 0.998 | 0.998 |
11 | 1.000 | 0.734 | 0.984 | 0.992 |
12 | -0.070 | 0.000 | 0.998 | 0.000 |
Среднее по слайдам | 0.841 | 0.874 | 0.972 | 0.978 |
- Small
Слайд/Метод | Схожие тексты, без нормализации | Схожие тексты, с нормализацией | Различные тексты, без нормализации | Различные тексты, с нормализацией |
---|---|---|---|---|
1 | 0.767 | 0.892 | 0.104 | 0.787 |
2 | 0.597 | 0.694 | 0.269 | 0.666 |
3 | 0.720 | 0.976 | 0.110 | 0.853 |
4 | 0.732 | 0.728 | 0.397 | 0.814 |
5 | 0.691 | 0.878 | 0.499 | 0.740 |
6 | 0.818 | 0.778 | 0.280 | 0.711 |
7 | 0.625 | 0.802 | 0.502 | 0.779 |
8 | 0.874 | 0.925 | 0.096 | 0.822 |
9 | 0.794 | 0.783 | 0.283 | 0.695 |
10 | 0.784 | 0.984 | 0.420 | 0.884 |
11 | 0.762 | 0.802 | 0.148 | 0.193 |
12 | 0.465 | 0.000 | 0.190 | 0.000 |
Среднее по слайдам | 0.719 | 0.770 | 0.274 | 0.662 |
- Medium
Слайд/Метод | Схожие тексты, без нормализации | Схожие тексты, с нормализацией | Различные тексты, без нормализации | Различные тексты, с нормализацией |
---|---|---|---|---|
1 | -0.246 | 0.736 | -0.216 | 0.488 |
2 | 0.483 | 0.761 | 0.247 | 0.475 |
3 | 0.922 | 0.941 | 0.831 | 0.793 |
4 | 0.281 | 0.558 | 0.155 | 0.523 |
5 | 0.693 | 0.780 | 0.338 | 0.398 |
6 | 0.633 | 0.716 | 0.535 | 0.308 |
7 | 0.868 | 0.717 | 0.883 | 0.421 |
8 | 0.865 | 0.864 | 0.562 | 0.343 |
9 | 0.784 | 0.786 | 0.699 | 0.381 |
10 | 0.968 | 0.964 | 0.769 | 0.521 |
11 | 0.000 | 0.768 | 0.000 | 0.239 |
12 | 0.168 | 0.000 | 0.213 | 0.000 |
Среднее по слайдам | 0.535 | 0.716 | 0.418 | 0.407 |
- Large
Слайд/Метод | Схожие тексты, без нормализации | Схожие тексты, с нормализацией | Различные тексты, без нормализации | Различные тексты, с нормализацией |
---|---|---|---|---|
1 | -0.164 | 0.749 | -0.265 | 0.264 |
2 | 0.737 | 0.826 | 0.580 | 0.465 |
3 | 0.957 | 0.958 | 0.722 | 0.749 |
4 | 0.453 | 0.669 | 0.350 | 0.730 |
5 | 0.824 | 0.838 | 0.488 | 0.435 |
6 | 0.717 | 0.809 | 0.496 | 0.402 |
7 | 0.840 | 0.817 | 0.721 | 0.520 |
8 | 0.918 | 0.897 | 0.627 | 0.530 |
9 | 0.877 | 0.889 | 0.717 | 0.540 |
10 | 0.978 | 0.974 | 0.725 | 0.461 |
11 | 0.000 | 0.869 | 0.000 | 0.524 |
12 | 0.092 | 0.000 | 0.169 | 0.000 |
Среднее по слайдам | 0.602 | 0.774 | 0.444 | 0.468 |
Слайд/Метод | Схожие тексты, с нормализацией | Различные тексты, с нормализацией |
---|---|---|
1 | 0.372 | 0.000 |
2 | 0.252 | 0.006 |
3 | 0.491 | 0.014 |
4 | 0.066 | 0.006 |
5 | 0.344 | 0.000 |
6 | 0.232 | 0.000 |
7 | 0.240 | 0.014 |
8 | 0.322 | 0.004 |
9 | 0.186 | 0.012 |
10 | 0.637 | 0.011 |
11 | 0.321 | 0.000 |
12 | 0.000 | 0.000 |
Среднее по слайдам | 0.288 | 0.006 |
Doc2Vec и SpaCy не подходят для использования в данной задаче, поскольку для различных в контексте решаемой задачи текстов выдаёт значения, близкие к 1, что говорит о схожести сравниваемых текстов. Использование этих решений в тренажёре может внести необъективность в оценку публичного выступления. Для дальнейшего рассмотрения рекомендуется использовать модели TF-IDF и Word2Vec и n-граммы, поскольку совпадающие тексты ими были оценены выше, чем различные. Также выяснилось, что нормализация текста перед оценкой схожести положительно сказывается на результате работы этих моделей. Я бы взял в работу или TF-IDF модель, поскольку она явно указала на сходство текста выступления и текста презентации и не пропустила "левый" текст, выдав ему оценку схожести, близкую к 0; при этом на схожих текстах она выдала бОльшее значение, чем алгоритм с n-граммами, в связи с чем сходство текстов становится более заметным