Skip to content

[Архипов] Способы оценки меры соответствия содержания слайдов и речи студента на этом слайде

Vadim Arkhipov edited this page Mar 26, 2024 · 1 revision

Данная задача является задачей определения семантической близости текстов. Наша задача определить эту метрику для некоторых (каких именно, будет уточнено позже) слайдов презентации. Суть критерия в том, чтобы оценить, насколько речь студента соответствует содержимому слайда.

Методы решения

Для решения задачи семантической схожести были рассмотрены следующие варианты решения:

  • TF IDF
  • Word2Vec
  • Doc2Vec
  • SpaCy
  • Оценка с помощью n-грамм и косинусного сходства

Первые три решения -- это модели машинного обучения, а SpaCy -- библиотека для обработки естественного языка. Для русского языка есть 3 версии обработчиков -- small, medium и large. Я протестировал все 3.

От решения ожидается, что для схожих текстов показатель их семантической близости будет достаточно высок, а для различных текстов будет близок к нулю

Тестовые данные

Тесты будут проводиться для нормализованных текстов и для не нормализованных (возможно, это каким-либо образом скажется на результате работы)

Тестирование проводилось на моём докладе с кафедрального семинара.

Для наглядности сопоставлю мои слова и текст с презентации.

Слайд 1

Речь: Всем здравствуйте, меня зовут Архипов Вадим, и тема моего сегодняшнего доклада это проектирование и внедрение модуля анализа точной транскрипции для тренажера публичных выступлений.

Презентация: ПРОЕКТИРОВАНИЕ И ВНЕДРЕНИЕ МОДУЛЯ АНАЛИЗА ТОЧНОЙ ТРАНСКРИБЦИИ ДЛЯ ТРЕНАЖЁРА ПУБЛИЧНЫХ ВЫСТУПЛЕНИЙ Архипов Вадим СПБГЭТУ «ЛЭТИ», каф. МОЭВМ

Слайд 2

Речь: Целью данной работы является повышение точности распознавания человеческой речи тренажером публичных выступлений путем внедрения в него модуля точной транскрипции. Здесь хотелось бы дать небольшую вводную. Дело в том, что для того, чтобы тренировать у студентов навык публичного выступления, на кафедре МОЕВМ был разработан тренажер. Схема взаимодействия студентов с этим тренажером следующая. Студент загружает туда презентацию, нажимает кнопку записи и надиктовывает свое выступление, после чего отправляет его на проверку, где оно уже проверяется, вычисляется некоторые метрики. И навык студент получает оценку своему выступлению. На данный момент там стоит модуль распознавания речи ВОСК, который не то чтобы сильно устраивает нас. И было решено заменить его на другой модуль, который обеспечил бы более точное распознавание речи и возможно более быстро.

Презентация: Цель и задачи• Цель – Повышение точности распознавания человеческой речи тренажером публичных выступлений путём внедрения в него модуля точной транскрибции• Задачи исследования:1. Обзор существующих моделей транскрибции 2. Описание требуемых изменений в системе 3. Описание способа оценки качества работы системы 2

Слайд 3

Речь: Задачи исследования были следующими. Это обзор существующих моделей транскрипции, описание требуемых изменений в системе и описание способа оценки качества работы системы. В процессе исследования были изучены модели распознавания речи, которые могли бы заменить ВОСК, были выделены критерии для сравнения этих моделей, а также было произведено сравнение аналогов по критериям. И здесь хочется сделать remarку, что искомое решение должно обладать высоким процентом правильно распознанных слов и работать не слишком медленно. Была сделана некоторая оценка, и было решено положить время обработки меньше чем 0 ,7, помноженное на время выступления.

Презентация: Постановка задачи В процессе исследования были:• Изучены модели распознавания речи, которые могут заменить VOSK• Выделены критерии для сравнения найденных аналогов• Произведено сравнение аналогов по критериям Найденное решение должно обладать высоким процентом правильно распознанных слов и работать не слишком медленно (время обработки ≤ 0.7 ∗ время выступления)3

Слайд 4

Речь: В работе были рассмотрены такие решения, как Whisper, Deep Speech, Calde, Wavto Vec 2 .0 и Simulus M4T. В скобках указана модель, если данное решение поставляет несколько моделей. Например, для Whisper AI была выбрана модель Whisper Large. В кассетах есть еще 5 других, каждая отличается. Они отличаются друг от друга параметрами, количеством параметров, и датасетом, на котором они были обучены.

Презентация: 1.1. Поиск аналого��В работе были рассмотрены самые популярные решения, способные осуществить speech-to-text преобразование• Whisper AI (Whisper Large)• Deep Speech 2 • Kaldi (Librispeech ASR model)• Wav2Vec 2.0 (Large)• SeamlessM4T (Large)4

Слайд 5

Речь: Выбор критерий сравнения. Были выбраны следующие критерии сравнения. Первое, самое важное, Real -time factor, который показывает, с какой скоростью происходит обработка аудиозаписи. Как вычисляется он как длительность обработки аудиозаписи делить на длительность этой аудиозаписи. Вторым критериям является World -Sphere -Ordinary. Это процентная величина, которая показывает, насколько точно происходит обработка записи. Чем ниже это значение, тем более точно система расшифровала аудио. И третий критерий. Это поддержка русского языка. Так как тренажер публичных выступлений ориентирован по большей части на русскоязычные выступления, то имеет смысл больше предпочтения в выборе модели отдавать моделям, которые поддержку русского языка встроили сами разработчики. Поскольку в теории такие модели будут работать точнее и быстрее, поскольку разработчики обучили их на большем количестве данных.

Презентация: 1.2. Выбор критериев сравнения• RTF (Real-Time Factor) – Показывает, с какой скоростью происходит обработка аудиозаписи. 𝑅𝑇𝐹 =𝑓(𝑑)𝑑 , 𝑓 𝑑 −время обработки аудио, 𝑑 − длительность аудио • WER (Words Error Rate) – Показывает, насколько точно происходит обработка записи• Поддержка русского языка – Поскольку тренажёр ориентирован на русскоязычные выступления 5

Слайд 6

Речь: В данной таблице привезены результаты сравнения по критериям. В ходе анализа данной таблицы было принято решение использовать в проекте модель от Whisper AI, поскольку она поддерживает русский язык. Модель не нужно дополнительно обучать работать с ним. Иметь один из самых низких RTF и также имеет самый низкий процент ошибок, допущенных при распознавании.

Презентация: 1.3. Результаты сравнения по критериям RTF WER Поддержка русского языка Whisper AI0.1726.2% (ENG)7,1% (RUS)Модель не нужно дополнительно обучать DeepSpeech 2.00.28611.85% (ENG)Модель необходимо обучатьKaldi0.4618.92% (ENG)Модель необходимо обучать Wav2Vec 2.00.12010% (ENG)Модель необходимо обучатьSeamLessM4T0.077.44 (ENG)10.31 (RUS)Модель не нужно дополнительно обучать6

Слайд 7

Речь: Для того, чтобы обеспечить работу Whisper в проекте, как отдельного узла, необходимо...

Презентация: 2.1. Описание требуемых изменен��й• Требуется обеспечить работу Whisper внутри проекта как отдельного узла, который бы получал на вход аудиозапись, а на выход отдавал бы транскрибцию7

Слайд 8

Речь: После того, как Whisper будет интегрирован, предлагается провести ряд экспериментов, в частности сравнить Whisper и VOSC по точности работы. Входными данными в этих экспериментах будут выступать аудиозаписи публичных выступлений, для которых известна точная транскрипция. На выходе мы будем получать процент ошибок, которые модели допустили при распознавании. Шаги эксперимента будут следующими. В Whisper и VOSC поочередно будут загружаться аудиозаписи и получатся транскрипции. Далее эти транскрипции будут сравниваться с эталонной и будет подсчитываться процент допущенных ошибок. Ожидается, что процента ошибок распознавания Whisper будет меньше, чем процент ошибок допущенных VOSC при распознавании.

Презентация: 3.1. Способы оценки качества. Сравнение точности работы Название Сравнение точности работы Whisper и VOSK Входные данные Аудиозаписи публичных выступлений,для которых известна точная транскрибция Выходные данные Процент ошибок, допущенных моделями при распознавании Шаги проведения эксперимента 1. Загрузить запись выступления в Whisper и вVOSK2.Сравнить полученные транскрибции с эталонной и вычислить процент ошибок,допущенных моделями при распознавании Ожидаемый результат Процент ошибок распознавания Whisper будет меньше, чем у VOSK8

Слайд 9

Речь: И второй эксперимент, который также предлагается провести, это сравнить скорость работы моделей Whisper и VOSC. Для этого требуется в каждой из этих моделей загрузить одинаковые аудиозаписи публичных выступлений и дождаться окончания их обработки. Зафиксировать время, за которое модели это сделали, и сравнить. Ожидается, что Whisper справится быстрее, чем VOSC.

Презентация: 3.1. Способы оценки качества. Сравнение скорости работы Название Сравнение скорости работы Whisper и VOSK Входные данные Аудиозапись публичного выступления Выходные данные Время, затраченное моделью на обработку записи Шаги проведения эксперимента 1. Загрузить запись выст��пления в Whisper и вVOSK2. Дождаться окончания обработки записи ��зафиксировать время, которое потребовалось системе для этого Ожидаемый результат Whisper требуется меньше времени на обработку аудиозаписи, чем VOSK 9

Слайд 10

Речь: В заключении можно сказать, что были изучены инструменты для осуществления транскрипции речи. Для дальнейших исследований была выбрана модель Whisper Large, которая в среднем работает на 54 % точнее, чем рассматривание аналоги. Эта модель будет интегрирована в тренажер с помощью технологии контейнеризации Docker, а дальнейшие исследования могут включать в себя непосредственную интеграцию модели Whisper в тренажер и проведение обозначенных выше экспериментов.

Презентация: Заключение• Были изучены инструменты транскрибции речи. Для дальнейших исследований была выбрана модель Whisper Large, которая в среднем работает на 54% точнее, чем рассматриваемые аналоги• Новая модель будет интегрирована в тренажер с помощью технологии контейнеризации Docker• Дальнейшие исследования могут включать в себя непос��едственную интеграцию модели Whisper Large в тренажёр и проведение экспериментов10

Слайд 11

Речь: На этом у меня все. Спасибо за внимание.

Презентация: СПАСИБО ЗА ВНИМАНИЕ!11

Слайд 12

Речь: Ну здесь уже идут пояснения.

Презентация: 12DeepSpeech RTF = 0.2 (2 X GTX 1070)DeepSpeech RTF = x (Nvidia TITAN RTX)↑ 2 𝐺𝑇𝑋 1070𝑇𝑖𝑡𝑎𝑛 𝑅𝑇𝑋 = 0.2𝑥 ↓2 𝐺𝑇𝑋 1070𝑇𝑖𝑡𝑎𝑛 𝑅𝑇𝑋 = 𝑥0.2 ⇒ 𝑥 = 0.2 ∗ 2 𝐺𝑇𝑋 1070𝑇𝑖𝑡𝑎𝑛 𝑅𝑇𝑋= 0.2 ∗ 2 ∗ 34.8148.56= 0.286 https://technical.city/ru/video

Есть еще один текст, тематика которого далека от темы презентации -- текст про страшные фильмы. Здесь я его не привожу, но буду сравнивать его со слайдами презентации, чтобы посмотреть, как предлагаемое решение поведет себя, если тексты выступления и тексты презентации не будут совпадать.

Результаты тестирования

(Чем ближе результат к 1, тем более похожими являются тексты)

TF IDF

Слайд/Метод Схожие тексты, без нормализации Схожие тексты, с нормализацией Различные тексты, без нормализации Различные тексты, с нормализацией
1 0.337 0.442 0.000 0.000
2 0.126 0.247 0.011 0.011
3 0.493 0.537 0.029 0.029
4 0.240 0.112 0.005 0.012
5 0.389 0.539 0.016 0.000
6 0.220 0.293 0.024 0.000
7 0.219 0.353 0.061 0.030
8 0.400 0.539 0.000 0.009
9 0.188 0.347 0.055 0.025
10 0.691 0.788 0.031 0.023
11 0.407 0.580 0.089 0.000
12 0.000 0.000 0.000 0.000
Среднее по слайдам 0.309 0.398 0.027 0.012

Word2Vec

Слайд/Метод Схожие тексты, без нормализации Схожие тексты, с нормализацией Различные тексты, без нормализации Различные тексты, с нормализацией
1 0.527 0.680 0.173 0.022
2 0.253 0.468 0.151 0.116
3 0.612 0.628 0.132 0.261
4 0.394 0.230 0.203 0.172
5 0.538 0.674 0.498 -0.011
6 0.376 0.505 0.345 0.017
7 0.381 0.548 0.236 -0.142
8 0.751 0.690 0.462 0.089
9 0.487 0.582 0.437 -0.041
10 0.824 0.871 0.402 0.354
11 0.328 0.685 0.081 -0.019
12 0.049 0.000 0.248 0.000
Среднее по слайдам 0.459 0.597 0.280 0.074

Doc2Vec

Слайд/Метод Схожие тексты, без нормализации Схожие тексты, с нормализацией Различные тексты, без нормализации Различные тексты, с нормализацией
1 0.756 0.788 0.698 0.782
2 0.998 0.999 1.000 1.000
3 0.999 0.999 0.999 0.999
4 0.938 0.615 1.000 0.999
5 1.000 1.000 1.000 1.000
6 0.984 0.936 0.999 0.999
7 0.509 0.560 1.000 1.000
8 1.000 0.999 1.000 1.000
9 0.991 0.994 1.000 1.000
10 0.996 0.996 0.998 0.998
11 1.000 0.734 0.984 0.992
12 -0.070 0.000 0.998 0.000
Среднее по слайдам 0.841 0.874 0.972 0.978

SpaCy

  • Small
Слайд/Метод Схожие тексты, без нормализации Схожие тексты, с нормализацией Различные тексты, без нормализации Различные тексты, с нормализацией
1 0.767 0.892 0.104 0.787
2 0.597 0.694 0.269 0.666
3 0.720 0.976 0.110 0.853
4 0.732 0.728 0.397 0.814
5 0.691 0.878 0.499 0.740
6 0.818 0.778 0.280 0.711
7 0.625 0.802 0.502 0.779
8 0.874 0.925 0.096 0.822
9 0.794 0.783 0.283 0.695
10 0.784 0.984 0.420 0.884
11 0.762 0.802 0.148 0.193
12 0.465 0.000 0.190 0.000
Среднее по слайдам 0.719 0.770 0.274 0.662
  • Medium
Слайд/Метод Схожие тексты, без нормализации Схожие тексты, с нормализацией Различные тексты, без нормализации Различные тексты, с нормализацией
1 -0.246 0.736 -0.216 0.488
2 0.483 0.761 0.247 0.475
3 0.922 0.941 0.831 0.793
4 0.281 0.558 0.155 0.523
5 0.693 0.780 0.338 0.398
6 0.633 0.716 0.535 0.308
7 0.868 0.717 0.883 0.421
8 0.865 0.864 0.562 0.343
9 0.784 0.786 0.699 0.381
10 0.968 0.964 0.769 0.521
11 0.000 0.768 0.000 0.239
12 0.168 0.000 0.213 0.000
Среднее по слайдам 0.535 0.716 0.418 0.407
  • Large
Слайд/Метод Схожие тексты, без нормализации Схожие тексты, с нормализацией Различные тексты, без нормализации Различные тексты, с нормализацией
1 -0.164 0.749 -0.265 0.264
2 0.737 0.826 0.580 0.465
3 0.957 0.958 0.722 0.749
4 0.453 0.669 0.350 0.730
5 0.824 0.838 0.488 0.435
6 0.717 0.809 0.496 0.402
7 0.840 0.817 0.721 0.520
8 0.918 0.897 0.627 0.530
9 0.877 0.889 0.717 0.540
10 0.978 0.974 0.725 0.461
11 0.000 0.869 0.000 0.524
12 0.092 0.000 0.169 0.000
Среднее по слайдам 0.602 0.774 0.444 0.468

N-граммы

Слайд/Метод Схожие тексты, с нормализацией Различные тексты, с нормализацией
1 0.372 0.000
2 0.252 0.006
3 0.491 0.014
4 0.066 0.006
5 0.344 0.000
6 0.232 0.000
7 0.240 0.014
8 0.322 0.004
9 0.186 0.012
10 0.637 0.011
11 0.321 0.000
12 0.000 0.000
Среднее по слайдам 0.288 0.006

Вывод по итогам сравнения

Doc2Vec и SpaCy не подходят для использования в данной задаче, поскольку для различных в контексте решаемой задачи текстов выдаёт значения, близкие к 1, что говорит о схожести сравниваемых текстов. Использование этих решений в тренажёре может внести необъективность в оценку публичного выступления. Для дальнейшего рассмотрения рекомендуется использовать модели TF-IDF и Word2Vec и n-граммы, поскольку совпадающие тексты ими были оценены выше, чем различные. Также выяснилось, что нормализация текста перед оценкой схожести положительно сказывается на результате работы этих моделей. Я бы взял в работу или TF-IDF модель, поскольку она явно указала на сходство текста выступления и текста презентации и не пропустила "левый" текст, выдав ему оценку схожести, близкую к 0; при этом на схожих текстах она выдала бОльшее значение, чем алгоритм с n-граммами, в связи с чем сходство текстов становится более заметным

Clone this wiki locally