391 compare student speech to slides text #400

arhihihipov · 2024-03-14T17:51:39Z

No description provided.

zmm · 2024-04-10T07:14:29Z

app/criteria/comparison_speech_slides/criterion.py

+nltk.download('punkt')
+nltk.download('stopwords')
+russian_stop_words = stopwords.words('russian')


Оберните эти три строки в функцию и вызывайте там, где нужны russian_stop_words

Это действительно необходимо? Если обернуть это в функцию, то скачивание punkt и stopwords будет происходить каждый раз, когда будет вызываться функция normalize_text
В общем случае это будет 2 * n вызовов, где n -- число слайдов презентации

HadronCollider · 2024-04-21T18:37:20Z

app/criteria/comparison_speech_slides/criterion.py

+# Функция нормализации текста
+def normalize_text(text: list) -> list:
+    table = str.maketrans("", "", string.punctuation)
+    morph = pymorphy2.MorphAnalyzer()
+
+    # Замена знаков препинания на пустые строки, конвертация в нижний регистр и обрезание пробелов по краям
+    text = list(map(lambda x: x.translate(table).lower().strip(), text))
+    # Замена цифр и слов не на русском языке на пустые строки
+    text = list(map(lambda x: re.sub(r'[^А-яёЁ\s]', '', x), text))
+    # Удаление пустых строк
+    text = list(filter(lambda x: x.isalpha(), text))
+    # Приведение слов к нормальной форме
+    text = list(map(lambda x: morph.normal_forms(x)[0], text))
+    # Очистка от стоп-слов
+    text = list(filter(lambda x: x not in RussianStopwords().words, text))
+    return text
+
+
+def delete_punctuation(text: str) -> str:
+    return text.translate(str.maketrans('', '', string.punctuation + "\t\n\r\v\f"))


Вынесите в утилиты - кажется, такие функции могут нам пригодиться и в других местах / критериях

HadronCollider · 2024-04-21T18:39:50Z

app/criteria/comparison_speech_slides/criterion.py

+            for skip_slide in self.parameters['skip_slides']:
+                if skip_slide.lower() in delete_punctuation(current_slide_text).lower():
+                    logger.info(f"Слайд №{current_slide_index + 1} пропущен")
+                    skip = True
+                    break
+            if skip:
+                continue


Вынесите в отдельный фильтрующий метод, возвращающий true/false - заодно так избавимся от танцев со skip

HadronCollider · 2024-04-21T18:50:35Z

app/criteria/comparison_speech_slides/criterion.py

+            def get_ngrams(text, n):
+                tokens = word_tokenize(text.lower())
+                n_grams = ngrams(tokens, n)
+                return [' '.join(gram) for gram in n_grams]
+
+            def calculate_similarity(text1, text2, n_values, weights=None):
+                similarities = []
+                for n in n_values:
+                    ngrams_text1 = get_ngrams(text1, n)
+                    ngrams_text2 = get_ngrams(text2, n)
+
+                    counter_text1 = Counter(ngrams_text1)
+                    counter_text2 = Counter(ngrams_text2)
+
+                    intersection = set(ngrams_text1) & set(ngrams_text2)
+
+                    if len(ngrams_text1) == 0 or len(ngrams_text2) == 0:
+                        similarities.append(0.000)
+                    else:
+                        similarity = sum(
+                            min(counter_text1[ngram], counter_text2[ngram]) for ngram in intersection) / max(
+                            len(ngrams_text1), len(ngrams_text2))
+                        similarities.append(similarity)


Вынесите в отдельные методы (возможно, статические) - так их проще искать/отслеживать/модифицировать, нежели в качестве вложенных функций

Кажется, get_ngrams можно сделать lambda-функцией (занимает меньше места и лаконичнее, а используется только в calculate_similarity)

HadronCollider · 2024-04-21T18:52:19Z

app/criteria/comparison_speech_slides/criterion.py

+        word2vec = []
+        n_grams = []
+
+        for current_slide_index in range(len(audio.audio_slides)):


Дальше по методу очень часто повторяется операция " ".join(x) для current_slide_speech/current_slide_text - возможно, стоит сделать это один раз в начале?

HadronCollider · 2024-04-21T18:54:33Z

app/criteria/comparison_speech_slides/criterion.py

+            n_values = [2, 3, 4]  # Список значений n для анализа
+            weights = [0.34, 0.33, 0.33]  # Веса для каждой метрики (если нужно)


Задаваться вопросом "а откуда куда зачем такие числа" - не буду, как и в целом вдаваться в логику анализа (тут оставляю на вас), но такие параметры, кажется, стоит вынести в поля объекта (и, возможно, сделать параметрами - вдруг метрики или список значений захотим поменять или завести несколько версий критерия?)

HadronCollider · 2024-04-21T19:03:58Z

app/db_versioning/versions.py

-            9: 'PrimitivePack'
+            9: 'PrimitivePack',
+            10: 'ComparisonPack'


тут не трогайте -- это столетнее старье, когда мы перевели наборы с числовых на строковые ID

HadronCollider · 2024-04-21T19:04:26Z

requirements.txt

+scikit-learn
+gensim


Установите версии

HadronCollider · 2024-04-21T19:40:00Z

app/criteria/comparison_speech_slides/criterion.py

+            # TF-IDF
+            if len(current_slide_text) == 0 or len(current_slide_speech) == 0:
+                tf_idf.append(0.000)
+            else:
+                corpus = [" ".join(current_slide_speech), " ".join(current_slide_text)]
+                vectorizer = TfidfVectorizer()
+                X = vectorizer.fit_transform(corpus)
+                cosine_sim = cosine_similarity(X[0], X[1])
+                similarity = cosine_sim[0][0]
+                tf_idf.append(round(similarity, 3))
+
+            # word2vec
+            tokens_speech = word_tokenize(" ".join(current_slide_speech))
+            tokens_slide = word_tokenize(" ".join(current_slide_text))
+
+            if len(current_slide_speech) == 0 or len(current_slide_text) == 0:
+                word2vec.append(0.000)
+            else:
+                sentences = [tokens_speech, tokens_slide]
+                model = Word2Vec(sentences, min_count=1)
+                similarity = model.wv.n_similarity(tokens_speech, tokens_slide)
+                word2vec.append(round(similarity, 3))
+
+            # n-grams


очень хочется вынести отдельные методы сравнения в отдельные соответствующие функции/методы - предлагаю выделить для этого даже целый модуль-директорию (или как минимум файл)

HadronCollider · 2024-04-21T19:41:09Z

app/utils.py

+        return cls._instances[cls]
+
+
+class RussianStopwords(metaclass=Singleton):


Поправил работу с nltk.download - вынес с стартовый модуль и сделал volume между контейнерами, использующими nltk (чтобы каждый из них не загружал нужные словари каждый в себя)

HadronCollider · 2024-07-22T14:41:07Z

Изменения будут проверены в рамках #406

add text normalization func

cd92984

arhihihipov linked an issue Mar 14, 2024 that may be closed by this pull request

Критерий проверки - оценка соответствия содержимого слайда сказанным словам #391

Open

arhihihipov added 3 commits March 14, 2024 20:57

rename criterion

8ad9442

fix imports

a7f96f9

add new test criteria pack

5b4dbaf

arhihihipov changed the title ~~compare student speech to slides text~~ 391 compare student speech to slides text Mar 15, 2024

arhihihipov added 3 commits April 2, 2024 22:26

Merge branch 'master' into new_criteria_matching_slides_to_spoken_words

bd544d9

add criteria evaluation

9abf00c

fix criteria

cf28b7a

github-actions bot added the has conflicts label Apr 4, 2024

arhihihipov added 2 commits April 5, 2024 22:50

Merge branch 'master' into new_criteria_matching_slides_to_spoken_words

6e216c7

add logger, fixes

e600ad5

github-actions bot removed the has conflicts label Apr 6, 2024

arhihihipov requested a review from HadronCollider April 8, 2024 12:41

remove debug logging

305a1fa

zmm reviewed Apr 10, 2024

View reviewed changes

arhihihipov requested a review from zmm April 11, 2024 16:46

arhihihipov and others added 3 commits April 17, 2024 00:39

russian stopWords -> utils

803f59c

add ignore slides

4e519ab

improve nltk download

78d0a9e

HadronCollider requested changes Apr 21, 2024

View reviewed changes

fixes

f927741

arhihihipov requested review from HadronCollider and removed request for zmm April 23, 2024 13:50

arhihihipov added 5 commits May 1, 2024 17:08

add tf-idf vectorizer and verdict

a2d538d

Merge branch 'master' into new_criteria_matching_slides_to_spoken_words

88e4e83

delete unusable params

61781c1

remove comment

ce30af1

remove unused func

4aaea8b

HadronCollider mentioned this pull request Jul 22, 2024

392 Compare student speech whole text #406

Merged

HadronCollider closed this Jul 22, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

391 compare student speech to slides text #400

391 compare student speech to slides text #400

arhihihipov commented Mar 14, 2024

zmm Apr 10, 2024

arhihihipov Apr 10, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024

HadronCollider Apr 21, 2024 •

edited

Loading

HadronCollider Apr 21, 2024

HadronCollider commented Jul 22, 2024

		n_values = [2, 3, 4] # Список значений n для анализа
		weights = [0.34, 0.33, 0.33] # Веса для каждой метрики (если нужно)

		return cls._instances[cls]


		class RussianStopwords(metaclass=Singleton):

		scikit-learn
		gensim

391 compare student speech to slides text #400

391 compare student speech to slides text #400

Conversation

arhihihipov commented Mar 14, 2024

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

HadronCollider Apr 21, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

HadronCollider commented Jul 22, 2024

HadronCollider Apr 21, 2024 •

edited

Loading