Word and Text Embeddings

Введение

Недавно увлекся темой эмбеддингов, и решил подробно изучить методы обучения эмбеддингов слов и текстов с их модификациями. Каждая модель написана собственно-ручно для лучшего понимания, что у них под капотом. Также будет описание за что и как отвечает каждый слой модели и особенности модели.

Модели для обучения эмбеддингов слов:

Word2Vec
1. Skip-Gram
2. CBOW
FastText
GloVe

Модели для обучения эмбеддингов слов и текста одновременно:

ELMO
Tranformers
1. BERT (Encoder)
2. GPT (Decoder)
3. T5 (Encoder + Decoder)

Модификации класссических методов

У первой тройки реализовал такие методы, как:

Negative Sampling
Hierarhical Softmax: реализовано на сбалансированном бинарном дереве

Реализация, описание и тест моделей

Токенизаторы

Реализация:

Тест и описание работы моей реализации:

Word2Vec

Реализация: Общая реализация модели

Тест и описание работы моей реализации: Тест и описание работы Word2Vec

GPT (Generative Pre-trained Transformer)

Реализация: Реализация модели
Тест и описание работы моей реализации (обычный токенизатор): Тест и описание работы GPT
Тест и описание работы моей реализации (fasttext токенизатор): Тест и описание работы N_Gram GPT

T5 (Text-to-Text Transfer Transformer)

Реализация: Реализация модели

Цель

Реализация всех методов в одном проекте для полного покружения в мир эмбеддингов
Тест и изучение каждого из методов с программной, математической, философской точки зрения

Отличие моего проекта от таких реализаций, как от nltk и тд

Использование torch, а значит и cuda ядер
Более читаемый код с точки зрения ООП
Больше методов для работы с моделями и их изучения
Описание каждой модели и их особенностей
Описание на русском языке (возможно, потом добавлю также и на английском)

Визуализация с помощью plotly

Метрики

Представление эмбеддингов на плоскости (TSNE)

Дополнительно

Написал свой токенизатор со всеми нужными методами

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
data		data
model		model
notebook		notebook
present		present
test		test
tokenizer		tokenizer
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Word and Text Embeddings

Введение

Модели для обучения эмбеддингов слов:

Модели для обучения эмбеддингов слов и текста одновременно:

Модификации класссических методов

Реализация, описание и тест моделей

Токенизаторы

Word2Vec

CBOW (Continuous Bag of Words)

Skip-Gram

FastText

GloVe (Global Vectors)

ELMO (Embeddings from Language Models)

Transformers

BERT (Bidirectional Encoder Representations from Transformers)

GPT (Generative Pre-trained Transformer)

T5 (Text-to-Text Transfer Transformer)

Цель

Отличие моего проекта от таких реализаций, как от nltk и тд

Визуализация с помощью plotly

Метрики

Представление эмбеддингов на плоскости (TSNE)

Дополнительно

About

Releases

Packages

Languages

CHISH08/PytorchEmbedding

Folders and files

Latest commit

History

Repository files navigation

Word and Text Embeddings

Введение

Модели для обучения эмбеддингов слов:

Модели для обучения эмбеддингов слов и текста одновременно:

Модификации класссических методов

Реализация, описание и тест моделей

Токенизаторы

Word2Vec

CBOW (Continuous Bag of Words)

Skip-Gram

FastText

GloVe (Global Vectors)

ELMO (Embeddings from Language Models)

Transformers

BERT (Bidirectional Encoder Representations from Transformers)

GPT (Generative Pre-trained Transformer)

T5 (Text-to-Text Transfer Transformer)

Цель

Отличие моего проекта от таких реализаций, как от nltk и тд

Визуализация с помощью plotly

Метрики

Представление эмбеддингов на плоскости (TSNE)

Дополнительно

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages