Skip to content
This repository has been archived by the owner on Feb 27, 2022. It is now read-only.

Commit

Permalink
docs: add help wanted
Browse files Browse the repository at this point in the history
  • Loading branch information
tos-kamiya committed Dec 2, 2021
1 parent ad253eb commit e50417f
Show file tree
Hide file tree
Showing 2 changed files with 8 additions and 4 deletions.
6 changes: 4 additions & 2 deletions README.ja_JP.md
Original file line number Diff line number Diff line change
Expand Up @@ -88,8 +88,10 @@ DOSプロンプトやPowershellの場合は、それぞれ、`rd /s /q .d2vg`あ
## 開発

Doc2Vecモデルの作成の方法については、`making_doc2vec_model/`にある、英語のDoc2Vecモデルを作成したスクリプトを参考にしてください。
添付しているモデルは語彙が5万語、100次元のベクトルでドキュメントを表現するものです。
不足していると感じる場合には、変更したスクリプトを実行することで、より強化したモデルを作成することが可能です。
添付しているモデルは、言語によって異なりますが、語彙が4万語から6万5千語であり、100次元のベクトルでドキュメントを表現するものです。
不足していると感じる場合には、スクリプトを利用して、強化したより良いモデルを作成してください。

**協力のお願い**: 特に自分の母国語の日本語以外については、モデルを十分にチューニングできているかどうか自信がありません。モデルの作成に興味を持たれている方、プルリクエスト、作成したモデルを公開しているURL等、大歓迎です。 🙇

### Doc2Vecモデルの配布ファイル

Expand Down
6 changes: 4 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -88,8 +88,10 @@ Example of execution with indexes enabled:
## Development

For instructions on how to create a Doc2Vec model, please refer to the script I used to create the English Doc2Vec model in `making_doc2vec_model/`.
The attached model has a vocabulary of 50K words and represents a document as a vector of 100 dimensions.
If you feel it is not enough, you can run the modified script to create an enhanced model.
The attached model has a vocabulary of about 40K to 65K words, depending on the language, and represents documents as vectors of 100 dimensions.
If you think this is not sufficient, you can run the scripts to create enhanced and better models.

**Help wanted**: I am not sure that I have tuned the models well enough for anything other than my own native language, Japanese. If anyone is interested in creating a model, a pull request, a URL to publish the created file, or anything else is welcome. 🙇

### Doc2Vec model distribution files

Expand Down

0 comments on commit e50417f

Please sign in to comment.