Feature extraction for BERT-Japanese

東北大学乾研究室のbert-japaneseの複数データに対する畳み込みを抽出します。

句点区切りの文章それぞれからCLSトークンに対応する畳み込みを取り出し、1アノテーション(CSVの1区画)ごとに平均。その後、アノテーション群(CSVの1行)ごとに平均し、標準化。

以上の工程を各層で行いCSV形式で保存しています。

$${\color{red}※第1層の同一トークンに対するベクトルに差はありません。}$$

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
annotation.csv		annotation.csv
bert-ja.ipynb		bert-ja.ipynb
embed_layer01.csv		embed_layer01.csv
embed_layer02.csv		embed_layer02.csv
embed_layer03.csv		embed_layer03.csv
embed_layer04.csv		embed_layer04.csv
embed_layer05.csv		embed_layer05.csv
embed_layer06.csv		embed_layer06.csv
embed_layer07.csv		embed_layer07.csv
embed_layer08.csv		embed_layer08.csv
embed_layer09.csv		embed_layer09.csv
embed_layer10.csv		embed_layer10.csv
embed_layer11.csv		embed_layer11.csv
embed_layer12.csv		embed_layer12.csv
embed_layer13.csv		embed_layer13.csv

Provide feedback