Feature extraction for BERT-Japanese 東北大学乾研究室のbert-japaneseの複数データに対する畳み込みを抽出します。 ソース:https://huggingface.co/tohoku-nlp 句点区切りの文章それぞれからCLSトークンに対応する畳み込みを取り出し、1アノテーション(CSVの1区画)ごとに平均。その後、アノテーション群(CSVの1行)ごとに平均し、標準化。 以上の工程を各層で行いCSV形式で保存しています。 $${\color{red}※第1層の同一トークンに対するベクトルに差はありません。}$$