コーパス2020

概要

日本語の大規模なコーパスとしては、BCCWJコーパス等があり、優秀な均衡コーパスとして利用出来るものの、利用許諾料が必要であり、研究機関に属しない個人としては利用にハードルがありました。

そこで、2020年3月から7月にかけて、独自にウェブクロールを行い、今後の個人研究に利用出来るコーパスを構築することにしました。

コーパスのサイズは合計20GB程度を目標とし、SNS投稿やオンラインショップの商品説明などの解析に利用出来るように、個人ブログ・Web小説・ニュースリリース・オンライン辞書などのジャンルから混合的にスクレイピングしました。

スクレイピングしたコンテンツに、日本語Wikipedia全文コーパスを追加し、合計21GB程度のコンテンツを用意しました。

さらに、日付やURLアドレス等の要素を正規表現でタグに置換し、二つの大規模コーパスを作成しました。また、二つの混合コーパスでSentencePieceを学習させ（ワード数=50000）、分かち書きをしました。

コーパス	ジャンル	article数	token数
コーパスA	個人・技術ブログ 3.2GB 質問・まとめ・採点サイト 1.8GB ウェブ辞書サイト（含むWikipedia） 3.4GB ニュースリリース 2.1GB ニュースサイト 0.3GB	5079419	17億token
コーパスB	ウェブ小説サイト 13.1GB	1675927	21.6億token
混合コーパス	コーパスA＋コーパスB	6755346	38.6億token

このうち、コーパスAとコーパスBは、それぞれ117MパラメーターのGPT2モデルのトレーニングに使用し、コーパスのジャンル違いによる機械学習モデルの日本語生成能力への影響を比較調査できるようにします。

また、より大きなパラメーター数を持つモデルは、混合コーパスでトレーニングされます。

スクレイピングによって作成したコーパスは、著作権等の特性により一般に公開することが出来ません。

このコーパスを使用して特定のモデルを作成したい、等の場合は、ご連絡頂ければ何らかの対応を考慮します。