このリポジトリは Qiita のスパム記事の情報を 10 万件以上アーカイブしています。Qiita のスパム記事を検知するエンジン開発や機械学習用のコーパス作成などにご利用ください。
- ダウンロード: releses ページより
data_items_spam-XXXXXXXX.zip
をダウンロードしてください。(スパム本文の JSON データ・アーカイブです) - おすすめの記事: Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 @ Qiita
このリポジトリ自体にはスパム記事の本文データは含まれていません。スパム記事の本文データが必要な場合は、上記「ダウンロード」よりアーカイブをダウンロードするか、下記をご覧になって API より取得ください。
このリポジトリでは、スパム記事の本文を取得するのに必要な情報を JSON ファイルで提供しています。
各々の JSON ファイルに記載された API の URL("url_cache
" や "url_raw
" キー)を通して取得ください。いずれの API も JSON 形式で取得できます。
url_cache
キー: Qiita 記事情報のキャッシュサーバーの URL です。本家 Qiita のサーバー負荷をあげないために設けたキャッシュ・サーバーです。なるべくこちらをご利用ください。url_raw
キー: 本家 Qiita の API の URL です。キャッシュサーバーが落ちている場合に利用ください。
新規投稿から一定期間後にアクセスして、投稿とユーザーが削除されていた場合をスパム記事と判断しています。そのため、引越しをした場合もスパムとして判断される可能性があります。(Opt-Out はページ下部をご覧ください)
- リポジトリ更新頻度:現在、サーバー OS 入れ替えのため、不定期で更新しています。
- Qiita 記事の記事 ID をファイル名とした JSON 配列のプレーン・テキスト。(UTF-8)
spams
ディレクトリに設置されています。このとき記事 ID の最初の文字をディレクトリ名とした下に設置されています。
-
ファイル名:
<Qiita記事ID>.json
(Qiita の記事 ID がファイル名) -
ファイルの内容(JSON配列): 1ファイル1記事
{ "id_item": "<記事ID>", "id_user": "<ユーザID>", "url_cache": "<Qithub API のキャッシュ URL>", "url_raw": "<Qiita API のURL>", "date_post": "<投稿日>" }
Qiita 記事ID affde3d2cca6ecec0c87
の場合、ファイル名は affde3d2cca6ecec0c87.json
になり、設置先は spams/a/affde3d2cca6ecec0c87.json
になります。
-
ファイルの内容は以下の通り:
{ "id_item": "affde3d2cca6ecec0c87", "id_user": "wedoseday", "url_cache": "https://qithub.gq/api/v1/qiita-cache/?id=affde3d2cca6ecec0c87", "url_raw": "https://qiita.com/api/v2/items/affde3d2cca6ecec0c87", "date_post": "2018-05-22T05:08:25+09:00" }
-
キャッシュの URL 例: https://qithub.gq/api/v1/qiita-cache/?id=affde3d2cca6ecec0c87
-
キャッシュ(スパム記事の本文データ)の取得例:
curl -o spam.json https://qithub.gq/api/v1/qiita-cache/?id=affde3d2cca6ecec0c87
/spams
ディレクトリ下に、Qiita 記事 ID の頭文字をディレクトリ名とした階層内に各々保存されています。
./spams/
├── README.md
├── LICENSE.md
├── a/
│ ├── a00a765cb4fe79e16c35.json
│ ├── a01077d83a4c3bb5c7dd.json
│ :
:
└── f/
├── f002a7ed1ce1aad5c474.json
: : : :
本リポジトリに関する Issue は下記リポジトリで取りまとめています。
https://github.com/Qithub-BOT/Qithub-ORG/issues
特定記事の削除など Opt-out を希望される場合は、以下のいずれかでご連絡ください。
- 該当記事の記事 ID を .gitignore に追記したコミットを Pull Request であげる。
- 記事 ID を添えて Issue にあげる。
- サークルメンバーに Mastodon でダイレクトメッセージを送る。
このリポジトリは、以下のリポジトリのデータにお世話になっております。
- https://github.com/yyano/Qiita-News @ GitHub
- Qiitaの新着記事を見たい。なのでQiita APIを叩こう。 @ Qiita
このリポジトリは Qiita/Qiitadon の同人サークル「Qithub」によってメンテナンスされています。
- このリポジトリのデータは自己責任でご利用ください。
- クリエイティブ・コモンズ 表示ー継承 4.0 国際ライセンス