Skip to content

【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。

License

Notifications You must be signed in to change notification settings

iwancorong/Qiita-SPAMS

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

66 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Qiita 墓地(Qiita 記事墓場)

このリポジトリは Qiita のスパム記事の情報を 10 万件以上アーカイブしています。Qiita のスパム記事を検知するエンジン開発や機械学習用のコーパス作成などにご利用ください。

注意(データはエイリアスです)

このリポジトリ自体にはスパム記事の本文データは含まれていません。スパム記事の本文データが必要な場合は、上記「ダウンロード」よりアーカイブをダウンロードするか、下記をご覧になって API より取得ください。

このリポジトリでは、スパム記事の本文を取得するのに必要な情報を JSON ファイルで提供しています。

各々の JSON ファイルに記載された API の URL("url_cache" や "url_raw" キー)を通して取得ください。いずれの API も JSON 形式で取得できます。

  • url_cache キー: Qiita 記事情報のキャッシュサーバーの URL です。本家 Qiita のサーバー負荷をあげないために設けたキャッシュ・サーバーです。なるべくこちらをご利用ください。
  • url_raw キー: 本家 Qiita の API の URL です。キャッシュサーバーが落ちている場合に利用ください。

スパムの判断について

新規投稿から一定期間後にアクセスして、投稿とユーザーが削除されていた場合をスパム記事と判断しています。そのため、引越しをした場合もスパムとして判断される可能性があります。(Opt-Out はページ下部をご覧ください)

  • リポジトリ更新頻度:現在、サーバー OS 入れ替えのため、不定期で更新しています。

フォーマット

  • Qiita 記事の記事 ID をファイル名とした JSON 配列のプレーン・テキスト。(UTF-8)
    • spams ディレクトリに設置されています。このとき記事 ID の最初の文字をディレクトリ名とした下に設置されています。

データ形式

  • ファイル名: <Qiita記事ID>.json (Qiita の記事 ID がファイル名)

  • ファイルの内容(JSON配列): 1ファイル1記事

    {
        "id_item": "<記事ID>",
        "id_user": "<ユーザID>",
        "url_cache": "<Qithub API のキャッシュ URL>",
        "url_raw": "<Qiita API のURL>",
        "date_post": "<投稿日>"
    }

サンプル

Qiita 記事ID affde3d2cca6ecec0c87 の場合、ファイル名は affde3d2cca6ecec0c87.json になり、設置先は spams/a/affde3d2cca6ecec0c87.json になります。

  • ファイルの内容は以下の通り:

    {
        "id_item": "affde3d2cca6ecec0c87",
        "id_user": "wedoseday",
        "url_cache": "https://qithub.gq/api/v1/qiita-cache/?id=affde3d2cca6ecec0c87",
        "url_raw": "https://qiita.com/api/v2/items/affde3d2cca6ecec0c87",
        "date_post": "2018-05-22T05:08:25+09:00"
    }
  • キャッシュの URL 例: https://qithub.gq/api/v1/qiita-cache/?id=affde3d2cca6ecec0c87

  • キャッシュ(スパム記事の本文データ)の取得例:

    curl -o spam.json https://qithub.gq/api/v1/qiita-cache/?id=affde3d2cca6ecec0c87

ディレクトリ構成

/spams ディレクトリ下に、Qiita 記事 ID の頭文字をディレクトリ名とした階層内に各々保存されています。

./spams/
├── README.md
├── LICENSE.md
├── a/
│   ├── a00a765cb4fe79e16c35.json
│   ├── a01077d83a4c3bb5c7dd.json
│   :
:
└── f/
    ├── f002a7ed1ce1aad5c474.json
:   :   :         :

Issue

本リポジトリに関する Issue は下記リポジトリで取りまとめています。

https://github.com/Qithub-BOT/Qithub-ORG/issues

Opt-out

特定記事の削除など Opt-out を希望される場合は、以下のいずれかでご連絡ください。

  • 該当記事の記事 ID を .gitignore に追記したコミットを Pull Request であげる。
  • 記事 ID を添えて Issue にあげる。
  • サークルメンバーに Mastodon でダイレクトメッセージを送る。

謝辞

このリポジトリは、以下のリポジトリのデータにお世話になっております。

文責

このリポジトリは Qiita/Qiitadon の同人サークル「Qithub」によってメンテナンスされています。

免責事項/ライセンス

  • このリポジトリのデータは自己責任でご利用ください。
  • クリエイティブ・コモンズ 表示ー継承 4.0 国際ライセンス

クリエイティブ・コモンズ・ライセンス

About

【Qiita記事墓場】Qiita のスパム記事をアーカイブしています。

Resources

License

Stars

Watchers

Forks

Packages

No packages published