Skip to content

antcorpus/antcorpus.data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ANT Corpus

This documentation details information about different available versions for download of ANT (Arabic News Texts) Corpus. You can find other details on the main website page.

Version details

Current version: v1.1

Version Articles number Words number Number of categories Source
v1.1 (current) 10 161 > 1 474 000 9 JawharaFM
v1.0 6 005 > 865 500 9 JawharaFM

Categories

Category (en) Category (ar) JawharaFM # of articles (v1.0) # of articles (v1.1)
culture ثقافة [x] 70 124
diverse متفرقات [x] 194 475
economy اقتصاد [x] 174 326
internationalNews دولية [x] 561 1 260
localNews وطنية [x] 3 090 4 832
politic سياسة [x] 281 514
society مجتمع [x] 673 1 087
sport رياضة [x] 906 1 460
technology تكنولوجيا [x] 56 83

Files format

ANT Corpus files are formatted in XML using similar tags to the TREC and CLEF standard test collections.

This a sample of an article from JawharaFM as a news web source in the "economy" (اقتصاد) category:

<DOC>
  <DOCNO>JA-economy-32-20170125</DOCNO>
  <URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL>
  <SRC>Jawhara FM</SRC>
  <CAT>economy</CAT>
  <TITLE>ارتفاع صادرات تونس من التمور</TITLE>
  <TIME>2017-01-25T14:36:00+01:00</TIME>
  <AUTHOR></AUTHOR>
  <ABSTRACT>
قال المدير الجهوي للمجمع المهني المشترك للغلال، 
 إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
 منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
  </ABSTRACT>
  <TEXT>
قال المدير الجهوي للمجمع المهني المشترك للغلال، 
 إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
 منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
وأضاف في تصريح لوكالة الأنباء الرسمية "وات" أن هذه الكميات شهدت ارتفاعا
 بالمقارنة مع نفس الفترة من الموسم المنقضي بنسبة 24 بالمائة، حيث سجّل
 تصدير 122 ألف طن. جهويا، حقق صادرات التمور التونسية حققت أرقاما قياسية
 للموسم الحالي (2016-2017) حيث تمّ إلى غاية يوم أمس الثلاثاء على مستوى جهة
 توزر تصدير 7350 طنا بقيمة مالية بلغت 38 مليون دينار، بحسب ما أفاد به
 المدير الجهوي للمجمع المهني المشترك للغلال. وأضاف أن الصادرات الجهوية
 خلال الفترة ذاتها من الموسم الماضي لم تتجاوز 6 آلاف طن بقيمة 27 مليون دينار،
 مشيرا الى أنّ الكميات المصدّرة من الجهة حققت خلال الموسم الحالي تطورا بـ20 بالمائة.
  </TEXT>
</DOC>

About tags

  • <DOCNO> sourceAcronym - category - incremental_id - pubDate </DOCNO>
  • <AUTHOR> and <ABSTRACT> may don't have content in some articles.
  • <DOCNO>, <URL>, <SRC>, <CAT>, <TITLE>, <TIME>, <TEXT> are mandatory.

Citation Licence

The files of ANT Corpus are subject to the following citation license:
By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
By using this data, you have agreed to the citation licence.

Publications

📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), pp. 135-142, Hammamet, Tunisia, October 30 - November 3, 2017.

📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. A TF-IDF and Co-occurrence Based Approach for Events Extraction from Arabic News Corpus. In proceedings of the 23rd International Conference on Natural Language & Information Systems (NLDB 2018), pp. 272-280, Paris, France, 13-15 June 2018.

Do you want to contribute to ANT Corpus project?

If you want to report bugs, make suggestions for new categories, website sources and etc, your first point-of-call should by the Issues page for the repository. If you have something to add, either to a preexisting issue, or as an entirely new issue, feel free to do so.

Have any ideas?

  • If you have any ideas for features you'd like implemented, please share them with us.

Can you code?

  • Please refer to the RSSCrawlerArabicCorpus project.
  • Reviewing and commenting on code; Pointing out ways to make it better; Refactoring, rewriting, and improving. These things are welcomed and appreciated.

Can you spread the word?

If you find the project interesting for the evolution of the Arabic language, feel free to write blog posts, mention it on social media (Facebook, Twitter), etc.


Project webpage: http://antcorpus.github.io
Copyright (C) 2017 All Rights Reserved.
RIADI-ENSI, University of Manouba & ENISo, University of Sousse.

Version Status Licence