This documentation details information about different available versions for download of ANT (Arabic News Texts) Corpus. You can find other details on the main website page.
Current version: v1.1
Version | Articles number | Words number | Number of categories | Source |
---|---|---|---|---|
v1.1 (current) | 10 161 | > 1 474 000 | 9 | JawharaFM |
v1.0 | 6 005 | > 865 500 | 9 | JawharaFM |
Category (en) | Category (ar) | JawharaFM | # of articles (v1.0) | # of articles (v1.1) |
---|---|---|---|---|
culture | ثقافة | [x] | 70 | 124 |
diverse | متفرقات | [x] | 194 | 475 |
economy | اقتصاد | [x] | 174 | 326 |
internationalNews | دولية | [x] | 561 | 1 260 |
localNews | وطنية | [x] | 3 090 | 4 832 |
politic | سياسة | [x] | 281 | 514 |
society | مجتمع | [x] | 673 | 1 087 |
sport | رياضة | [x] | 906 | 1 460 |
technology | تكنولوجيا | [x] | 56 | 83 |
ANT Corpus files are formatted in XML using similar tags to the TREC and CLEF standard test collections.
This a sample of an article from JawharaFM as a news web source in the "economy" (اقتصاد) category:
<DOC>
<DOCNO>JA-economy-32-20170125</DOCNO>
<URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL>
<SRC>Jawhara FM</SRC>
<CAT>economy</CAT>
<TITLE>ارتفاع صادرات تونس من التمور</TITLE>
<TIME>2017-01-25T14:36:00+01:00</TIME>
<AUTHOR></AUTHOR>
<ABSTRACT>
قال المدير الجهوي للمجمع المهني المشترك للغلال،
إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
</ABSTRACT>
<TEXT>
قال المدير الجهوي للمجمع المهني المشترك للغلال،
إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
وأضاف في تصريح لوكالة الأنباء الرسمية "وات" أن هذه الكميات شهدت ارتفاعا
بالمقارنة مع نفس الفترة من الموسم المنقضي بنسبة 24 بالمائة، حيث سجّل
تصدير 122 ألف طن. جهويا، حقق صادرات التمور التونسية حققت أرقاما قياسية
للموسم الحالي (2016-2017) حيث تمّ إلى غاية يوم أمس الثلاثاء على مستوى جهة
توزر تصدير 7350 طنا بقيمة مالية بلغت 38 مليون دينار، بحسب ما أفاد به
المدير الجهوي للمجمع المهني المشترك للغلال. وأضاف أن الصادرات الجهوية
خلال الفترة ذاتها من الموسم الماضي لم تتجاوز 6 آلاف طن بقيمة 27 مليون دينار،
مشيرا الى أنّ الكميات المصدّرة من الجهة حققت خلال الموسم الحالي تطورا بـ20 بالمائة.
</TEXT>
</DOC>
<DOCNO>
sourceAcronym-
category-
incremental_id-
pubDate</DOCNO>
<AUTHOR>
and<ABSTRACT>
may don't have content in some articles.<DOCNO>
,<URL>
,<SRC>
,<CAT>
,<TITLE>
,<TIME>
,<TEXT>
are mandatory.
The files of ANT Corpus are subject to the following citation license:
By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
By using this data, you have agreed to the citation licence.
📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), pp. 135-142, Hammamet, Tunisia, October 30 - November 3, 2017.
📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. A TF-IDF and Co-occurrence Based Approach for Events Extraction from Arabic News Corpus. In proceedings of the 23rd International Conference on Natural Language & Information Systems (NLDB 2018), pp. 272-280, Paris, France, 13-15 June 2018.
If you want to report bugs, make suggestions for new categories, website sources and etc, your first point-of-call should by the Issues page for the repository. If you have something to add, either to a preexisting issue, or as an entirely new issue, feel free to do so.
- If you have any ideas for features you'd like implemented, please share them with us.
- Please refer to the RSSCrawlerArabicCorpus project.
- Reviewing and commenting on code; Pointing out ways to make it better; Refactoring, rewriting, and improving. These things are welcomed and appreciated.
If you find the project interesting for the evolution of the Arabic language, feel free to write blog posts, mention it on social media (Facebook, Twitter), etc.
Project webpage: http://antcorpus.github.io
Copyright (C) 2017 All Rights Reserved.
RIADI-ENSI, University of Manouba & ENISo, University of Sousse.