-
Notifications
You must be signed in to change notification settings - Fork 0
RSS Feeds
Ο cronos έχει ένα cronjob το οποίο κάνει parse RSS feeds και να τα προσθέτει στη βάση δεδομένων apps/announcements/rss_data_get.py
.
- Πολλά sites του ΤΕΙ δεν προσφέρουν RSS, ή το RSS που προσφέρουν δεν είναι καλό. Για να παρακαμφθεί αυτό γράφτηκε δεύτερο cronjob το οποίο δημιουργεί RSS feeds με web scrapping σε κάποιες ιστοσελίδες
python manage.py create_rss_feeds
. Παρακάτω υπάρχει λίστα με όλα τα sites που είτε προσφέρουν RSS, είτε δεν προσφέρουν καθόλου, είτε προσφέρουν αλλά χρειάζεται βελτίωση. - Το RSS των σχολών δεν παράγει σωστό
<link>
, σε όλες τις ανακοινώσεις είναι το ίδιο ενώ θα έπρεπε σε κάθε ανακοίνωση να είναι το μοναδιαίο link της ανακοίνωσης - Το RSS των σχολών δεν έχει
<attachment>
ή<enclosure>
tags
Ως τώρα έχω δει ότι παρέχουν RSS οι παρακάτω ιστοσελίδες:
- eclass.teilar.gr (για όλα τα μαθήματα)
- όλες οι σχολές στο www.teilar.gr (http://teilar.gr/tmimata/rss_tmima_news_xml.php?tid=1 μέχρι 23)
- noc.teilar.gr
- linuxteam.teilar.gr
- disabled.teilar.gr
Χρειαζόμαστε υποστήριξη για RSS feeds για τις ακόλουθες υπηρεσίες:
- Γενικές ανακοινώσεις: http://teilar.gr/news.php?cid=1
- Ανακοινώσεις του ΤΕΙ Λάρισας: http://teilar.gr/news.php?cid=2
- Συνεδριάσεις συμβουλίου: http://teilar.gr/news.php?cid=5
- Επιτροπή εκπαίδευσης και ερευνών: http://teilar.gr/news.php?cid=6
- Ανακοινώσεις εκπαιδευτικού προσωπικού (ξεχωριστά για τον καθέναν, όπως με τις σχολές: http://www.teilar.gr/person_announce.php?pid=1 μέχρι 400)
- https://dionysos.teilar.gr/Menu/index.html
- http://www.pr.teilar.gr/el/announcements/general_news/
- http://library.teilar.gr/news_gr.php
- http://www.career.teilar.gr/newslist.php
- http://modip.teilar.gr/news.php
- http://dde.teilar.gr/allNews.aspx?UICulture=el-GR
Σύμφωνα με τον κύριο Ιατρέλλη:
Για τα Τμήματα και το εκπαιδευτικό προσωπικό υπάρχουν έτοιμα τα RSS ή καλύτερα τα XML:
- http://www.teilar.gr/tmimata/tmima_news_xml.php?tid=16
- http://www.teilar.gr/[email protected]&type=p
- http://www.teilar.gr/[email protected]&type=a
- http://www.teilar.gr/[email protected]&type=e
- http://www.teilar.gr/[email protected]&type=o
- http://www.teilar.gr/person_summary_xml.php?tid=2
- http://www.teilar.gr/rss_ekp_news_xml.php?tid=2 (Σαν RSS έχει προβλήματα κυρίως στα dates)
Σε RSS έχω φτιάξει εγώ τις ανακοινωσεις εκπαιδευτικών αλλά θα κάνεις διπλό request γιατί και εγώ κάνω Parse τα παραπάνω για να παραχθεί το: http://www.cs.teilar.gr/CS/[email protected]
Οπότε, σύμφωνα με τα παραπάνω, για τα τμήματα τα RSS είναι μια χαρά, γιατί μπορούμε να κάνουμε:
while tid <= 25:
wget "http://www.teilar.gr/tmimata/tmima_news_xml.php?tid=" + tid
Οπότε χρειαζόμαστε κάτι αντίστοιχο για τους καθηγητές. Αντί για mail στο URL να έχουν ένα pid, και οι ανακοινώσεις τους να είναι μαζεμένες ώστε να κάνουμε κάτι σαν:
while pid <= 400:
wget "http://www.teilar.gr/person_news_xml.php?pid=" + pid + "type=all"
Με το τρέχων implementation θα πρέπει πρώτα να συλλέξω ονόματα και emails καθηγητών στη βάση μου, και να κάνω το παρακάτω (το οποίο γίνεται, αλλά είναι παραπάνω δουλειά χωρίς λόγο, και απαιτεί περισσότερο maintenance):
for teacher_mail in database:
for type in p a e o:
wget "http://http://www.teilar.gr/person_news_xml.php?pid=" + teacher_mail + "type=" + type