Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Uprava Sklizni #468

Closed
6 tasks done
Visgean opened this issue Dec 27, 2017 · 21 comments
Closed
6 tasks done

Uprava Sklizni #468

Visgean opened this issue Dec 27, 2017 · 21 comments

Comments

@Visgean
Copy link
Member

Visgean commented Dec 27, 2017

Sklizně

  • přidat možnost přiřadit více zdrojů podle frekvence, teď je možné vybrat jen jednu položku z
    nabídky
  • u tematických sklizní přidat možnost vybrat sklizně podle frekvence (tzn. například všechny
    sklizně s frekvencí 1x měsíčně)
  • přidat možnost zařadit ke sklizni semínka tzv. archiveIt sklizní. To jsou nová semínka, které mají
    nastavenou frekvenci jednou za rok, dvakrát za rok nebo čtvrtletně ale tím, že jsou nově přida-
    ná, tak by trvalo dlouho, než by přišly na řadu. Takže se napoprvé sklidí při nejbližší sklizni a
    dále jedou podle podle své frekvence. Všechny semínka se v této sklizni objeví jen jednou.
  • stejně tak je třeba přidat možnost vygenerovat semínka, které jsou sklízeny jednorázově. Taky
    tyto semínka jsou sklizeny jen jednou.
  • u sklizní zobrazit kompletní Seznam URL adres (jako je tomu teď) a zároveň jednotlivé přiřazené
    sklizně zvlášť. Např. při vytvoření sklizně se semínky 1x měsíčně a k tomu tematická sklizeň
    Karlova Univerzita. By tam bylo Seznam všech URL adres, seeds-2017-01-V1M a
    seeds-2017-11-TM-Univerzita-Karlova.txt.
  • u souborů přidat na začátek komentář s dodatečnými informacemi viz issue Kolekce a json zaznam pro harvesty #402
@Visgean Visgean added this to the Zadani 2 milestone Dec 27, 2017
@JanMeritus
Copy link
Contributor

JanMeritus commented Jan 8, 2018

  • pridat url u sklizne vo forme:
(sucasny stav)
https://seeder.webarchiv.cz/seeder/harvests/10/urls

(navrhovany stav - date Y-m-d)

https://seeder.webarchiv.cz/seeder/harvests/serials/2018-01-08/

tam cisto riadky (vo forme cisteho textu), co riadok to semienka, podla parametrov sklizne:

(serials)
seeds-2018-01-08-V1M.txt
seeds-2018-01-08-VxM.txt (1,2,6,12)
seeds-2018-01-08-VNC.txt (NoContract)
seeds-2018-01-08-CUNI.cz
seeds-2018-01-08-OneShot.txt
seeds-2018-01-08-ArchiveIt.txt
(tests, topics, totals)
seeds-2018-01-08-T.txt (tests)
seeds-2018-01-08-TT.txt (topics)
(nepouzivat ale pridavam pre zaujimavost)
seeds-2018-01-08-CZNic.txt (totals)

Pod tymito dotazmi sa bude z danej url dat stiahnut semienka:

https://seeder.webarchiv.cz/seeder/harvests/typeOfHarvest/Y-m-d/seeds-Y-m-d-shortcutOfType.txt https://seeder.webarchiv.cz/seeder/harvests/serials/2018-01-08/seeds-2018-01-08-V1M.txt

@Visgean
Copy link
Member Author

Visgean commented Jan 8, 2018

seeds-2018-01-08-V1M.txt
seeds-2018-01-08-VxM.txt (1,2,6,12)
seeds-2018-01-08-VNC.txt (NoContract)
seeds-2018-01-08-CUNI.cz
seeds-2018-01-08-OneShot.txt
seeds-2018-01-08-ArchiveIt.txt

ja to moc nechapu, proc tam chces to datum? co bych s tim datem delal?

@JanMeritus
Copy link
Contributor

Podla toho sa dopytam na konkretny zber a typ, kedykolvek cez skript. Datumy tam nemusis nejak extra riesit u tych suborov, si ich premenujem pripadne u seba, ale bolo by fajn ak by to bolo jednotne

@Visgean
Copy link
Member Author

Visgean commented Jan 8, 2018

hmm takze proste chces stahnout soubory se seminkama podle typu?

@JanMeritus
Copy link
Contributor

jj, takhle rozradene :)

@Visgean
Copy link
Member Author

Visgean commented Jan 8, 2018

No ono to melo byt puvodne tak ze si to stahujes podle sklizni - kde se dali prave i manualne pridavat seminka...

@JanMeritus
Copy link
Contributor

JanMeritus commented Jul 16, 2018

Ahoj, potrebujem konecne toto zariesit aby som na strane backendu mohol do znacnej miery automatizovat sklizen. Diki moc za prednostne riesenie.

@JanMeritus
Copy link
Contributor

JanMeritus commented Sep 21, 2018

Ahoj @Visgean @kvasnicaj , stale to este nefunguje, aj ked pozeram ze si niekde pridal uz odkazy, ale vo forme:

/seeder/harvests/2018-09-18/0/urls Tie semienka sa daju zobrat od 0-3/urls dalej nie, ako rovnaky list.

v ramci tejto konkretnej sklizne (Jednorázově, Dvakrát za rok (půlročně), Dvanáctkrát za rok (měsíčně)) by bolo potrebne mat rozdelene dotazovanie u pravidelnej sklizne na:

`/seeder/harvests/2018-09-18/seeds-2018-09-V1M.txt

/seeder/harvests/2018-09-18/seeds-2018-09-V6M.txt

/seeder/harvests/2018-09-18/seeds-2018-09-ArchiveIt.txt`

chynyharvest

Problemom, ale mozno dalsim je, ze pravidelna zbierka cuni semienok je mimo mesacnej, s ktorou je vzdy spojena a ma odkaz "None"

chybnyharvest2

U nepravidelnej rsp vyberovej teraz navyse nie je nijaky odkaz len None, pritom by to malo byt nielen mesiac ale aj datum, typova sgla a nazov bez medzier :

/seeder/harvests/2018-09-18/seeds-2018-09-18-TTSrpen1968.txt

@Fasand
Copy link
Contributor

Fasand commented Mar 14, 2019

Ahoj @JanMeritus , omlouvam se za takove zpozdeni, ted na seederovi pracuji misto Martina a chtel bych co nejdriv vyresit tohle issue.

Aktualne tam jsou ty url ve formatu /seeder/harvests/<datum>/<frequency_per_year>/urls, coz ti vrati vsechny seedy tech harvests, ktere maji nastavenou <frequency_per_year>.
Tedy např. /seeder/harvests/2019-03-14/12/urls vrati vsechny seedy harvestu, ktere jsou scheduled na 2019-03-14 a maji nastavenou (třeba i jako jednu z mnoha) frekvenci sklizne na 12x ročně, tedy měsíčně.

  1. Chces aby ten uvedeny priklad vratil to co doted jenom s jinou url nebo jenom seedy zdrojů, ktere maji nastavenou mesicni frekvenci? Tedy jedno z:
  • Vsechny seedy sklizní pro dané datum, kde sklizne maji nastavenou mesicni frekvenci, nezávisle na frekvenci jednotlivych zdroju v sklizni
  • Seedy zdrojů ve vsech skliznich pro dane datum, kde sklizne maji nastavenou mesicni frekvenci ale i ty samotne zdroje musi mit nastavenou mesicni frekvenci
    (nevim moc jak lip to popsat. kdyby to bylo nejasne, zkusim na nejakem priklade)
  1. Jak by mely teda vypadat ty url? Z prikladu jsem neco vycetl, ale neni mi to uplne jasne.
  • Melo by to byt /seeder/harvests/serials/<datum>/seeds-<datum>-<shortcut>.txt nebo /seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt? Pripadne co ty topics/tests/totals?
  • Chces nechat format VxM kde x je perioda sklizne (napr. 1 = mesicne) nebo pouzit VxM kde x je frekvence sklizne (napr. 12 = mesicne)? V databazi a aktualnich url se pouziva frekvence, takze to by bylo mozna trosicku jednodussi, ale jde vesmes jenom o princip, nastavit tam muzu jakekoliv url
  • VNC = zdroje se stavem "Bez Smlouvy" nebo neco jineho?
  • OneShot = zdroje ktere se archivuji jenom jednou?
  • ArchiveIt = nove zdroje, ktere maji nastavenou normalni frekvenci sklizni ale jeste nebyly ani jednou sklizeny? To budu muset nejspis nejdriv implementovat.
  • TT = topic collections pro sklizen?
  • tests a totals jsou co?

Sorry ze jdu na tebe po takove dobe s tolika otazkama, ale nechtel bych to udelat nejak podle sebe a potom to cele menit.

@Visgean
Copy link
Member Author

Visgean commented Mar 14, 2019

@Fasand pochopil jsem to stejne jako ty

@JanMeritus
Copy link
Contributor

Ahoj, nejak som to uz pustil z hlavy, preto odpovedam teraz, ale skusim este inak - tak aby bolo jasne k comu to je. Semienka nemozu byt zosypane, kedze kazda sklizen moze byt teoreticky inak parametrizovana. Predstava do buducna je nasledovna: Kazdy typ sklizne ma specificke nastaveni. Nektere parametry by se dobudoucna, aspon v zakladnich detailech dali nastavit v Seedru. Ted si ich nastavujeme hlavorucne/skriptovane na crawlerech.

  1. (zjednodusujem) Crawler se dotaze na den sklizne - dostane seznam sklizni, ktore su naplanovane na dane datum. Kazda frekvencia, pripadne typ sa da vyhladovo sklidit v samostatnom dotaze.

  2. Nasledne podla implementace sa dotaze na jednotlive sklizne a dostane ku kazdej (frekvencii alebo typu) semienka.

  3. Tie si ulozi u seba a pusti sa podla parametrizacie, ktoru zatial pozna iba podla typu - serials, topics, tests, topics

@kvasnicaj
Copy link
Contributor

ahoj,
ještě to rozepíšu a doplním další odpovědi:
1a dotaz na /seeder/harvests/<datum> vrátí seznam všech typů semínek (př. false pokud na ten den není plánovaná žádná sklizeň), takže to bude vypadat, pak nějak takto:

/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt

1b. myslím, že by bylo fajn, aby /seeder/harvests/<datum>/urls vrátit kompletní seznam všech semínek

  1. jak konkrétně bude vypadat to url není asi úplně důležitý. Buď to bude vypadat takto
    /seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
    nebo to může být třeba
    /seeder/harvests/<datum>/<shortcut>/seeds-<datum>.txt
    Prostě musí být jasné k jaké sklizní to patří (datum) a jaký typ semínek to je.

  2. přijde mi, že z té konverzace tady není jasný konečný výpis typů semínek

Nejčastější:

  • V - semínka výběrové sklizně dle frekvence (V1M, V2M, V6M, V12M)
  • TT- - tematické kolekce (TT-cuni, TT-euvolby2019)
  • ArchiveIt - přesně jak psal ve svém příspěvku @Fasand včetně toho, že je třeba to implementovat, teď to děláme ručně)

Méně časté jsou pak:

  • VNC - zdroje, které jsou sklízeny bez smlouvy a bez evidování v seederu. Měly by tady nacházet mimosystémová semínka u sklizní. Možná bych to tomuto změnil význam na VC (výběrové custom), protože teď když u sklizně zadáme mimosystémová a taky přiřazená semínka, tak je nikde neuvidíme (@JanMeritus) a klasické no contract sklizně se už nedělají (jsou to teď tematické kolekce)
  • Tests - testovací sklizně, zejména kvůli technickým problém u stránek. Dnes se to dělá mimo Seeder
  • totals - celoplošná sklizeň - nedělá se přes Seeder
  • OneShot- zdroje, které se archivují jen jednou. V seederu je to jako frekvence jednorázově. Těch je úplně miminum.

ad. formát VxM by bylo super mít jednotné s databází. Ale asi záleží, jak to máme zvykově v archivu @JanMeritus

@Fasand
Copy link
Contributor

Fasand commented May 19, 2019

Návrh pro sjednocení VxM formátu v databázi a url:

  • Místo VxM použít pouze Vx, protože by se to dalo použít i na frekvence častější než měsíc, e.g. V365 = každý den
  • Použít frekvenci sklizně místo periody, tedy V52 = týdně, V12 = měsíčně

Potom by tedy všechny povolené zkratky byly:
V1, V2, V4, V6, V12, V52, V365, ArchiveIt, TT-<nazev>, VNC, Tests, Totals, OneShot

Souhlas nebo máte nějaký lepší nápad, @JanMeritus, @kvasnicaj ?

@JanMeritus
Copy link
Contributor

Ahoj,

zatim nepouzivame V365, V52, do buducna sa to ale moze hodit. U ostatneho si urobime prevodovu mennu maticu na nase vyssie uvedene zkratky. Teraz je skor dolezite aby to islo ako funkcionalita a davalo to data co su pod tym mienene. Bude teda mozne:

  1. sa dopytat API na konkretny den (napr. ide sa sklizet 20190519)
  2. ako odpoved to hodi to sklizecu zoznam odkazov na jednotlive sklizne (Vx, ArchiveItm TTm VNC, Testsm OneShot) a
  3. z nich si stiahne sklizec seminka, ktore si nakombinuje podla vlastnej potreby (to uz je vec na nastavenie backendu, ktory si to vyriesi sam, ci pusti kazdu podla jednotliveho zoznamu, alebo si ich rozne nakombi).

@kvasnicaj
Copy link
Contributor

@Fasand za mě to takto dává smysl, takže souhlas

@JanMeritus
Copy link
Contributor

QA

@JanMeritus JanMeritus reopened this Jul 9, 2019
@JanMeritus JanMeritus added the test label Jul 9, 2019
@Fasand
Copy link
Contributor

Fasand commented Apr 21, 2020

Po domluve osobne a na Slacku jsem to upravil na nasledujici:

URL podle datumu a sklizne

/seeder/harvests/<date>/harvests: seznam URL pro jednotlive sklizne pro dany den (format YYYY-MM-DD)
/seeder/harvests/<harvest_id>/urls: vypise vsechna seminka pro sklizen s id harvest_id. Tato URL bude ve výše zmíněném seznamu.

URL podle datumu a typu sklizne

/seeder/harvests/<date>/shortcut_urls: seznam URL pro dostupne zkratky pro dany den
/seeder/harvests/<date>/seeds-<date>-<shortcut>.txt: vsechna seminka pro vsechny sklizne v danem datu, ktere maji nastavenou shortcut. e.g. "seeds-2020-04-21-ArchiveIt.txt" vrati ArchiveIt seminka pro vsechny sklizne na ten dany datum.

Podporovane zkratky: V1, V2, V4, V6, V12, V52, V365, TT-, ArchiveIt, OneShot, VNC, Tests, Totals (popis je v predchozich komentarich)

U tech typovych URL je teda otazka jak budou vlastne uzitecne a jestli jsou vubec ted spravne napsane. Pokud byste o ne tedy meli znovu zajem, chtelo by to asi jeste jednou poradne projit.


Ty nove URL jsou v katalogu (/seeder/harvests/catalogue) s prikladem data a harvest id pro referenci.

Pokud s tim jste takto spokojeni, tak na to hodim PR, jinak muzu cokoliv zmenit.

@JanMeritus
Copy link
Contributor

zavisle na doreseni #402

@JanMeritus
Copy link
Contributor

hlavne poskytovat rozpis sklizni na dany den/cas a pak pomoci jejich ID poskytnout v jsonu vsechna ostatna metadata dkle #402

@JanMeritus
Copy link
Contributor

zde taky vazba na funkcionalitu #593, ktera trochu meni puvodni zadani, zde by som uzavrel, co na to @Fasand ?

@Fasand
Copy link
Contributor

Fasand commented Aug 5, 2021

@JanMeritus souhlas, dořešíme v #593

@Fasand Fasand closed this as completed Aug 5, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

6 participants