From e94d65dae8dce63eaf415eb62300e46eab9d9796 Mon Sep 17 00:00:00 2001 From: kaldan Date: Thu, 21 Dec 2023 13:09:01 +0530 Subject: [PATCH] fix(ocr): checking the abnormal post correction feature added (#264) * fix(ocr): checking the abnormal post correction feature added * fix(fix-ocr): test case of hocr is updated --- openpecha/formatters/ocr/google_vision.py | 5 +- openpecha/formatters/ocr/hocr.py | 8 +- openpecha/formatters/ocr/ocr.py | 15 +- .../test_remove_overlap_and_duplicates.py | 1 + .../output/W1KG10193-I1KG10195/html.zip | Bin 24841 -> 31084 bytes .../opf_expected_datas/expected_Language.yml | 6 +- .../expected_OCRConfidence.yml | 283 +++++++++--------- .../expected_Pagination.yml | 44 +-- .../opf_expected_datas/expected_base_text.txt | 55 ++-- .../opf_expected_datas/expected_hocr_meta.yml | 32 +- .../expected_OCRConfidence.yml | 62 ++-- .../expected_Pagination.yml | 46 +-- .../opf_expected_datas/expected_base_text.txt | 34 +-- .../opf_expected_datas/expected_hocr_meta.yml | 20 +- 14 files changed, 323 insertions(+), 288 deletions(-) diff --git a/openpecha/formatters/ocr/google_vision.py b/openpecha/formatters/ocr/google_vision.py index de96bb24..4f7bc79d 100644 --- a/openpecha/formatters/ocr/google_vision.py +++ b/openpecha/formatters/ocr/google_vision.py @@ -46,6 +46,7 @@ class GoogleVisionFormatter(OCRFormatter): def __init__(self, output_path=None, metadata=None): super().__init__(output_path, metadata) + self.check_postprocessing = False def has_space_attached(self, symbol): """Checks if symbol has space followed by it or not @@ -175,6 +176,7 @@ def get_char_base_bboxes_and_avg_width(self, response): widths = [] for page in response['fullTextAnnotation']['pages']: for block in page['blocks']: + cur_line_boxes = [] for paragraph in block['paragraphs']: for word in paragraph['words']: bbox = self.dict_to_bbox(word) @@ -199,7 +201,8 @@ def get_char_base_bboxes_and_avg_width(self, response): # language = self.get_language_code_from_gv_poly(word) # instead we use our custom detection system bbox.language = self.get_main_language_code(cur_word) - bboxes.append(bbox) + cur_line_boxes.append(bbox) + bboxes.append(cur_line_boxes) avg_width = statistics.mean(widths) if widths else None logging.debug("average char width: %f", avg_width) return bboxes, avg_width diff --git a/openpecha/formatters/ocr/hocr.py b/openpecha/formatters/ocr/hocr.py index 51d24f3d..5fdbde5b 100644 --- a/openpecha/formatters/ocr/hocr.py +++ b/openpecha/formatters/ocr/hocr.py @@ -269,12 +269,14 @@ def get_boxes(self, hocr_page_html): hocr_html = BeautifulSoup(hocr_page_html, 'html.parser') line_boxes = hocr_html.find_all("span", {"class": "ocr_line"}) for line_box in line_boxes: + cur_line_boxes = [] self.word_span = 0 word_boxes = line_box.find_all("span", {"class": "ocrx_word"}) for word_box in word_boxes: bbox = self.parse_box(line_box,word_box) if bbox is not None: - bboxes.append(bbox) + cur_line_boxes.append(bbox) + bboxes.append(cur_line_boxes) return bboxes def get_boxes_for_IA(self, page_html): @@ -291,12 +293,14 @@ def get_boxes_for_IA(self, page_html): for paragraph_html in paragraphs_html: line_boxes = paragraph_html.find_all("span", {"class": "ocr_line"}) for line_box in line_boxes: + cur_line_boxes = [] self.word_span = 0 word_boxes = line_box.find_all("span", {"class": "ocrx_word"}) for word_box in word_boxes: bbox = self.parse_box(line_box,word_box) if bbox is not None: - bboxes.append(bbox) + cur_line_boxes.append(bbox) + bboxes.append(cur_line_boxes) return bboxes diff --git a/openpecha/formatters/ocr/ocr.py b/openpecha/formatters/ocr/ocr.py index 82ae9aed..6181b1b1 100644 --- a/openpecha/formatters/ocr/ocr.py +++ b/openpecha/formatters/ocr/ocr.py @@ -128,6 +128,7 @@ def __init__(self, output_path=None, metadata=None): self.language_annotation_min_len = ANNOTATION_MINIMAL_LEN self.remove_rotated_boxes = True self.remove_duplicate_symbols = True + self.check_postprocessing = True self.script_to_lang_map = DEFAULT_SCRIPT_TO_LANG_MAPPING self.max_low_conf_per_page = ANNOTATION_MAX_LOW_CONF_PER_PAGE @@ -471,10 +472,22 @@ def bbox_line_has_characters(self, bbox_line): line += bbox.text logging.debug("ignoring line '%s', detected as noise", line) return False + + def has_abnormal_postprocessing(self, original_bboxes, postprocessed_bboxes): + number_line_difference = len(original_bboxes) - len(postprocessed_bboxes) + if number_line_difference < 0 or number_line_difference > len(postprocessed_bboxes): + return True + return False def build_page(self, bboxes, image_number, image_filename, state, avg_char_width=None): - sorted_bboxes = self.sort_bboxes(bboxes) + flatten_bboxes = [] + for line_bboxes in bboxes: + for bbox in line_bboxes: + flatten_bboxes.append(bbox) + sorted_bboxes = self.sort_bboxes(flatten_bboxes) bbox_lines = self.get_bbox_lines(sorted_bboxes) + if self.check_postprocessing and self.has_abnormal_postprocessing(bboxes, bbox_lines): + bbox_lines = bboxes page_start_cc = state["base_layer_len"] page_word_confidences = [] for bbox_line in bbox_lines: diff --git a/tests/formatters/google_vision/test_remove_overlap_and_duplicates.py b/tests/formatters/google_vision/test_remove_overlap_and_duplicates.py index e15544cb..faa5231f 100644 --- a/tests/formatters/google_vision/test_remove_overlap_and_duplicates.py +++ b/tests/formatters/google_vision/test_remove_overlap_and_duplicates.py @@ -32,6 +32,7 @@ def test_remove_overlap_and_duplicates(): ocr_formatter = OCRFormatter() ocr_formatter.remove_duplicate_symbols = True ocr_formatter.same_line_ratio_threshold = 0.2 + ocr_formatter.check_postprocessing = False ocr_formatter.build_page(bboxes, 1, "I1PD958780125", state, avg_char_width) base = state['base_layer'] diff --git a/tests/formatters/hocr/data/file_per_page/W1KG10193/output/W1KG10193-I1KG10195/html.zip b/tests/formatters/hocr/data/file_per_page/W1KG10193/output/W1KG10193-I1KG10195/html.zip index 259592fc5782d3a4f33380b1ae6f0905cbdbe480..322e4b2175d7b80feba1f645d3578b04c3b097d3 100644 GIT binary patch delta 11575 zcma)C1z1$u+8(+~I;3j=X{5VGTDlu)>5iehhmaHmmF^IbMkEA8x?7~X>xXl%_Z&T( z|K2sTCZ6Yg-~H{i*53R1*7t_DLv0;Ei7Uy%z~TVz+krYnmWl~p^^ABAIASV zlmr^T4(0RTWJn>mns9`vcQW;N{r>xxA%ZA~5J3E3V3G8HpZymR0H8lp)=uX$uHWemZrzLpjnf>4j`CMNpmOWW zz%J2YHIZl4@)DG4@iD8VL~YNW=h<#au>}F-jcITzOXAhY3&Fv{Z=D8EfkFdn#(Rh* z0V37TyWVau1~SGo>b1SL4c*>fWH*85caIu2(LD4x3tioc>SovH4D3ESou(A!>`!&o z)VyxGN!M`$-;NQF28uS^l(_jiTx!%6c3D-O^ZOJ{dSCBsjyBrOH90jVjGI-Rca;&V zEw>q#yX8)LAN?3QmcH<`yY)TXu}ep=Z%nlBI6FMvZgZu=DqlQeoxO<;^fd=(elS3y zNZ*~SzdjiYJb7tdGrWzVJzL_stew>SO_2NIEONT3WDMX{H4zlW_QJmAtdGCs`gDHM zy4h#5pL^%Z`@kLHdRxrTyz%4ENbE?wtF;%*t|qZFJpVSDzk#w|sO(tUdFXk->`8X8 zV&&9LN5=rdCZkT%PWJ5MVsujQZjDCaLD_MV=%wM;plLgG9SrTu>l4H4#f3R5&4M)H zF=glid>D!I)}PDZX5PueQB98`_u--o754Yf^L1 zS~pLuIc*J;GpL{JkR4C+=q)X=J*g$r;1S-89tm__Y?7Ihvb1eH6s@Tl-Z*9HGJ31q zR9QdCpD%HtsBOz=Hrl^`Jv2WPDBIX1)2?{g6nd$%Eh9sgsMK35<8f&G>Km0AktkD# zESp+>BGPc()8VGFu>{TvaAj@6)CU=4!BK+Ra_;HVYgxOjjq6@Hj=kVV_05iD2;U~p zO)f(wh-W&%v)0?LuB7u8GuvCWm(f=oA1|cp>RP6!v?et-cWWAk6$997{QOup_7hXq z_utXdF+WX}OnF&Vsz+v&MMp{1+1q7tc5HEG!+GV)d1d2#(xZ*d3hrwQfPIya>?cTu zrYOC3_r4`X0|Qu5l%K_ds1R3%EZp0J*znk5+66*|_6>DOTQL#8tnoOroL}I;wZEY< zq|03-M4RY^Jpebs!K5{gd1(MX3%& z-uDQG;e?P)5G%wFtVtakjF%*mHiWaSqkt6KlK|7(kN%=s@~yCWJ5OT7kH@3Aiia5v z_5!^jI0=uy!iak4Mh)&_`0?sk?Wm|()IQ$Kk0aw&ww^6g!d*s53xgIVyWABG-Bp8d z+RQ*BDWb_HdA0r&YW*vTJjuX(xr|pHz+!55Fas$gHmb3#pO(fj@4I8_w|xiX;@P0j zKO*-D-B$pLmRiGAEWFop1*(g@j#CO}c;$|T(B0nP2HGD?WF5D1V|enH1(p;94W`TZ z!|GN&A2B(j1jBsa8ST=E!(F$od_70G0wlDtyR&V&gcajoAF)Vv*zwS7Pxf?6azm74 zwJl}XqFc6Yb#<8efrW8Fikl-ftY$vfMYIgo)91G!RRzJU22faMxy>8)x=r)+CPaiR z+ImBd>Ktv|ik7OB; zRS`{L=$CBF9gwUdZJx1T_LQE4Z={>T~A;S;u74LgD#+cBRNq>wCH)x%3LTK<^*=yyDufsROq}z1VM_o!ZJWc;`RY542 z+@S%w-jU9Tg}8r-65U84dYV1LTMQ#iBBJ_jQ(ESFzP*<8l#@|^o^<;2tfNbGr&s-n zaWD$m#R##+u~=L$t(5hkpo@7w2;~rW*BXx0xcsrvt^zQd>iiJ>yl@yl}kQK zEi7ZF1@%uy?N>3P=Gy+4FgSB$Vb87xuN6N6?#v&&NUHqQnK7tVwgTJ3`UF(NHl#9m z-lftf;1h8DM#iBWX!+qVaC}iP!*#!hktq zRFYnIjNq!e>=30w+sO#!j=M3IM^OQ)SPgj&FUysnwJM7kZF@KKqgWnHc103qa4sCI z3Q!qOWSbr~KS$VU2eLsK5%-?lo-X&WjHig(8A~!3HJJaCH)5I@bCsDYh1i}Cm$H#F zo(p|tg9JmeZ0IYd8N8qjoXA1m@r2-Q&DQ>c@uKojb@TAL90e7D^f2=5$p|mN#!AMu z{cxkYzZqDX3Q;1U*3Dw0TG}?-M`II`^1*4$`dUD*2tfK0#%4HxJF4N=$l_r z{H~#?s8XhJ;a25jErP+?DO$x#)$2$)daz!&p)equL0!`Ykm}0+|vRHF>Yj_o3tgGE6kOXpxrci8zFu z8cbX|qpe9by)gN$F50FQN#i&X8XSo>1hJDg5a<>rhw3m@J4d;0a9wzT(Kw8~j51F$ zED61egp!~!pKX4Xp|v9N30pFY<7$Vuk)&hD8D2b=#{#Nm6HqA(Kf=Et8yd?G+Kann zW=S$$5YkB)mIYXSkz&pHB^QC~s+B@A0N8`g13 z`L`l_X3XbVs%YK};K2)~wU-J5_`_>9J**%zn4ttc6TyTZHb!vDQtrda6tbcCc`R+F z$W7e=i}Jep`K03$d;LjulY5@hg|6>rDp{r|5!H6fSu-t>CCd;bqvtuA51sjB^;z?< zUAt*r+Y;MQTu^v)Fq;vdbZ!|)sf}|rfAJUzmb^@1;fW-A1MY8@%u9l^b5TZu&r@!Z0E?=KaO%{na$2==S?$v3p6J*-W>7dXtt_5ejdVCtGpt|yy?Wwjs%`7FTU}4Sa39O z<~oVqtN7;qbAsDaOh*@BNAi-L^JL~z2DJC(Mh&w)${~Wt%sqa#A3Bu-Oe>~L49R7^ zB97rM6m=(=x|5*$EF+Sj$EgP3-s!dl^FEKmUxyP~Q~CrJu-rptc;n>l%L2eO?RhTH z3E`J>l@upHDqiu#WNQ8x4j-8zBK0LkUjdG$hv(D!k|!{+J93g<`N#Q3_hK5DxYygs z;~c3(V*xZAq`gXYz0FI!lV)Og=-7{;jQOT$D$A$yd@Z2_jGZK(`D0V0q~MAgHnjvDx8XOLD2VXO^4RM~HSx ztf-aH1FIQv#I-QrQAKs(htVXF&SSX)GZ^wkLU>tt`c^CV773q0A1|H(*fr4Q@nACC z!%i*AR(sk%m5Sb^#L!H0ju(tjv+$ow%?&z5?r~MkZrT`T9QB&|Y1`obe-` zy{CP8gQ6shfanVqoWp^3_mIEK#{QKYB0@AoF#aL6+tGd~wL`&ygZ^6{$n!uB7>S4Q zP{Jsn`;aOcalk|1?_>{wk;%`Y{uTlaM4R#H3J z!AlOizk_KYV1tL0S4D8){-#U=p*4I6>>}mx_tBt+2*^GZhLNl|GR6I#3F6&L`Y$=R zZsG$uH<*os`F<1Sk3E##yWIO{|2_BCo43>Z?BIK9P_c^gI^XN$v{V9UVT+GMUMEVG zyROnort!!q!nDU)b^{`w2aMp!SDP$OgHEQbhYk>$WL0X#y{_9+T=%XDUEwuPQBXl2 z{>JJ~GwTIz=5MUxsG9#WPZ3p%yONt8e(?E8X3P10rCG+TsKWB&fP3F?q07?j(a(mPf{&3`rL{?Lw{u2T&gebsvpTuVaxQoOC}<~Sx4d9@aGqI%aG2iLNPNjiZ0%*esWYt;S#sXC z;B=%YJgw8nt+Dz^=vIGzZuSgNMtXP0o0*;O1Q#{Ewk_M9S>}FexBZ1hLcra-{FN|) z;cRY;8h*3SS_i`B;dRn%BjcG+$8J8$6>4+$Ugl=w)!3+3YGs}JxEnVaW7g|*S!$@J z{nBp^1>mXgW71Y8UfT-`-XzJFZY*VGyF$v3uirPt_PRSQA06_}O?2qExh6Rs)gd&J z?SSpRB#p794iMBWZABj%y(v@uN)&dz_mnM~of%D-FL&_9NKr=15J~uG81)6Q??%=qP(#2KL_lteW=;=W_qpt!M zvuvHIH_o#MC6Hwey3g~a1AAw({ucO4A~-412J;~*VaGn-wovwNLQUR1rhX<;!C8=L z7o&ZULR>>+cDBM_H-9_SSjkQ!c6ihth0B#H+qW;MD8zfSy^b$@T_X*@b|iWmIhqE3 zHVj(K*hT!3X)SuuF}A(H#uvJ1awE(%ozYuY6|Ns+`tghEu_BiO9Jk)P*O??OJiIp- zEB$5Ec#NV1ugr@AUQ=GfKNW@V!hdBN!kYTLnY_x$@k$$!UQ78Yk-&J|+K-jSvLM4s zgeW%AVAe`I0bUk1;m?X@6y=tnIT12bKby}YF@Es+T!0_p z6WLlRAgsjTXWfu>kHbw;5j|uI=O__%=8Xbq5@V}ud*#4n%X1016pg_B{KsG_@QbyK zoC;ZF2Qf5PXU8jpM+8qf;4MX?_j`KwHK^lYQTv50t5FmrIiA<17>A6&4btNzp(=$` zQNchS84AFOR5<1vR5l=4`i;k<1{^TwYw~7m82b+J2MqOoE`{pwRX_z=kq5`bY41o6 zumr`#(TjY|@jt4^gcqDiFmj@n2d{dePvRg(>)5Bo(<_H1$qFuU9r2&IggVBVDm`fv z?PCNz|4anrgHuLjaDkky4MUdAxAcW^u~B(g3#wnsjn*F5Z5h8tY^DC@5V4F6N7oZ& z>|rFYh+_>ERxOC;dfGgp{zw}B6Q7g=m4oq?eCN2MNGU)Px)MzdpX38*5v-^V6fXuo zD#^c%Q$3K|5OJj(-f01jaVxXN8(GvUcO;sCsX0AUkD`l}Pds@%C0ioPt|g#9;o~45 z6!Ip7lQ|(q#aW)K#w?BYxZMH^97PDhJW5wvbyS?e-38qlpEdiakB^pxTey)E^Dd z!D5ZtwgD7W6X;zxsevyj214Sx-Tc~Q6;^vyuAB1GDWmd5Vy2k6^1z$RLP+G8k5~As zX==)X->`WzQ^(Wj^odmSe|hry>|>OE8J$=*1&~_WrnWmwuR@1{;C;80qa%fezMQ=% zjGuoO&T%~rDGR4d{Sn-=;H2+{m;L0m(J9oOeI{6D3aKm!3-b~{Q)JePi~#G2*})aV zALkk0KxnV%NVGo2Q5J!*)gd_xlyx8=#hd;_No$KND=%i5X9NetAUf&kayLf~Q_3=> z=^8_Q!-NID7F;JHz(F;Hz1c{w??xqH^YbB;330Ph*!CNo`VLAxF!p*6>xO%K&F z?2fs*#Nz2n4 zW#!q>Ws?NnSZO>KPJk#9v>_(>rWNsJgQ8iF*%L&%0PxXDc*E2+lYb}lccU-{>9eis z#QlQ&RzpPAb1ptIUd~?!qO96 zm%fjKd#=3J2PuZ+HpZ+gd?wi_gMsA;qV1xYbp$|M zQe$gOS@;ZO*qY&KPRCV6wDc7j)CVieQ^hIi4ST%Qzs-Dc)MW5uA%_sWHY?12X zv+SX-F|dg0bPy7j64_-7V&`4LEW_f^s>0603GIR%tHJ6$Y-GZ)0vt*KaC7z2$Y?_n zQ6;+xGWs4U+f~?F5Vo(jzM)_+*j<$siD3&tq!=#*Wv}>Uj!JT+C z1p*t;xyX8?RFad?Mt)+LsOW0y9dvIT+cc&2ygAQeRmAa?YLSGnYAuLV5YhD|XhM;B zqP4-{wAkR_Vkj&u{Per&9Y2(KOc*UYKM5Qj zSIXkQz$hGu7-t1nc2ac!Vj2luAWZ=a&v*sMw6k2qnJ7;CdKX?DznpNK451I{i$ku_ zH|g2ljb_{&IZIZe{61>Gk0)xMQX#58XYiQ6UGuRvOHi^XzD;}kzJ&5vwLmCX4oh%T zY)Ohm97f-}gj2YkUIfN#mzi&ux+hLkNmEb#lc-wQn|(5qAEioXrOy|c)j@+u6EVbT z7AdqLcAg1Xr5f;0_vd7ICm1x~cFP=&6!Sc?8Pj=IMd#E-*d>~oW5!KnR~gnAwaEtv zh!8+uJu1}Zm42X5?6hBY+CzDP1Bqf{r7D&pzs_fjtBXQ0*I38N_b@U7tbSof+t~6mssT4kI8k1^6qMVe$&b@o%tcEE) zmiB$uanc^w_d(tYYK^;cZv?ywE`v0sc9N1vFOWQ2tywc4*AiG~o-tEnpNE2th_DKr z83>LOr+Rxl+XBj>XXZf-BbmzXuyZ{KZc6I|8NL!9PuM9S-z0U$2nNu}MVfYousBMQ zmBJsYohwXQsopJaQG>-72>Q=nkda5hZ>r@s@j#+WQf3r_0rewbk{|NCef45&yimsV zmS|CjaO>ovo5A0CrW|{xVgM)(O!ITW6+GMFi#E0#v9RG_Kl@qO0W7q1nDnBs5X3Hg zftNtC#vU1Az9;DM+Ck{)a?_Mc*Q|^zQkT;=&@h|}y~|YWDag+*)+iYYh#SG)g@?xL z)pH7Ox|>GPuFvYhnwxU{Tvn-nlyZLR4AFVIGY8C zTBOJkc4%3sS~1(SNI*Q({I;7LiJq;??Ml1|u6BsP3|(%}wHHYl*ZXGB zt9%f~6yVq#PNTWJ<3-MMi43A8T&E0W>ZQuT(i!!cmtod@cW!z0imr^m>NeLjVk+ek z!%Np;O!=2t-s_a07IAU=@+>9^#q@~e=uG!oVkW{vc6NUH+P zEstYU3PE*n2tDYtTO_w1-BOIbOhT5ZwgIJlkkgYJ1GoZBxyLZ=!*$GG5|=FHVwZhTqzf$)BKHXp*4Q>^n<_hb1KoF0 z5|l(HS!pQGDSZXVEJRDJgQ?WMXFEiaTpT4%?Ry@rFkm8594qBJz7%_=Wh7-t9|RNV z+7!&2EC@D*X+7(dBk`A4o))tJ7;#dcS#h?ZgC&xScpMF0>$}+{SK?f`cUiIy`zYto z#nZulUN2kBEIm6HOes51Ys(7vkS?s5pJeiXX2V%Y4PO+Sh z{a|=gW7|SlltbHaOH@~BaVM7X{unYeM9!zhWxH`rBq@wf1DCRF0+D3ir__ee#Gtr_ ziF}|3yTctPjpS;QAXCQLXyFc=qP3l9g$&Xta%zqth{3q1oW2lFlmkt*!rAt|Xg+;2 z0H$du5lngA$3XN8K-=cK4L z`>^zYMI9CS@hQsglWeF}0FQ2-F87;T-ES`LrXBupo2qpxV4%m>EES>;#uO`KtTM+m z5v%GX)%)Bo;>YHdg5Dq472w!IqKB|;ByzpTV{?iGuCUVIRwXbNP3A_q#9C_7ndp=4cAyr0HZ6KFl zkbfBxsXrb5lFP!vPiR+45u-6H;i(OiB*QFkqg-3#<7c$vD3p>4iA8dbsYV9dU&qs1 z670^>JW$c*Wvrad6r1CYhFZVIm+^ty28^a)8+VP#y>jRV7P5t{$5*lPeu%E3@7t|F z#=mwxW89)luvw;_HF6>m2l8>d@M}^8e({+=L7$XS;eL#(hS`jRdun5q5ysWvnbOb*T7J3G)49YBD}i1w1(&T#Sxkr(uSM_-9+-blI}3Cb^Et!oyec~ zdb!lr9}kt(!Lw+XZ#JgKu0JU4z% z!Sx35*C6G+cfI{=+oIw>ng87bchAPZ_rU#Z+oBOa+4qh(+y@KIo78gL&_d``NZdxuE`io{$QSKiqQv5A)tF_p@z_X8eW8jr*W??vLZ$d*^<( zZBaDnKackxC!NecI_dtLu7|vIf69jaCi~x~WodtB-qoG{mtixuO0^fi8!~l?--j)n<5$Ul zs7^ty^nX7McadM2f0U~JmtfA_PB|oD0f1i2--AJu`d#wDf)+%^@b_SDWPWA-QQi7) z!Q5B3{(8^;b(K%5{U-Up*1CRPNcU^=p_~8DHG3^8VEyky{7;Vp?t4e_Px1S!G|2O% unsAaYQ14E0=C0pAC4RPT|FECpch3yqgV#G8{5=}~?uB_*#g($T|M!0pY>m+X delta 5316 zcma)A2{@Ep8y;IE8q16|`xc)lWXm>0_I;8qvaf?McCRIst&AZ;6rqShgNZ32Queiw zeMy$=vj0Q*`Y*q)|9jqR<~`S3_kBO-Jnws+xz0VaNDx^~fTkp5QXvMhgIp0_!f-=M z5UDQsy0t$3vv>FQJpm#hULgR1h#?>lNLPahe<#CVH~bNB{15xlkN-Z2S3u`GGgF%! zW}$nWJy6OF!j!*qs3EM~Tpbbi|0fv=c8Zu`Pn1K00iEi49D3xG_E6kEQQYW2f67irMZXlaMNS_$5O>}GLjO3K*m4i^wBXy5Ng%Kl_@DAS|LDF za8i&NYyXWkK!ZI_0E&cG)_b-69}WnFNz-sMt%ruJ?Lf==9e6wkz^2z*rTO)%5aD&O z4!DBaORbBXaMYdgLM9G1y~nQ4RLiwjV2_E$iJe70vZ1;5-$lJtCT6?Wr^ zKp(s2fMzq-N@RJNX;7=&S08`iOViCtAtrc5#h1P*FE$tP0qolJN~`Z|HzwAia;Kti zZRbZfb5{*)W6SjW*0*Ligi-8@-4b{MS+c%?>&f>Stn^va=6U|nZYg$9Jg=_it>vyt z$@-6l(doM@D+6!CCvbxj;A`axXDzq3S0238=8`3N>nQSNC$=Wo9?kF^xDnUn^L@ZC zVDnnQbIichDrvzSvO+JrW$^1L`1^9HDUn&jh&!WoBe;NWcL6aywC%H+>NXg>6kG8o zO>_3en~w5(eBM&j^sR{5$HL*wmSsU2Lx8^dE#Qm81l!fVPtIVIAImGN8LZxNpUnE^ zyh&&0EQ984-rz1LzHu$21bT0U^HSi9UFBU^mixk+E`@JSUn}rqd@S!<+{dfex4mO> zp0Uq$79-K)-$y##SFqiE*}hEl>&s08>vnlu*`R-G;i3fT4{ztPvTeCQAIa_6(Sf%o z1Iu;?5c!)R`SQN0(uUlXjAhbU+|x-JRr!MVcadzft{8B4z*^5WR-nTZJvKQ!+>z1y zZT#-}Xv0$f3pxS`)plH3(m`{|!uN2O<*=ogt_#mDZg3TpCKi92 z@O4?1SR2mza+PN|cY7c!d=|-*4OTyG+nrtMSM-;o_z4|>3RPK+2=)6Qr4+|TC$8+s zL`-659bDgmp;Er0FdWbz)huu+P*mer1c;#LOP3W*@?-p zQUVN=@@x-)S8c@oPOa<&d5?J>wy4yUwB_e!8SS!A0yjusv;yk>7nxxXbyRBTHPec2 zdqU`@;^lBCN`{53fEjsJZL3nq3u%tYdF85G}|T zuCsTbB2IWJ%=-jrB##zMf1Ug_)FuLV<0Uy68K^x0a&_qDxi3)ShoFYu9|D5h~f#8JbDeY9xFjg_QEx!>jtD1-9H* zrMY>HaH^V*#xA5yX}oY??eQJ+zvQ05wQyTaQ%{UK{Gpxy4WL%^m=KwnZyfO*`#^%y zvxcz07=oeGCwjT~)%;Kikh4#R*K@Om?Y&FE4~=zNtV3T9yy>Vx+VCX|JJ0Qib$6xWS+r$f!R)-FP@IGvnrG4{$CzJ zB-Q#a?o}(3Z%6?xS0B%Fj#l!y%b-!5JzO=cM_Nlt(+~OP14mVRk^C-4 zRcBV0GBva&?-t0fGJ_=;WhJY1-O4FYJ%UF6xCV#3RUdaq2x*%=YK>y4%j}E?7^120 zq63nQbxH&{{lZ{=T2=@qLWYfEqI<_HD#XT|Kh?G+pk6TJ9oa9R##wRNAKCBWKhnZOygj1zL>z!!s z&uj!3o)UtOP8chtAk~e4v8v*AV+~^p9h&ZOzjffVpOjJj02`L4Owo*6;_eiKi#mw5 zk-xqD&bh`#mhg_#7NikGj&vE2`l>9uo>{0`LBOXWD0#1Q{D#!7Av-j)YUv|kHDloe zM#@0(>W8)Q#_7dPJgWW83Qj+`mF*4A2n3LMBI@sTEhQe;jbw0a3Bnj`KGEIgVtMQI zfLs|!MWx5|U6NX{r)#P@kzh0`mC4ZN`S{VINVijB)@ecMg>}0?U7tJkLXF|1j|t7y zuhVB}FSCFZKX*M{zF!DL^$T2csarRud^f|!yCD&5&P(K^SIDk*exvXz$$eST?jZTZ zI=(A6onR?#wQ?B?Yp{=%WxAHsU%^<(@%Ldiz{n*&No}07!jF?r9Jg09lg)6A{2#Iv)Xj+N;e!L7gkQkEt8S7rJEm5#eu$diLQa~ zR6-+jbY6LgRViIb6(&p9G7Kp2)Gmnr`ly@Z#nboeue5tq>D!oXPtP!RYk&QQE$n!r z2;5X0a%w*(olhkO6Gk;VWuqI^tzmwu3xRr<=+B%AAVM~4nY~*xd2qhrrtLjX8EPq+ zurK{YOs^FYC|O^EPAQ4pF4Wry8*&nWFaW8!TK34fUP8zEQ)yK9p}7lpm3zD zCcDzdQ73=e7{Sv{@r@_*o6d3ku=PmAhQGD9Oekrl2H#_67-OjMx!Vd>o;SOR!Zp>q zgw_^EdkE!|k9sEERhb0ry_K|v_4GoGBcZr^it&$LAx9}+Jz|teG8ya05p_vQXaq8w zbJT}z{S?^kgAMaBe2U`fhAF7@Q!Vz++zgTQ!}_^ zk>>2sj5IHYI$SLebH~27DeEI|%4ak|R_D6xK4G8WO{YVpm^XW_-}=C$-2=+!j3?FH^upd8`(#+r5h$2xU_gWU$IC=^}}A%FrnyOs%o?elq%0c?5s)kfDqzAY1hhy z5l&iz>SH3R3a^YYcXB53hUFmhs%>ZUXW|lj1vDbL?c*oCwJ8fel)OYXZ+%cv9H?0a zyOYwR((#W~%`{`BzG`&(%N`?PbWRrPi56sc z8>yze@6i(bCTYO#(j3ba5S2X1|N4p!m6P9))c`>84osq4u$c_>!0pvYm5%jrl_rPt zN1yx%kqr$qUM5_R(17SV;ur4$tMa>Qc5+0P{< z(^oE}^O=7g>(CKDU#=f~yglGl4|a#WC_)+P?KLO8Q~ml{3X(VmGB?1FZU2~E!j+@c z(gGBDeJ(LVVCfXpfts9p9YeO}hVu9@uI^gHFq`hhr7FdoRmhS?Olto(NHcTDl-N7X z$Tc+*xgIgv!rpOy z`M5*vOr9ryGPl>wzJ?$I1DkA#C_~=h(i=ghppDOt{;~#dfi5Sxlm)sQwk8|rzpLaP zH&*49CVXGn&R4|#QDvHN6YTaNS(;#s)FxV5R@D~@z5kLe&)cYv z{=%{c#|NE$X+XX(!b*XIUzVju{c`;(^Cy6$*mz=0vP`(hpM+_r_jbOcp1V{6iN17Y znR(DE)I+H2b~5d5fY=!6t<%M6S!w2uh@>6bxGkj6yaU+d@}vaWMagF39E<8_N!Z%> z@^|I6OWhjgR*j1BRs)+G(b|sHuPxyP?-s0v0eGzDIPm%}F(p6oiA2lM6OHjIO+Xin zJeOP~ZfbBzx?n=krP5TBUH+6s;AHpfV#(#&SjZ2@SVYMkk}3NLS**6jv~8H#I*}3o zbyH`YPMoFkdFWG3-@cF@CLw0>u8l-Ei)oFjXM(S9-pLq>Xq$wmE7Ni`jra19+Je^t zNp5D)aG$>SNMk%ZTgW>s#6mn}{;$$`2?XUT(#?ERURQ&ZtR(C9+&BgP$fSMvoHb8- z)Hw?ZAt5CG`z&U6{U}Td9Vzi|%ofv87!KyJ|HACB9fjdyUnlsjaIEZ1#MDgP4WwjsBf$KtKo~`t2LYCkFGI;>ivmXv(7Uo2_KfOPg5&NV)H{u{>VMBYQKYA1BJ~vjHz1?sSFGHR1UIo4o`#uHi z2+u)Rt%#)kHMb-8 zHhR$G@M2b>zX(TebaeFf!vtTZUxXufJzB!^Fu|Mc7XjY_{!O{$UwOkH;1^bU;&8d9 zIDRP|*(lI=y$+{7!~2VHWY<7n@IFki6Wu5LLkmGq{trP{;a3KHKlwL{TlZNLRVD_3 tK2RNA+>r7wr6aozTHfdITpQK*33mKPzJesj_Ff7I{?fzOF>~L3{0~u)Cw~9{ diff --git a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Language.yml b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Language.yml index 8b5e0cb0..9782830d 100644 --- a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Language.yml +++ b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Language.yml @@ -1,13 +1,13 @@ -id: 9582dfdd80474733935072ce5600516d +id: 0271de46ee424b6b83416ac97c6b82f4 annotation_type: Language revision: '00001' annotations: - 9b6e5568a64d42c499351b493ebdfd30: + c56897b32ad846f5a317542ec9c0b4ba: span: start: 39 end: 170 language: en - 199d197b000443f5b2555c9d7364b268: + 8bd03239973342f5adc6fe72f31500da: span: start: 199 end: 949 diff --git a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_OCRConfidence.yml b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_OCRConfidence.yml index f074cf43..95157118 100644 --- a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_OCRConfidence.yml +++ b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_OCRConfidence.yml @@ -1,287 +1,282 @@ -id: cd5c4fb4f8294c32b1148f708f34facf +id: 7ecc883897e04f14959af01a7c69e1d5 annotation_type: OCRConfidence revision: '00001' annotations: - 312583a8167746f8bab1d71eb4e3d9f0: + 219a9efb575246a88298222026edb8ca: span: start: 93 end: 95 confidence: 0.8 - c10058024b6a4be1b43066421ea1c3bd: + 1c3a220de30745439745f01af5a8c8e8: span: start: 205 end: 206 confidence: 0.81 - 99b20e113fe24f9593d2cb8ad579d79d: + 9e608072a2b6438c9bb5b35abb48e98c: span: start: 209 end: 212 confidence: 0.5933333333333334 - 1dfec7dfee91430fa2223c5cfb775f13: + 9c2cc915ff4341c8acfced8af4080726: span: start: 229 end: 230 confidence: 0.86 - e8c1a2059a1a47a3952e51e8bf82ee8a: + 2ffe19608a544c54a06a23742232b78c: span: start: 256 end: 257 confidence: 0.53 - 322020de40094e649167d9eb70220228: + a4cdc14ee23344cdb251893c8238655d: span: start: 287 end: 289 confidence: 0.77 - edc7818cea8f4f478f36ae938c5aa8b4: + 9951ad86984348e499c2b7bcda1b69eb: span: start: 316 end: 317 confidence: 0.78 - 34441d7327574af788b800b934907887: + ccfafda87f4c40e087702f376f75c2a9: span: start: 397 end: 399 confidence: 0.83 - 4866432b1caf4ee398bd830c17657f88: + f885abd26b914e4bbf295c53146f7122: span: start: 473 end: 474 confidence: 0.89 - fd08ab02b6ab4a57b0c4cccaf59fc22e: + f7481e3b8f7f443794663c5648fcc106: span: start: 585 end: 625 confidence: 0.6839999999999999 nb_below_threshold: 2 - 830ac587516146cbaa15073b458fd8ba: + d956286a33094ea5a74f138fb48a0491: span: start: 585 end: 596 confidence: 0.81 - 120d3965fef446c084b9acad9e5c62aa: + f420617124fc4250b9f42846f11d36b9: span: start: 601 end: 623 confidence: 0.5704545454545454 - 7b3489bd5755406f8664a67349a4a641: + c3c55d062b944e38b52d5a038b37d40c: span: start: 652 end: 653 confidence: 0.83 - a247e5efee314af99b31cb32250eb0f9: + f734079d425d44dc8a9c692051c4937d: span: start: 664 end: 665 confidence: 0.8 - 180d360076a84be1ab0bb8854ff442ba: + 87a0bbc8774744afa247fa820af9efb6: span: start: 674 end: 675 confidence: 0.67 - 2e3804bc6a844559bc363b9dbc99b59a: + ff97fe9fb1b04b2fb1b0d844ee304a5d: span: start: 909 end: 910 confidence: 0.68 - 195bbf46d17c463cb5aaf3b787e00fa0: + c53416c58adc494d839442ad66c01d06: span: start: 915 end: 917 confidence: 0.86 - 69c17db01bcd45a8962be0f93c4228e3: + abcc9190b2bb47bfa0cfe60324f26fe7: span: start: 940 end: 942 confidence: 0.67 - ba727d093b7a4bf68d3509f43321b355: + 63983baeb2224a51b40184588fb4f804: span: - start: 1038 - end: 1118 + start: 1063 + end: 1143 confidence: 0.888 nb_below_threshold: 4 - 977ff4e87bfa419d876013fbbdce9d7c: + aff98e73f61749419619895796babf22: span: - start: 1043 - end: 1046 + start: 1068 + end: 1071 confidence: 0.85 - 0a372b76332347769e455056990a767d: + 254e9e1539164ba29062a2e0293969c5: span: - start: 1053 - end: 1057 + start: 1078 + end: 1082 confidence: 0.5 - da8ea513f2464f4388c21a3d51cfa0ec: + 3f6707a6611d47229a63e9b6339e2658: span: - start: 1060 - end: 1073 + start: 1085 + end: 1098 confidence: 0.7746153846153846 - ef6edcbb3d0a4741a7708f662c256f9b: + 22f4a8d697004e51a8d42f2dbb21874d: span: - start: 1091 - end: 1102 + start: 1116 + end: 1127 confidence: 0.7681818181818181 - 6b90488c7dc947069db5d196b7af1d03: + 9ec3f3e65ee64d629c51a4cbc7ac869b: span: - start: 1119 - end: 1129 - confidence: 0.5055555555555555 - a4c06b2895b34a88a40d7309e7ab8243: + start: 1144 + end: 1155 + confidence: 0.7281818181818182 + ab034afd551a457db1e18c14691e4252: span: - start: 1145 - end: 1150 - confidence: 0.79 - ca726b217b6a45f18999b6be1e75a4e3: + start: 1159 + end: 1163 + confidence: 0.87 + 09077c7b26da4b9c962557b865f24189: span: - start: 1189 - end: 1193 - confidence: 0.88 - 76b2217847ad46cb98c8828c19cf2eac: + start: 1169 + end: 1183 + confidence: 0.5166666666666667 + 5836b07f249745b08f7e64fd10c1ec5d: span: - start: 1244 - end: 1250 - confidence: 0.7866666666666666 - 9238a168f73744cb8a6d1358f3a2b3b2: + start: 1201 + end: 1202 + confidence: 0.76 + a5e0251b0088436582f845230e00ef74: span: - start: 1344 - end: 1349 - confidence: 0.8699999999999999 - bd3c810a82a0476fb0c2e298f5d44df1: + start: 1240 + end: 1245 + confidence: 0.79 + e92f86c5ff55429683aba572683141bc: span: - start: 1378 - end: 1382 - confidence: 0.55 - 61a39d299447467db9682ba1a3f50021: + start: 1284 + end: 1288 + confidence: 0.88 + c491e9853403411aa0e099502cacd43c: span: start: 1408 - end: 1412 - confidence: 0.79 - 3cc3783f9216428880f5bb3908168a1f: - span: - start: 1531 - end: 1535 - confidence: 0.87 - 081897590056401c918311def9a657a0: + end: 1413 + confidence: 0.8699999999999999 + fdbacc491f7b45bfa40c78c01d26f984: span: - start: 1649 - end: 1654 - confidence: 0.7 - 026a774510b445548912d2f162e70506: + start: 1467 + end: 1471 + confidence: 0.79 + ee0d35f622854b8aa3a402fee81f1294: span: - start: 1660 - end: 1669 + start: 1692 + end: 1701 confidence: 0.6477777777777778 - 8d3b89e2f95243768450a138ee5534a5: + fa59360bd5ec403b98ac7cf60a747420: span: - start: 1674 - end: 1682 + start: 1706 + end: 1714 confidence: 0.69 - 0b6fca45c761429681cb582cb2e1d6cc: + c82a181a0faa443ba175385e64a498ff: span: - start: 1686 - end: 1697 - confidence: 0.7854545454545455 - 79cd324a7b584263b7139f2db93d3d65: + start: 1719 + end: 1741 + confidence: 0.6714285714285714 + e5fa152b5ba442928eda230c4c0f064b: span: - start: 1703 - end: 1718 - confidence: 0.502 - a214b68a924640d8b2a06e38a3d723ea: + start: 1748 + end: 1753 + confidence: 0.414 + 8d76ad0555584571a580e242cef5a1ec: span: - start: 1838 - end: 1839 + start: 1897 + end: 1898 confidence: 0.56 - 3f4e79f6755849678cd86fe3eadb3db7: + 39047063deec4169a460a812aa5a56ee: span: - start: 2060 - end: 2069 + start: 2105 + end: 2114 confidence: 0.89 - 0bc25ada4b294496aea0de116c062fdc: + 686a621255a94b81b6e5a83812cd0434: span: - start: 2164 - end: 2169 + start: 2209 + end: 2214 confidence: 0.9 - a1ad45bbebeb4831b6d33de31f9591db: + 2fc96ee7aa3346a88918b1a138d46579: span: - start: 2225 - end: 2227 + start: 2261 + end: 2263 confidence: 0.82 - 66e6a4a2cc5b44749eee8c6696e37078: + ef2a47a3e9dd490abc83673819ea45e8: span: - start: 2237 - end: 2241 + start: 2273 + end: 2277 confidence: 0.88 - ebf3ff9f5acf49b7bd5586d3b92fb565: + eb12dd39ddf94e179a268e5019caad54: span: - start: 2405 - end: 2409 + start: 2437 + end: 2441 confidence: 0.88 - 0c739b8c0d304f06b4d7f753c663acb7: + c373cb5ec3cc4ae59452b6eda100d578: span: - start: 2503 - end: 2512 + start: 2535 + end: 2544 confidence: 0.77 - baf387f18e0f49509cf11b622a6016e0: + 2fdef2d71e59403fbcbe2db24e3f76e3: span: - start: 2571 - end: 2574 + start: 2603 + end: 2606 confidence: 0.66 - 71097092d0984fb9b39f2553d99d15b3: + de03b57d108349938b69662f892dacc7: span: - start: 2774 - end: 2777 + start: 2806 + end: 2809 confidence: 0.86 - 550e57fdec0b4ce8a6263e10b83ee800: + dd799eb62b194f9babd6816527f92f11: span: - start: 2784 - end: 2792 + start: 2816 + end: 2824 confidence: 0.66 - a0daacc5742a45f08f83ac0de6d9e43a: + 2786679236a342c2bc6a325c920886a8: span: - start: 2843 - end: 2846 + start: 2875 + end: 2878 confidence: 0.66 - c90ea1a5aab44d31af16d3787600177a: + 65a5ffe434034c118487e8365d5acf52: span: - start: 2861 - end: 2865 + start: 2893 + end: 2897 confidence: 0.89 - 0ad22a3bff984477b3d1c71788dd3b6d: + e8b253f4b1a94f5c9b846e820fff7778: span: - start: 2880 - end: 2884 + start: 2912 + end: 2916 confidence: 0.69 - 5566c9a1f7a245f99873c7c57de7f88c: + dfac22e2cdfd4f448fb0a8b234573526: span: - start: 2938 - end: 2943 + start: 2970 + end: 2975 confidence: 0.9 - 6560297088ed4189b22f9131f42ab6dd: + 9e78ad20f1f3429994f00dceb1f2ee3f: span: - start: 2945 - end: 2946 + start: 2977 + end: 2978 confidence: 0.37 - 1064b6ca79644413aefa39189fe7ae09: + a300100e9055489ba3dc492fa0188df3: span: - start: 2955 - end: 2960 + start: 2987 + end: 2992 confidence: 0.89 - 4cff2059196e4db88226d35f9afdda7c: + e5de1dcd71344e218f2ef02924d55218: span: - start: 2966 - end: 2970 + start: 2998 + end: 3002 confidence: 0.88 - 4faed8e96599432091a17d1932b64543: + dd9ea7c6eba84fedafef7330b7fde92a: span: - start: 3022 - end: 3029 + start: 3054 + end: 3061 confidence: 0.7299999999999999 - 44ed3590ce00444388b07a99606ac4fa: + bfd2094dc22f481499e1a188d4e8df1b: span: - start: 3088 - end: 3091 + start: 3120 + end: 3123 confidence: 0.86 - aba5fc8b32ad4d98b7919476bfca7eda: + 5fa80855f6314520ad16179a25dab805: span: - start: 3144 - end: 3148 + start: 3176 + end: 3180 confidence: 0.86 confidence_threshold: 0.9 diff --git a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Pagination.yml b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Pagination.yml index 532a6aa6..abe82738 100644 --- a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Pagination.yml +++ b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_Pagination.yml @@ -1,58 +1,64 @@ -id: 5f8b2b93e81a46a9ad2ee418f8a9f1db +id: 39ddb8a06dba4bb2b95179608e603d8e annotation_type: Pagination revision: '00001' annotations: - 233a7131a6ef45e6b298a021a28974c8: + dac0b285d77c42528c5c08f976cac45b: span: start: 0 end: 584 imgnum: 1 reference: I1KG101950001.jpg - a58ecd77d1004293ad5c26bdfdd75a32: + 2253d07ba62340a98a5e1af7469f257b: span: start: 585 end: 625 imgnum: 3 reference: I1KG101950003.jpg - 4fa3df93584349acb3aacabe636d5951: + 880accb85de841a6a0a71ca75be0e0e1: span: start: 626 end: 749 imgnum: 5 reference: I1KG101950005.jpg - 3bcac15576de459b8c328ea8c90d4c3d: + ca0974c478e84f129a3980c34d4cb09c: span: start: 750 end: 950 imgnum: 6 reference: I1KG101950006.jpg - f8202b52805e4c5e9ade58b764069e06: + 6829d92e00bb485a8951fa56aec8cbb1: span: start: 951 - end: 1037 + end: 1062 imgnum: 7 reference: I1KG101950007.jpg - b9760d2e622240caa791d8e4fa70e01a: + 9da7fdbab002468193dca3f36c430a8d: span: - start: 1038 - end: 1118 + start: 1063 + end: 1143 imgnum: 9 reference: I1KG101950009.jpg - 0a38dd3126664dfab36653dd9b4bf437: + a8c1ab1f62884a59bc805c735559b1b6: span: - start: 1119 - end: 1719 + start: 1144 + end: 1754 imgnum: 10 reference: I1KG101950010.jpg - b91e976640674ae191407e32d56ff784: + e2ff89eed03a4d97ba7d15b8664771d6: span: - start: 1720 - end: 2348 + start: 1755 + end: 2380 imgnum: 11 reference: I1KG101950011.jpg - 8b732566fc5a43c9a684326fdcec0c97: + be5fb56cdba94ab79eaf0084b9020b81: span: - start: 2349 - end: 3153 + start: 2381 + end: 3185 imgnum: 12 reference: I1KG101950012.jpg + be5fb56cdba94ab79eaf0084b9022b81: + span: + start: 3186 + end: 4455 + imgnum: 13 + reference: I1KG101950013.jpg diff --git a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_base_text.txt b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_base_text.txt index c27aa616..447d5fac 100644 --- a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_base_text.txt +++ b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_base_text.txt @@ -42,28 +42,39 @@ Jama Masjid, Delhi-6. The text Prince Offset Printers, 1510, Pataudi House Daryaganj, Delhi-6 -༄༅། །ཡོན་ཏན་རིན་པོཔོ་ཆེའི་མཛོད་ཀྱི་རྒྱ་ཆེར་འགྲེལ་པ་བདེན་གཉིས་ཤིང་རྟ་ཞེས་བྱབ་བཞུགས་སོ། +༄༅། །མཛོད་ཀྱི་རྒྱ་ཆེར་འགྲེལ་པ་བདེན་གཉིས་ཤིང་རྟ་ཞེས་བྱབ་བཞུགས་སོ། +།མཛོད་ +ཡོན་ཏན་རིན་པོཆེའི་ +ཡོན་ཏན་རིན་པོ་ཆེའི་ ༄༅། །ཡོནཏན་རིད་པོའིའི་མཛོད་ཅིཆ་སེར་བབྲེལ་པ་བདེད་གཉིས་ཤིང་རྟ་ཤེས་བྱའ་བཞུགས་སོ། ། -* Lah -/r®༄༅།།ཡོན་ཏན་རིན་པོཆེའི་མཛོད་ཀྱི་རྒྱ་ཆེར་འགྲེལ་བདེན་པ་གཉིས་ཀྱི་ཤིང་རྟ་ཞེས་བྱ་བ། འཇམ་པ་ལ་གཞོན་ནུར་གྱུར་ང་ཆུབ་སེམས་དཔའ་ -བདེན་& -དྲི་མེད་གྲགས་པ་ལ་ཕྱག་འཚལ་ལོ། །གཅིག་བུམ་ཡིན་དུམར་མི་གནས་སོ་སོ་ཡང་དག་རིག་པའི་ཐུགས། །འགོག་དང་ལམ་བདེན་འཁོར་ལོ་རྣམ་གསུམ་བདེན་གཉིས་ -གཉས་2རྣམ་པར་འབྱེད་པའི་གསུང༌། །ཁྲོ་བ་མེད་བཞིན་འཁོར་བའི་དགྲ་བཅོམ་མཐོང་ན་མི་མཐུན་མེད་པའི་སྐུ། །རྒྱལ་བ་རྣམས་ཀྱི་མངོན་བརྗོད་ཉིད་དེ་དཀོན་ཅོག་གསུམ་གའང་བླ་ -ཤོང་ -རྟ་ མའོ༑༑རེ་ཞིག་འདིར་ནི་རྗོད་བྱེད་ལ་ལྟོས་ཡན་ལག་བཅུ་གཉིས་ལུང་གི་ཆོས། །མཐའ་དག་བསོད་ནམས་ལམ་དང་མྱ་ང་མཚན་ཉིད་ནི། །བརྗོད་བྱ་རྟོད་ -གཙོ -༄༅།།ཁན་པོ་བསྐལ་བའི་སྟོའམ་པ་འདཉེན་གྱུར་མགོན།།ངོམནརETE བཞབས།2 +* བདེན་གཉས་ཤོང་རྟ་ གཙོ +2 +&/r® +རྟོད་ +Lah +མཚན་ཉིད་དྲི་དཔའ་ +༄མའོ། +ང་ཆུབ་།ང་ +བླ་ +གྱུར་ +ཡོན་ཏན་རིན་པོཆེའི་མཛོད་ཀྱི་རྒྱ་ཆེར་འགྲེལ་བདེན་པ་གཉིས་ཀྱི་ཤིང་རྟ་ཞེས་བྱ་བ། འཇམ་པ་ལ་གཞོན་ནུར་ +མེད་གྲགས་པ་ལ་ཕྱག་འཚལ་ལོ། །གཅིག་བུམ་ཡིན་དུམར་མི་གནས་སོ་སོ་ཡང་དག་རིག་པའི་ཐུགས། །འགོག་དང་ལམ་བདེན་འཁོར་ལོ་རྣམ་གསུམ་བདེན་གཉིས་ +རྣམ་པར་འབྱེད་པའི་གསུང༌། །ཁྲོ་བ་མེད་བཞིན་འཁོར་བའི་དགྲ་བཅོམ་མཐོང་ན་མི་མཐུན་མེད་པའི་སྐུ། །རྒྱལ་བ་རྣམས་ཀྱི་མངོན་བརྗོད་ཉིད་དེ་དཀོན་ཅོག་གསུམ་གའང་ +༑༑རེ་ཞིག་འདིར་ནི་རྗོད་བྱེད་ལ་ལྟོས་ཡན་ལག་བཅུ་གཉིས་ལུང་གི་ཆོས། །མཐའ་དག་བསོད་ནམས་ལམ་དང་མྱ་ +སེམས་ +ནི། །བརྗོད་བྱ་ +༄༅།།ཁན་པོ་བསྐལ་བའི་སྟོའམ་པ་ +ETE བཞབས།2 +འདཉེན་གྱུར་མགོན།། +ངོམནར -ཀ་ -།པའི་དོན་ལ་འཇུག་པ་བསྟན་པ་དམ་པའི་ཆོས་ཀྱི་རྒྱུད། །ཐེག་པ་གསུམ་གྱི་ལམ་དུ་གྲགས་པའི་གདུགས་དཀར་གཅིག་གིས་འགྲོ་འདི་སྐྱོབས། །ལྷག་པའི་ཚུལ་ཁྲིམས ༄༅། -དེན་ +ཀ་ དེན་གཉིསཤིརེ་རྟ གཉིས +༄༅། །པའི་དོན་ལ་འཇུག་པ་བསྟན་པ་དམ་པའི་ཆོས་ཀྱི་རྒྱུད། །ཐེག་པ་གསུམ་གྱི་ལམ་དུ་གྲགས་པའི་གདུགས་དཀར་གཅིག་གིས་འགྲོ་འདི་སྐྱོབས། །ལྷག་པའི་ཚུལ་ཁྲིམས གོམས་པར་གྱུར་ལས་སེམས་ཀྱི་བསླབ་པས་ཡང་དག་འབྱོར། །དེ་དེའི་བརྟེན་པ་ཤེས་རབ་བསླབ་པས་ཉོན་མོངས་དགྲ་བཅོམ་ཟག་པ་ཟད། །༢ཕགས་པའི་རྒྱུད་ནིརིག་གྲོལ་གཉིས་ལྡན་བསླབ་ -གཉིས -པ་གསུམ་གྱི་ངོ་བོ་ཉིད། །ཆོས་རབ་འབྱེད་པའི་བློ་གྲོས་མཆོག་ལྡན་བྱང་ཆུབ་སེམས་དཔའི་ཚོགས་ལའང་འདུད། །ཅེས་པ་ནི་དཀོན་ཆོག་གསུམ་ལ་ཕྱག་འཚལ་ལོ་ཞེས་པའི་དངོས་པོ་ངོས་ ཤིརེ་ -རྟ -པར་བསྟན་པ་ཉིད་མཆོད་བརྗོད་ཀྱི་ལུས་སུ་དྲངས་པའོ། ། དགོས་པ་ནི་ཀླུ་སྒྲུབ་ཀྱིས། བསྟན་བཅོས་བྱེད་པོས་སྟོན་པ་ལ། །མཆོད་པར་བརྗོད་པ་འབྲས་མེད་མིན། །སྟོན་པ་དང་ནི་བསྟན་བཅོས་ལ།།དད་གཉིས +པ་གསུམ་གྱི་ངོ་བོ་ཉིད། །ཆོས་རབ་འབྱེད་པའི་བློ་གྲོས་མཆོག་ལྡན་བྱང་ཆུབ་སེམས་དཔའི་ཚོགས་ལའང་འདུད། །ཅེས་པ་ནི་དཀོན་ཆོག་གསུམ་ལ་ཕྱག་འཚལ་ལོ་ཞེས་པའི་དངོས་པོ་ངོས་ +པར་བསྟན་པ་ཉིད་མཆོད་བརྗོད་ཀྱི་ལུས་སུ་དྲངས་པའོ། ། དགོས་པ་ནི་ཀླུ་སྒྲུབ་ཀྱིས། བསྟན་བཅོས་བྱེད་པོས་སྟོན་པ་ལ། །མཆོད་པར་བརྗོད་པ་འབྲས་མེད་མིན། །སྟོན་པ་དང་ནི་བསྟན་བཅོས་ལ།།དད་ འདུན་བསྐྱེད་པར་བྱ་ཕྱིར་རོ། །ཞེས་གསུངས་པའི་ཕྱིར་རོ། །རིན་ཅེན་རྣམ་གསུམ་གྲགས་པའི་སྤྲིང་ཡིག་གིས། །མུ་ཏིག་འཁྲི་ཤིང་རབ་ཏུ་དགའ་བྱས་ནས། །བདུད་ཀྱི་བུ་མེའི་བཞིན་རས་རསཀུནྡུའིཚལ།། སྐལ་ངན་བགྱིད་ལ་མངོན་ཕྱོགས་སངས་རྒྱས་མཐུ། །ཞེས་སྨོས་ཏེ། དེ་ལ་དཀོན་མཆོག་གསུམ་ནི་བསོད་ནམས་ཀྱིས་བོན་བསྐྱེད་པའི་གཞི། །འགྲོ་བ་ཐམས་ཅད་ལ་མཉས་གཤིན་པའི་སྐྱབས་ཁ་ན་ @@ -71,3 +82,13 @@ The text Prince Offset Printers, དཔལ་དང་མཐུ་ལ་མི་གནོད་པ། མཚན་དང་དཔེ་བྱད་དང་། སྟོབས་བཅུ་མི་འཇིགས་རྣམ་བཞི་ལ་སོགས་པ་མཐའ་དག་གི་འབྱུང་གནས་ཡིན་པའི་གྲགས་༥༨ོང་ཡིག་གང་གིརྣ་ལམ་དུ་སོང་བའང་དོན་དང་ ལྡན་པའི་ཚུལ་སྔོན་བྱུང་གི་གཏམ་དང་སྦྱར་ནས་སྟོན་པ་སྟེ། དཔག་བསམ་འཁྲིང་ཤིང་ལས། ནོར་ཆེན་ཞེས་བྱའི་ཚོང་པ་ནི། །ཝཱར་ཎཱ་སིར་སྔོན་བྱུང་གྱུར། །དེ་ཡི་ཁྱིམ་ཐབ་བསོད་ནམས་ཅན། །རིན་ཅེན་ལྡན་ +ལེ36 +TLUIE +ཡ +པའི་ཚལ་ཞེས་བྱ་འརིན་པོཆེའི་ཤིང་སྣ་ཚོར་དང་། གསེར་དངུལ་བཻཌཱུརྱ་དང་ཤེལ་ལས་བྱས་པའི་ཕ་གུས་བརྩིགས་ཤིང་ཐམསྐས་ཡོདཔའི་རོ་བྲོ་བའི་རྫིང་བུ་བཞི་དང༌། ལྷའི་གོས་དང༌།མེ་ཏོག་དང་། འབྲས་བུ་མང་པོས་བརྒྱན་ཅིང་ཤིངརྟ་བཟང་པོ་ལྷའི་བུ་མོས་ +མཛེས་པས་དགའ་བར་བྱས་པས་འདྲེན་པའོ། །ལྷོན་རྩུབ་འགྱུར་ཞེས་བྱ་པའི་ཚིལ། ལྷ་རྣམས་དེར་ངན་ལྷ་མ་ཡིན་དང་གཡུལ་འགྱེད་པར་སྤྲོ་ཞིང་། ཤིང་ལས་རིན་པོ་ཆེའི་གོ་ཆ་སྲ་བདང་། ༢ཁོར་ལོ་དང་། མདའ་བོ་ཆེ་ལ་སོགས་པའི་མཚོན་ཆ་སྣ་ཚོགས་འབྱུང་ +བ་ཡོད་དོ། །བན་འདྲེས་པའིཚལ་ཞེས་བྱ་བ་འདོད་དགུ་འདྲེསམར་འབྱུང་བདང་།རིན་པོ་ཆེའི་ཤིང་དང་།མེ་ཏོག་དང་། ལྷའི་བུ་མོ་ལ་སོགས་བའང་འདྲེས་ཤིང་། ལོངས་སྤྱོད་རྣམས་ཀྱང་འཆོལ་བར་འཁྱམ་མོ། །བྱང་ནདགའ་བའི་ཚལ་ཞེས་བྱབ།རྫིང་བུ་བཟང་པོ་དགཥ་ +བ་ཞེས་བྱ་བ་དང༌། ཤིང་དང་།མེ་ཏོག་དང་།ལྷའི་བུ་མོ་དགའ་བས་བརྒྱན་པ་སྟེ།དེར་སྤྱད་པསདགའ་བ་འཕེལ་བའོ།།ཆལ་དེ་ན་བསྐལ་པ་བཟང་པོའི་སངས་རྒྱས་སྟོང་གི་གཟིམས་ཁྲི་རིན་པོཆེའི་ལྗོན་པའི་ནང་ན་ཡོད་པའི་འོད་ཟེར་གྱི་བྱིན་ལྷའི་དབང་པོའི་བསོད་རྣམ་ +ཀྱིས་བཟོདཔས་བལྟས་པན།དེའི་ལོགས་ལ་ལྷ་རྣམས་ཀྱི་ཚེ་རབས་དང་། ལེགས་ཉེས་དང་། གཡུལདུ་འཇུག་པ་ལ་གནོད་པས་བརྫི་བར་ནུས་པ་དང་མི་ནུས་པའི་མཚན་མ་མཐའ་དག་མེ་ལོང་ལ་གཟུགས་བརྙན་བཞིན་དུགསལ་བ་ཡོད་དོ།།དེ་དག་ཀྱང་རྒྱ་ཆེ་ལ་དབྱིབས་ +ཌ་པ།གསེར་གྱི་རབ་དང་། རིན་པོཆེའི་ལྕོག་གིས་ཀུན་ནས་མཛེས་པའོ།།དེའི་ཕྱི་རོལ་ན་མིང་དང་བཀོད་པ་མཐུན་བའི་ས་གཞི་བཟང་པོ་བཞི་ཡོདདེ།སྣཚོགས་ཞེས་བྱབདང༌། བདྲེས་པ་ཞེས་བྱ་བདང༌།རྩུབ་འགྱུར་ཞེས་བྱ་བ་དང༌། དགའ་བ་ཞེས་བྱ་བ་དག་ + diff --git a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_hocr_meta.yml b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_hocr_meta.yml index 5b2205a3..a9c8f518 100644 --- a/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_hocr_meta.yml +++ b/tests/formatters/hocr/data/file_per_page/opf_expected_datas/expected_hocr_meta.yml @@ -11,13 +11,13 @@ ocr_import_info: txt: txt.zip images: images.zip op_import_options: - remove_duplicate_symbols: True - op_import_version: 0.9.8 + remove_duplicate_symbols: true + op_import_version: 0.11.8 default_language: bo source: https://library.bdrc.io initial_creation_type: ocr -imported: 2022-11-14 10:26:24.372012+00:00 -last_modified: 2022-11-14 10:26:24.372033+00:00 +imported: 2023-12-09 11:38:10.178039+00:00 +last_modified: 2023-12-09 11:38:10.178046+00:00 source_metadata: id: http://purl.bdrc.io/resource/W1KG10193 status: http://purl.bdrc.io/admindata/StatusReleased @@ -31,9 +31,20 @@ source_metadata: - bo author: ཀུན་མཁྱེན་འཇིགས་མེད་གླིང་པ། statistics: - ocr_word_mean_confidence_index: 0.968030701754386 + ocr_word_mean_confidence_index: 0.9698547955674436 ocr_word_median_confidence_index: 1.0 bases: + I1KG10195: + source_metadata: + id: http://purl.bdrc.io/resource/I1KG10195 + total_pages: 935 + volume_number: 1 + volume_pages_bdrc_intro: 2 + order: 1 + base_file: I1KG10195.txt + statistics: + ocr_word_median_confidence_index: 1.0 + ocr_word_mean_confidence_index: 0.96736568457539 I1KG10196: source_metadata: id: http://purl.bdrc.io/resource/I1KG10196 @@ -45,17 +56,6 @@ bases: statistics: ocr_word_median_confidence_index: 1.0 ocr_word_mean_confidence_index: 0.9718181818181818 - I1KG10195: - source_metadata: - id: http://purl.bdrc.io/resource/I1KG10195 - total_pages: 935 - volume_number: 1 - volume_pages_bdrc_intro: 2 - order: 1 - base_file: I1KG10195.txt - statistics: - ocr_word_median_confidence_index: 1.0 - ocr_word_mean_confidence_index: 0.9612484700122399 copyright: status: Public domain notice: Public domain diff --git a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_OCRConfidence.yml b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_OCRConfidence.yml index fd765d12..7cd3f0da 100644 --- a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_OCRConfidence.yml +++ b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_OCRConfidence.yml @@ -1,71 +1,71 @@ -id: 57c1909c155744ca84b2dc407f5adfc8 +id: c266a9ec0566486ba0a0aed84b365f95 annotation_type: OCRConfidence revision: '00001' annotations: - c6a7a60cdbaf4f23a85b6f5c27dfbc90: + 09a71b64b15840b5b1bd6044f3ab3ff0: span: start: 0 end: 771 confidence: 0.3925925925925926 nb_below_threshold: 7 - b7a84e77a8714b599c51cd6981b74c99: + 74cd21bf73674eaa9f692fa8a8b61032: span: start: 772 end: 1567 confidence: 0.449375 nb_below_threshold: 16 - 2cb3bf8eb37b408b82105af8709763f9: + 8a5a21fc70054ac0a016e0f05d6346aa: span: start: 1568 end: 1568 confidence: 0.0 nb_below_threshold: 16 - d108d34f1a824853b0f8ae64f87b7322: + 8c7820e016ea4f078c6bbcd7c8d7f07c: span: start: 1569 end: 1604 confidence: 0.48333333333333334 nb_below_threshold: 17 - b2c5a28aa5b34128b4ee28133c655a9a: + 48600abe130542628ffbe6667579c2d8: span: start: 1605 end: 1998 confidence: 0.36826086956521736 nb_below_threshold: 21 - 6d2ca4718c0c41738dfd38813cf0ad4a: + 5468367ac3fb412b81a34a9c82adeb07: span: start: 1999 - end: 2544 - confidence: 0.3414285714285714 - nb_below_threshold: 27 - 1b5955b1cb8a4165a05493c0d11dd3c4: + end: 2691 + confidence: 0.2926373626373626 + nb_below_threshold: 23 + 43f09f8268d24fa693ff53e27e59cbeb: span: - start: 2545 - end: 2821 + start: 2692 + end: 2968 confidence: 0.3130612244897959 - nb_below_threshold: 33 - a7b44753a069402d801a6ef155d4e00c: + nb_below_threshold: 29 + 56e9ee88ead546378a4043a42b0484cc: span: - start: 2822 - end: 3036 - confidence: 0.3 - nb_below_threshold: 39 - 4b5c0a45774e4ff8a93bfb48d4fd52b6: + start: 2969 + end: 3221 + confidence: 0.19 + nb_below_threshold: 30 + 6ba9e02dc5d14b79ab854407be9d317a: span: - start: 3037 - end: 3216 + start: 3222 + end: 3401 confidence: 0.35828571428571426 - nb_below_threshold: 45 - 9a1c52b0a1ff43038412819cf69f1f29: + nb_below_threshold: 36 + 60c11b37e0cc43b9bfec15cd7f5be672: span: - start: 3217 - end: 4375 + start: 3402 + end: 4560 confidence: 0.2910204081632653 - nb_below_threshold: 51 - e74ad36b6c8443eca057a20d8340d41f: + nb_below_threshold: 42 + 138e2c09eb0740d48dd44a32d4bf9350: span: - start: 4376 - end: 4669 + start: 4561 + end: 4854 confidence: 0.3233333333333333 - nb_below_threshold: 56 + nb_below_threshold: 47 confidence_threshold: 0.9 diff --git a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_Pagination.yml b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_Pagination.yml index 90035d02..3f5a6652 100644 --- a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_Pagination.yml +++ b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_Pagination.yml @@ -1,70 +1,70 @@ -id: aeda40b81d9f478da99d891967c4495a +id: cc03e3ce09b24e3dbb7fee37718fcb21 annotation_type: Pagination revision: '00001' annotations: - c9e7e264e777478b86f7b7a8fd3bc0a6: + 7770ed22b10548188579e752e80fedea: span: start: 0 end: 771 imgnum: 1 reference: 08860001.tif - c6c02aaa235b49919a2f6959714df172: + f7590f6283d64e88aa5552cb9e1acb4f: span: start: 772 end: 1567 imgnum: 2 reference: 08860002.tif - a1c00537c15446cd9678cdeb00b7c7f5: + ac28a30ae09e4c4a90fc73b5cb2e25ad: span: start: 1568 end: 1568 imgnum: 3 reference: 08860003.tif - 35916c027ac245e8ba3360678b22b191: + 7fc20c9fceea4ad1b8b582dc39680e23: span: start: 1569 end: 1604 imgnum: 4 reference: 08860004.tif - 52781553ab7c4755b0232dc204b07c90: + 6cd6fda1a8594e11af6e9ff2c2a8e77f: span: start: 1605 end: 1998 imgnum: 5 reference: 08860005.tif - 63dc078348684be2ab8048a687f84211: + f57991805c1a43b19c009858d9d1542c: span: start: 1999 - end: 2544 + end: 2691 imgnum: 6 reference: 08860006.tif - f60ae0d8b98f430a98bdf239692f6dec: + be49437acf1f4a4fb58088a03ea6c4de: span: - start: 2545 - end: 2821 + start: 2692 + end: 2968 imgnum: 7 reference: 08860007.tif - a3c13574605444259ffe36a58b7c7e89: + 10846511e36443e1843e341ec7678fa7: span: - start: 2822 - end: 3036 + start: 2969 + end: 3221 imgnum: 8 reference: 08860008.tif - dcc88b5693e1475594373a7dba3768e6: + ec9cb3234a6640cc8bfda2913a45c508: span: - start: 3037 - end: 3216 + start: 3222 + end: 3401 imgnum: 10 reference: 08860010.tif - 6d12f227298e4b4ca2b830fbf45d46d1: + 65786444b1ff4c98bc6dbe4dbce80132: span: - start: 3217 - end: 4375 + start: 3402 + end: 4560 imgnum: 13 reference: 08860013.tif - 4d80099c53024d5f97fad27da13198bd: + a29094ec72c34595be4223dd040c9086: span: - start: 4376 - end: 4669 + start: 4561 + end: 4854 imgnum: 16 reference: 08860016.tif diff --git a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_base_text.txt b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_base_text.txt index c573330b..2ac242c8 100644 --- a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_base_text.txt +++ b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_base_text.txt @@ -62,19 +62,15 @@ $“7"¢.[]9661,6༣¥©,༥10003[7562002 ཊུ ལ་པས་འལྟགམ་ཡུགས།སྣུག་བས་མ་ལགས།རང་གི་སྐྱ་བོ་དང་གཉེན་ཕྱི་ཚོགསྱིས་མ་ལེགས།སོཧཾྱི་འདུས་བསམ་ལགས།དག་སྦྱོང་དང།བྲམ་ཐེས་མཁགས་པ་གངཡགསང -(དྱ་ཡསསསཔསསམ༡༡༤༦༤༠༡༡༡༤༤༨༨༨༨༦༧༨༩༤༨༠༧-༩༤༤-ཕ-༡༤༧༡-བསས་འརལན་མཏས་པང།ངས་མཆ་མཆམ་སམས།།ྷབོོད2 -དོམལིཔ་བཞིལ། -འའདནསོང་གྱིས་ནི་བཀུལ།ཐརཔ་དང་ཞཐོ་རིས་ཏཱསོནྲིནས་བདག་ཅག་ལྟ་དང་སྲིནམས་སའོ་བཀོདདེ།བྱརོད་པ་བདག་ཅག་འ་མོནརོ་ལོ།༡ - ཁིས་སསྲིསབཅོམ་ལཱན་འགུགགཏབགྲརུདནའས་ཅིས་དག་ཅག་ -བཅོསསི་དཅིག་མོས་ཅིག་དང།དེལ་བས་ལསབོུགདབ -གྲའིའསདངགསས་དག -སྭ་ག་ཨདངཡལ་གབཅ་་ཞ་ -བཅོམ་ལྡནའདས་གིགིས་བཅོམ་ལན་འདུས་ -ཞིག་གསོལྗྒྲ་འ་གས་སམ་ས་བབ་ཤེས་སོ།།བ་ཅི་ཞེསདངལཏཅཱཆོཤུལཕུག་དཔའི་དགེ་ངགད་པཡད -།བཅོནཱོ་ལྡན་འདུས་ -ས་ན་གབིགནན་ངྷ་བྱརགནས་ཏེ།དེ་དག་ - ཨབས -ཞེའུགསིད་རྣམས་ནི་གློགས།འཇུག་གནས་དགའི་བརྟིབ་བོ།རྫིིཾིཆརོ༢ཆ +(དྱ་ཡསསསཔསསམ༡༡༤༦༤༠༡༡༡༤༤༨༨༨༨༦༧༨༩༤༨༠༧-༩༤༤-ཕ-༡༤༧༡-བསས་འརལན་མཏས་པང།ངས་མཆ་མཆམ་སམས།།ྷབོོད2ཉི་སྒོནཧོནས་བདག་ཅག་ལ་དང་སྲིནམས་དུང་བཀོདོནོ།བ་ོན་པོ་བོདག་ཅག་འབ་པ་ོ།རོ་ལོ།༡ +དོམམས།པ་བཞིལ།དནསོང་གྱིས་ནི་བཀུལ།ཐརཔ་དང་ཞཐོ་རིས་ཏཱསོནྲིནས་བདག་ཅག་ལྟ་དང་སྲིནམས་སའོ་བཀོདདེ།བྱརོད་པ་བདག་ཅག་འ་མོན་ྲ +ལིའའརུདནའས་ཅིས་དག་ཅག་ཁིས་སསྲིསབཅོམ་ལཱན་འགུགྲ་གཏབགྲ +བཅོསདངགསས་དགསི་དཅིག་མོས་ཅིག་དང།དེལ་བཡག།དེནས་ས་ལསབོུགདབགིས་བཅོམ་ལན་འདུས་ +འམ།ཞིག་བཅིགས་སོ། ་སྭ་ག་ཨདངཡལ་གབཅ་་ཞ་བཅོམ་ལྡནའདས་གིམོས་ག་ས་ +གྲའིའསཞིག་གསོལྗྒྲ་འ་གས་སམ་ས་བབ་ཤེས་སོ།།བ་ཅི་ཞེསདངལཏཅཱཆོཤུལཕུག་དཔའི་དགེ་ངགད་པཡད།བཅོནཱོ་ལྡན་འདུས་ +དངནས་གཞན་ཞིགན་དང་ངྷ་བྱརགནས་ཏེ།དེ་དག་ཨབསདྲ་ཱ་ཱམཛགས་བས་དགད།བསདདདེས་ུགས་ཧིང +ས་ན་གབིགནན་|ཞེའུགསིད་རྣམས་ནི་གློགས།འཇུག་གནས་དགའི་བརྟིབ་བོ། +རྫིིཾིཆརོ༢ཆ} བཅོ་སྤོའན་དསཅིས་བཀའ་སུལ་པ།ུཅིང་འདུང་།།དནཔས་ཏིས་གསོལཔ།ཡམསརར བྲཨེཅགས་པཅེསྲ་།ཧོགྱིངཾལྟ་བ་པདདགསོགབུད @@ -86,12 +82,12 @@ $“7"¢.[]9661,6༣¥©,༥10003[7562002 རྩ ྱསྱོ་པའ་ུདལས་ྭབུང་གནས་བརྒྱནར་ཏོ།།དབཞིནག་ཤིགས་ི་ོི་ང་ཟད།ཚབས -གོབདཉིདལགུབ་རབ་པླ་བུརཏཤས་བཔའ་བ -རི -རདྣོི་ོསོ་་ོ་རྨ - དྲག ཤཱོོས་ཐརཤསདེབ་ཅོམལན་དས་པསེནམཨུཏས་མསངབའེབ་ངནབཞིག་པ་མདོར་བར` -སི་ར།སཞུབའི་ལས་པུ་དད།སསརང་བཞིན་མས་མོའ བགལ་ཏལ་དད། -རེ±༥ དགལེགས་པའ་གསུངས་པའིཆོས་འཇུལ་བལ་རབྱྱབངབ་ +པདང་བཅལ་བས་བཅོན་འགུས་བརུམས་པསའཁོར་བའེའཁོརགོབདཉིདལགུབ་རབ་པླ་བུརཏཤས་བཔའ་བ +རདྣོི་རིཀགོསོ་་དྲགོ་རྨ +ཤཱཨུཏས་མསངརོོུས་ཐརཤསབའེབ་ངནབཞིག་པ་མདེབ་ཅོམལན་དས་པསེནམདོར་བརབྱ།` +སི་ར།སཞུབའི་ལས་པུ་དད།༥བགལ་ཏལ་དད།༈སསརང་བཞིན་མས་མོའ +དགལེགས་པའ་གསུངས་པའིཆོས་འཇུལ་བལ་རབྱྱབངབ་ +རེ དྲད ོ བའི་ར་བ། ངཱ འིསཁ་ཧདྷ་ཨཱ།།ཁཅགགིསདེནིིཉ}ྣ}ྣནགླྣཚཆནཆནས་ diff --git a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_hocr_meta.yml b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_hocr_meta.yml index 9322058b..eee158aa 100644 --- a/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_hocr_meta.yml +++ b/tests/formatters/hocr/data/file_per_volume/opf_expected_datas/expected_hocr_meta.yml @@ -1,5 +1,4 @@ id: I9876543 -legacy_id: null ocr_import_info: source: bdrc software: google_books @@ -9,15 +8,13 @@ ocr_import_info: ocr_info: timestamp: None op_import_options: - remove_duplicate_symbols: True - op_import_version: 1.0.0 + remove_duplicate_symbols: true + op_import_version: 0.11.8 default_language: bo source: https://library.bdrc.io -source_file: null initial_creation_type: ocr -imported: '2022-09-21T06:56:45.945843+00:00' -last_modified: '2022-09-21T06:56:45.945855+00:00' -parser: null +imported: 2023-12-09 11:46:15.699337+00:00 +last_modified: 2023-12-09 11:46:15.699341+00:00 source_metadata: id: http://purl.bdrc.io/resource/W22084 status: http://purl.bdrc.io/admindata/StatusReleased @@ -28,9 +25,8 @@ source_metadata: languages: - bo statistics: - ocr_word_mean_confidence_index: 0.3492919649960223 + ocr_word_mean_confidence_index: 0.3408977361436378 ocr_word_median_confidence_index: 0.29 -quality: null bases: I0886: source_metadata: @@ -41,8 +37,8 @@ bases: order: 1 base_file: I0886.txt statistics: - ocr_word_median_confidence_index: 0.31 - ocr_word_mean_confidence_index: 0.36663701067615656 + ocr_word_median_confidence_index: 0.3 + ocr_word_mean_confidence_index: 0.35191304347826086 I0887: source_metadata: id: http://purl.bdrc.io/resource/I0887 @@ -53,7 +49,7 @@ bases: base_file: I0887.txt statistics: ocr_word_median_confidence_index: 0.27 - ocr_word_mean_confidence_index: 0.3352661870503597 + ocr_word_mean_confidence_index: 0.33192634560906514 copyright: status: Public domain notice: Public domain