-
Notifications
You must be signed in to change notification settings - Fork 49
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Handle duplicated filename #90
Comments
這問題有點難解。
有一個辦法,就是將檔案下載下來後,比對本地的檔案,檢查內容是否相同,若相同就不存檔。但這樣一來,所有的檔案都要下載一遍,大大增加流量並減慢下載速度。最糟的情況是所有檔名都相同,每頁都要和所有檔案都比對一次。 先在 README 內補上警告訊息。 |
我想比較好的方法是
|
或者把頁數接在原檔名後 |
嗯!個人見解,保留originalfilename。一般紳士抓圖在意的是圖片順序和原檔名,畢竟同個資源抓放在同個文檔夾,便於閱讀。而非保存頁數資訊 (e.g. image_001_1.jpg, image_246_1.jpg),那個過於畫蛇添足。 遇到同檔名的可以跳出提示,讓使用者設置originalfilename為False,雖然原檔名在這種情況下無意義,畢竟閱讀順序優先於保存原檔名。 檔名可以是相同的,但文件hash是唯一的。關於這個問題我個人對於comiccrawler的理想狀態是帶有檢驗機制的,遇到同檔名的就進行hash校驗,確定同一個文件(image_001.jpg)就跳過,同檔名但不同文件的就用image_001_1.jpg保存下來。嗯,不好意思,說著說著又回到原來的問題。 我個人認為comiccrawler是如今最靈活便利的抓圖軟體工具,這個問題如果沒有較好的解決方案,就暫時擱下比較好!關於同檔名的,就在readme重點說明,讓個人可以選擇使用是否保留原檔名,originalfilename是False,還是True,在告知使用者情況下,紳士們應該會自行選擇的。 另,最近忙,晚回信息,實在抱歉! 台灣地震,作者可安好?天佑台灣!祈福! |
要校驗 hash 的必須條件為先把檔案下載下來,和目前 Comic Crawler 的運作方法不同。目前的運作方法是這樣的︰
如果檔案已存在於資料夾內,就不須下載圖片。 若要校驗 hash︰
無論檔案是否存在資料夾內,都必須執行下載圖片的動作。 |
新年好! 1.不過,我觀察到ex有給每個目錄下的每個文檔都給順序序號,不管檔名相同與否。比如https://exhentai.org/g/323260/f04af39a6a/ 2.https://exhentai.org/g/323260/f04af39a6a/ 以上個人見解,不當之處還請海涵!作者平安無事,甚好! |
我把問題點列下來︰
因為 (1) 的緣故,在第 11 頁得到 1.jpg 時,不知道第 246 頁也是 1.jpg;在第 246 頁得到 1.jpg 時,不知道第 11 頁也是 1.jpg。你所提到的方法「原檔名相同時重命名」、「跳出確認視窗」等等,皆是做不到的,除非在存檔內記入檔名訊息。 理想狀態下,只要解決 (1) 的問題,(2) 的行為就可以繼續運作,不需要加入比對檔案的功能。若 (1) 解決不了,在 (2) 加入比對檔案的功能,也可以確保同名不同內容的檔案不會互相覆蓋。然而︰
所以我才會在前面建議,將原檔名接在頁數後/前方的解法。如此一來不用增加存檔大小又可以記錄原檔名和頁數訊息,既能解決 (1) 又可以保持 (2) 的行為。 |
URL: https://exhentai.org/g/323260/f04af39a6a/
Setting:
Page 246 would overwrite page 11:
The text was updated successfully, but these errors were encountered: