Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

影音漫画小说词汇挖矿指路 #6

Open
Oshibuki opened this issue Sep 23, 2023 · 3 comments
Open

影音漫画小说词汇挖矿指路 #6

Oshibuki opened this issue Sep 23, 2023 · 3 comments
Labels
todo Something needs to be written up

Comments

@Oshibuki
Copy link

Oshibuki commented Sep 23, 2023

词汇挖矿是来自“mine from sentence”的直译,指选择难度略微超过舒适区,又存在少量生词的适当材料做笔记记录用于复习

大体而言,这些记录的最终目标都是anki自建卡牌。但是具体的挖掘路径又随着材料种类和技术进步的发展有所不同。现归纳如下:

必备基础

yomichan

视频

这类材料以能找到单独字幕文件(需要严格对轴视频材料)的动画、影视作品为主。
字幕与视频重新同步:https://animecards.site/subtitles/

字幕网站列表:
日文字幕:
kitsunekko: https://kitsunekko.net/dirlist.php?dir=subtitles%2Fjapanese
kitsunekko的备份:https://learnjapanese.moe/kitsubackup.html#/ja/
https://djtguide.github.io/library/sub.html
中文字幕:
https://github.com/bipy/Anime-Subtitles
中日双语字幕
https://github.com/Nekomoekissaten-SUB/Nekomoekissaten-Storage

动漫网站:
https://animelon.com/ 专为日语学习者设计,自带字幕
https://aniwatch.to/ 能找到比较久远的视频

日剧:
2022年下载日剧生肉和外挂字幕的方法

手动挖掘工具:
浏览器插件:
asbplayer
animebook
asbplayer 可看作是 animebook 的升级版本,二者均需要手动配置输入Anki的目标字段

自动挖掘工具:
subs2srs 用于批量从字幕和视频中生成Anki,缺点是后处理费时费力

漫画

当下这一领域流行的是Manga-OCR这一来自HuggingFace的AI模型,而不是比较老的Capture2Text。
Manga-OCR衍生了一系列工具,较为有名的有:
Poricom -- 漫画阅读器,需要手动框选进行文字识别
kha-white/mokuro 及它的移动端适配分支 ZXY101/mokuro : 对漫画进行ocr并生成元数据和html文件,在浏览器打开html文件即可选中文本调用Yomichan查询并插入Anki
经过mokuro预处理的漫画资源可在https://mokuro.moe/manga/ 找到,比较推荐通过https://mokuro.moe/manga/_torrents/ 内的BT种子文件每次下载单部预处理作品,降低网站服务器压力
mokuro阅读器:https://reader.mokuro.app/
PC端设置阅读漫画:https://xelieu.github.io/jp-lazy-guide/setupMangaOnPC

jidoujisho: 一款功能齐全的沉浸式移动语言学习套件,内置Yomichan(需导入辞典),mokuro漫画阅读器、ttu阅读器(用于epub阅读),webview浏览器(特定程序注入网页便于翻译和查询),音视频播放器等

挖矿技巧总结

Shiki’s Lazy Sentence Mining Workflow
Mining from Anime

epub阅读

浏览器内的https://reader.ttsu.app/ ,可安装为pwa应用,适合日文文本epub阅读,默认垂直排版,设置内可调整为水平排版

@NoHeartPen
Copy link
Owner

感谢提交,由于工作原因,我可能要下个月才会整理你分享的内容,你可以先不关闭这个 issue 算是提醒我不要跳票(笑

@NoHeartPen NoHeartPen added the todo Something needs to be written up label Sep 23, 2023
@PT123123
Copy link

现在的字幕mining应该被更新成AI字幕工具指导了

@Oshibuki
Copy link
Author

现在的字幕mining应该被更新成AI字幕工具指导了

ai也无法知道学习者当前的i+1学习发展区是哪个位置吧,只有大概的范围。要学会还是得靠学习者付出脑力

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
todo Something needs to be written up
Projects
None yet
Development

No branches or pull requests

3 participants