This repository has been archived by the owner on Mar 29, 2024. It is now read-only.
数据结构的粗想 #101
Guanchishan
started this conversation in
Ideas
数据结构的粗想
#101
Replies: 1 comment
-
2020年8月15日榕典、输入法例会上,与会者提出对榕典数据结构的远期展望: 高度结构化的读音数据
高度结构化的释义数据(工作量太大,没有明确划分/操作标准)
|
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
前面提到数据结构化的问题。今天下午整理半天俗语,大概有了点思路。
¹如单字、句、文章;词性、褒贬义、类别;体裁。
²原本构思出了三种语词字段:word(字词)、sentence(句,各种俗语与词典提供的各种例句都算在内)、work(如《圣经》《筅堂洗厝好过年》或者闽剧剧本)。字词组成句,句组成文章。反过来,文章可析成一句句话去点击查看详情,句到字词亦然。(正如当时学长提出歌谣与俗语宜分属不同数据结构。)后来觉得正如以前对词汇、例句、俗语(#56、#64)等定义与分野的探讨一样,他们实在如光谱一般,是过渡的概念,彼此之间界限并不分明。不如都抹平,直接视为word,word之间再彼此调用作为用例等等?word本身可以通过声明体裁tag明确其为歌谣、歇后语乃至戏文,还可以加单字tag以明确这是单字,加新闻稿tag明确这是新闻稿等等。
³可能与性别tag功能重复。若把语词的性别信息集约至tag,则该字段可N/A。
⁴age最开始还是设计给录音人年岁用的。若用于语词,可能与年龄段tag功能重复。若把语词的使用者年龄信息集约至tag,则该字段可N/A。
⁵如果对语词参考文献及further reading进行结构化管理,那source字段就可以派上用场了。
⁶如果是维基,还会给source区分news、web、book、journal等等类别,但我们反正没必要这么弄。
⁷如Storia-di-Hokchew收录的那些原文,供链接不可用时备查。
⁸如Storia-di-Hokchew的keyword等。
⁹如农业工业商业tags的属性为行业,名词动词形容词tags的属性为词性,戏本歌谣歇后语等tags的属性为体裁等,以对tag统筹管理。
¹⁰sound依附于word,所以sound的文本不用附着于sound,而是sound附着于作为一个word的文本。
¹¹如词性、褒贬义、类别等。
¹²单位,如该用户来自微博就写Weibo,来自鼓楼区文化局就写鼓楼区文化局,最后显示就如Guanchishan@GitHub,或林行@鼓楼区文化局。鼓楼区文化局、福建省文史馆、福建师范大学文学院等文本可以看作一种背书。
¹³theme如何安排未考虑清楚。我想的是,94版《福州方言词典》的“啊”和98版《福州方言词典》的“啊”都是一个词——“啊”,那这两个“啊”就是同一个theme,该theme为“啊”。又如94版《福州方言词典》的“心肝搭搭,伓驚菩薩”和《熟语大全》的“心间搭搭,伓惊菩萨”明显是同一个俗语,则使theme相同。这还只是写法不同的例子。若同样是十二个月的水果歌谣,出现“番石榴罔好复无名”(连江,@siuze 提供)、“七月番石榴不上三盖灶”(海都报)、“七月番石榴无上三界桌”(不知名文献,麦羽提供)、“七月番石榴无上三界泉”(连江县志)等变体,也可同一theme否?并导入评审、权重机制?而且在这种情况下,标明来源与地域就异常重要了。
赋予唯一识别码后,就方便进行版本管理、大众验证等等了。
Beta Was this translation helpful? Give feedback.
All reactions