Skip to content

Latest commit

 

History

History
51 lines (50 loc) · 2.7 KB

RESUME_Q.md

File metadata and controls

51 lines (50 loc) · 2.7 KB
  • 知识图谱
    • 构建流程

    • 数据增强

    • 实体融合与链接怎么做

      • Mention Variations:同一实体有不同的mention。(<科比>:小飞侠、黑曼巴、科铁、蜗壳、老科。)
      • Entity Ambiguity:同一mention对应不同的实体。(“苹果”:中关村苹果不错;山西苹果不错。)
        • 针对上述两个问题,一般会用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 两个模块来分别解决:
        • Candidate Entity Generation:从mention出发,找到KB中所有可能的实体,组成候选实体集 (candidate entities);
        • Entity Disambiguation:从candidate entities中,选择最可能的实体作为预测实体
          • Learning to Rank Methods
          • Probabilistic Methods
          • Graph-Based Approaches
    • TransE, RotatE, DisMult原理

    • KGBERT训练过程细节

      • K-BERT,预训练过程中注入相关的KG三元组,为模型配备领域知识,提高模型在特定领域任务上的性能,同时降低大规模预训练成本。 - 改进与调优情况
      • 1
    • KBQA(基于RASA)

  • Spert模型细节
    • 三元组抽取原理
    • 优点:将实体的长度作为先验加入到模型训练中,即span宽度的设定
    • 数据标注偏少,导致模型的指标比看展示的低:即模型预测正确,但是因为标注没有该正例,导致指标偏低
    • 容易给实体间赋予本来没有的关系
  • python
    • 元编程
    • 设计模式
    • Cython语法,计算优化用在什么地方(大量小距离计算)
    • 多进程多线程
      • ocr分割后的多进程切块多线程识别(IO密集型)
      • 文本关键字检测,多线程(多进程也可,就是占CPU)
    • 协程的提出与用途
      • 不使用协程的情况
        • 回调模式的编码复杂度高:epoll + 回调 + 事件循环
        • 同步编程的并发性不高
        • 多线程编程需要线程同步,即用锁
      • 使用协程的优势
        • 采用同步的编码方式写异步的代码
        • 使用单线程去切换任务
          • 因为线程是系统调用的,单线程切换任务意味着需要手动调度任务
          • 不需要锁,并发性高,函数级别调性能远高于线程切换
  • Ray分布式框架
    • 用途
    • 原理
  • CUDA编程
  • 强化学习相关概念
    • QMIX模型优缺点
    • Q、V值概念与公式
    • 从DQN到AC的算法演化路径
  • 故障检测算法
  • 集成算法、聚类算法
    • 结合实际项目数据谈谈实践和优化过程