Skip to content

Latest commit

 

History

History
73 lines (54 loc) · 3.23 KB

PSENet.md

File metadata and controls

73 lines (54 loc) · 3.23 KB

PSENet 核心点笔记

looking for papers for PSE

contributer : leoluopy 同步更新位置及其他顶会视觉算法分析:https://github.com/leoluopy/paper_discussing

  • 欢迎提issue.欢迎watch ,star.

Overview

  • 在字符检测领域,传统的矩形框方法难以检测到不规则形状的文字,但在自然环境中这种情况广泛存在,因此基于分割的字符检测方法应运而生
    • 基于分割的字符检测方法在任意形状文字检测上取得了良好效果,但是在字符间距很小时容易出现粘连问题。本文介绍的方法基于以下贡献点解决该问题
    • 设计了多个尺度的特征图卷积核,从最小尺寸的特征图卷积核依次膨胀得到最后结果解决了粘连问题
    • 使用图像腐蚀方法生成了若干训练数据,不需要单独标注
    • 在各个数据集都取得了state-of-art成绩

效果描述

  • 由图可见在IC15,IC17,CTW1500上,PSENet在Precesion, Recall, F1-Score都取得了不错的成绩。

模型结构叙述

  • PSE网络结构受FPN启发,首先经过若干卷积提取多个尺度的特征图,这里是4个尺度的特征图(P5 P4 P3 P2)
  • 特征图经过上下采样得到融合后的特征图F
  • 单个特征图F被采样处理为多个尺度的特征图卷积核(Sn Sn-1 S1)
  • 在这些特征图卷积核上做最后的分割预测

分割预测的膨胀过程

  • 在多个特征图预测得到各自尺度的分割结果后,这些结果需要融合以下是融合过程的概述:
    • 从最小尺度的特征图结果开始融合,依次往最大特征图运算
    • 如果有分割结果冲突,遵从先到先占位原则进行融合

消融研究

  • m : 缩放比例(最小/原始) [由图可见,过大或者过小的m都对性能提升不利,取0.5左右的m,能对性能起到贡献]
  • n : 预测特征图个数 [可以看到从预测特征图的逐步增加,F1-Score逐步提升,n=4时到达拐点,n对于性能的提升起到了重要作用]

训练及Loss设计

label生产

  • 上图介绍了标签生成的规则
    • d 是两个GT之间的缩进距离
    • r 缩放的比例,和m,n有关系,预测特征图越小,r越小
    • Area是求面积函数
    • Perimeter是求周长函数

Loss

  • Loss由两部分构成,普通分割Lc和缩放膨胀部分Ls
  • λ控制两部分Loss权重

  • Si 是预测像素值
  • Gi 是标注像素值
  • M (Online Hard Example Mining) 训练过程中将部分简单样本和小数量样本进行抑制,提高训练效率,点我更多信息
  • Si 是对应尺度预测图的预测像素值
  • Gi 是对应尺度生成的标注像素值
  • Si > 0.5 时,W 取 1 , 其他情况 W 取 0

通过这种方式,W过滤掉对应尺度特征图上被腐蚀掉的目标部分。加速训练过程,个人认为如果没有W,应该也能训练出相当的效果,欢迎拍砖