Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问生成训练数据部分代码,开源吗? #1

Open
zzdang opened this issue Sep 30, 2019 · 5 comments
Open

请问生成训练数据部分代码,开源吗? #1

zzdang opened this issue Sep 30, 2019 · 5 comments

Comments

@zzdang
Copy link

zzdang commented Sep 30, 2019

您好,请问生成训练数据部分代码,可以开源吗?

@ursaminor0401
Copy link
Collaborator

ursaminor0401 commented Oct 8, 2019

您好,此项目demo中生成数据需要准备:

  • 一系列字体文件(.ttf)

  • 一个英文单词的语料库

  • 一个不包含文字的背景数据集

我们在数据生成过程中用到了以下几个项目的代码:

  • Synthtext,进行了简化,只提取出该项目渲染文字的部分并改为Python3代码,随机挑选字体和一对英文单词后,从背景数据集中抽取一个patch作为t_b,以同样的风格(颜色、旋转角度、阴影、边框)将单词渲染到t_b上作为i_st_f,同时将渲染t_f的单词以同样风格渲染到灰色背景上作为t_t,以同样风格但颜色为白色渲染到黑色背景上作为mask_t,以标准字体标准风格渲染到灰色背景上作为i_t

  • Skeletonization-of-Digital-Patterns,将这个项目改为Python3代码并对mask_t进行骨架化,生成t_sk

我们之后会将生成数据的代码整理好并开源,在此项目README中链接,可以参考并根据实际应用需求进行改进。

@rkshuai
Copy link

rkshuai commented Oct 9, 2019

您好,此项目demo中生成数据需要准备:

  • 一系列字体文件(.ttf)
  • 一个英文单词的语料库
  • 一个不包含文字的背景数据集

我们在数据生成过程中用到了以下几个项目的代码:

  • Synthtext,进行了简化,只提取出该项目渲染文字的部分并改为Python3代码,随机挑选字体和一对英文单词后,从背景数据集中抽取一个patch作为t_b,以同样的风格(颜色、旋转角度、阴影、边框)将单词渲染到t_b上作为i_st_f,同时将渲染t_f的单词以同样风格渲染到灰色背景上作为t_t,以同样风格但颜色为白色渲染到黑色背景上作为mask_t,以标准字体标准风格渲染到灰色背景上作为i_t
  • Skeletonization-of-Digital-Patterns,将这个项目改为Python3代码并对mask_t进行骨架化,生成t_sk

我们之后会将生成数据的代码整理好并开源,在此项目README中链接,可以参考并根据实际应用需求进行改进。

请问什么时候能开源呢?

@phybrain
Copy link

phybrain commented Oct 9, 2019

i_s: standard text b rendering on gray background

i_t: styled text a rendering on background image
readme 的图片反了吧,有8个标签也太多了吧 ···

@ursaminor0401
Copy link
Collaborator

ursaminor0401 commented Oct 10, 2019

您好,此项目demo中生成数据需要准备:

  • 一系列字体文件(.ttf)
  • 一个英文单词的语料库
  • 一个不包含文字的背景数据集

我们在数据生成过程中用到了以下几个项目的代码:

  • Synthtext,进行了简化,只提取出该项目渲染文字的部分并改为Python3代码,随机挑选字体和一对英文单词后,从背景数据集中抽取一个patch作为t_b,以同样的风格(颜色、旋转角度、阴影、边框)将单词渲染到t_b上作为i_st_f,同时将渲染t_f的单词以同样风格渲染到灰色背景上作为t_t,以同样风格但颜色为白色渲染到黑色背景上作为mask_t,以标准字体标准风格渲染到灰色背景上作为i_t
  • Skeletonization-of-Digital-Patterns,将这个项目改为Python3代码并对mask_t进行骨架化,生成t_sk

我们之后会将生成数据的代码整理好并开源,在此项目README中链接,可以参考并根据实际应用需求进行改进。

请问什么时候能开源呢?

本周内会开源,预训练模型也会加入

@ursaminor0401
Copy link
Collaborator

i_s: standard text b rendering on gray background

i_t: styled text a rendering on background image
readme 的图片反了吧,有8个标签也太多了吧 ···

确实写反了,已经改正,感谢指出!

原文中是6个标签,我们加了一个在渲染过程中很容易得到的mask_t来指导训练,生成数据部分的代码很快会开源,可以根据自己需要准备字体文件、背景图片数据集和单词语料库生成数据。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants