voiceId

Gittee | Github

voiceId

借鉴CapsWriter修改的windows端语音输入
- 最近一直在寻找win端的方便语音输入的工具，诸多尝试后，发现了CapsWriter
进行了一些小修改，足够自己用了，同时想分享给大家
- 可修改按键按住的有效时间阈值、可修改按键快捷键、可修改语音识别文本句末是否保留句号、可修改是否重置按键按之前状态

目前的痛点

win10与win11自带的语音输入
- 快捷键win+H即可使用。win11还对win10的语音输入进行了升级，确实能够开关语音了，win11端好用一点。但是仍有诸多问题，不能满足需要
- 首先是网络经常出错。win10端好一点点，也常常出现失效；win11端伴随不同版本更新与bug问题，基本都会出问题。真受够了
- 其次是操作逻辑头疼。win11端改进一点点，win+H能够开始停止了。常用的win10端，操作不方便，逻辑头疼，不适合。
- 其次是识别与输入速度缓慢，响应差，即时性低
输入法方式
- 如讯飞、腾讯、百度输入法等自带的输入法方式。仍然不尽如人意
- 操作不舒畅。例如讯飞，必须手动或快捷键启动语音模块后，使用F键进行开关，不流畅不方便
- 速度很慢。例如讯飞，基本上两秒以上出一个简单的词的结果
寻找工具
- 由于win端不是互联网主战场，语音输入成了一个问题，相比于手机端差的很多。同时能够寻找的工具或软件也比较少
- 在多方查找后，幸亏找到由淳帅二代同学做的CapsWriter软件，挺不错的
- 原版相关链接：github，B站教程，思源点子

简单的改进

花了一两天理解了这个软件的python代码，对软件第一版本（无交互页面版本）进行了简单的更改
首先是添加了四个可以通过ini文本设置的功能
- 功能说明
  - 四个功能的接口，放在与exe文件同级的voiceSet.ini文件中。如果预先没有voieSet.ini文件，初次运行exe文件会生成，同时exe文件报错。浏览并填写确认好内容，再次运行exe文件
  - 第一行：按键阈值时间，单位秒
  - 第二行：语音识别快捷键，使用标准按键名。实在找不到可参考keyboardName，进行搜索
  - 第三行：是否保留句末句号。默认True表示保留语音识别末尾句号
  - 第四行：是否重置按键状态。默认False表示不重置按键状态
- 自定义阈值时间
  - 用来衡量按键是普通使用还是调用语音识别。长按时间超过阈值，则认为是调用语音识别，不超过则认为是普通按键
  - 时间设置如果较短，则容易被误触发，影响日常使用。如果时间设置足够久，相当于将功能进行失效，语音输入也不方便。自己感觉设置0.75秒挺适合自己的，这个根据体验自己设置
- 自定义快捷键
  - 在voiceSet文件中写入要使用的快捷键，常用的如：Alt、Shift、Caps lock、Ctrl等
  - 考虑到日常按键容易被触发，计算在触发次数里面。在试用阶段还好，但是在商用根据次数计费，可以考虑放在不常被按到的地方使用。避免按键误触和次数消耗。根据体验自行设置
  - 比较推荐使用insert键，算是最好的按键了。注意要在word中关闭insert的改写功能，方法如百度知道
- 句末句号是否保留
  - 语音识别默认会带有句号。如果设置False表示末尾不带句号，方便手动添加
- 是否恢复操作前键盘状态四个功能
  - 标准键盘例如caps键控制大小写，shift控制输入法，使用长按后相当于也进行了一次按键。如果要恢复，就设置为True，会进行一次恢复按键，回到按键前状态
  - 同时例如Ctrl键，按一下对电脑没有影响，这样就无需进行重置，则设置为False即可
快速启动的思路更改
- 在CapsWriter2.0版本，作者为加速识别过程，实现了在按下快捷键便立即进行录音，相较于第一版按下按键后要等待一小段时间才开始录音更快捷。
  - 作者的实现方式是在按下快捷键时，进行第一段录音并保存数据。如果仍然按下按键，继续进行语音输入，则将后续数据与第一段录音数据合并添加，并对数据进行发送
- 更简单的快捷实现
  - 为了加速录音效果，在按下按键就能立即进行录音，同时能够利用时间阈值来判断按键操作是否在进行语音识别操作
  - 这里通过相似但简单一点的方式实现。在按下按键后，则直接进行录音与语音识别，此时其实已经接收到云端返回的消息数据。在松开按键后，对按下按键到松开按键的时间进行计时，如果差值时间（即按下键盘按键时间）超过了设定的阈值时间，说明此时在进行语音识别操作，则将整个过程的语音识别结果发送到文本框中。如果差值时间小于阈值时间，说明此时为一般的按键操作，软件不将语音识别结果发送到文本框

软件内容

软件共6个文件，核心的是exe文件：voiceId.exe。其他的可以不需要，需要的运行后报错自动生成，再次运行exe文件即可
6个内容解读
- alispeech.log
  - 阿里引擎运行消息文件，可以不用管
- killVoiceId.cmd
  - 自己写的简单的关闭进程的cmd文件
  - 想要关闭运行的语音识别软件进程，点击运行一下就可以
  - 或者可以直接在任务管理器，进程中寻找到voiceId，点击关闭也可以2。
- token.ini
  - 需要进行设置的文件，与阿里云引擎设置有关，保留了原作者的方式
  - 需要进行设置accesskeyid、accesskeysectet、appkey三个，前两个id与expiretime不用管
  - 具体操作可参考作者视频关于阿里云引擎的内容B站教程
- voiceId.exe
  - 软件exe文件，双击即可运行
  - 利用pyinstaller进行的打包得到: pyinstaller -F -w -i voiceId.ico voiceId.py
- voiceSet.ini
  - 软件四功能设置文件，可windows上(右键文件-编辑)进行编辑操作
- voiceTest.txt
  - 没什么功能的测试文件，方便运行后打开文件进行语音输入测试

软件使用

下载运行功能包，解压缩
在token.ini文件中，写入三个阿里云引擎参数accesskeyid、accesskeysectet、appkey
在voiceSet.ini文件，根据自己需要更正
运行voiceId.exe即可，进行简单测试
使用killVoiceId.cmd进行关闭，或者在任务管理器中进行关闭（修改参数后，需要关闭进程再开启才能生效）

其他想法

语音引擎
- 阿里云与讯飞引擎
  - 本次工作尝试了讯飞引擎和阿里云引擎，阿里云引擎速度确实更快一些
- api方式与sdk方式
  - 一开始想要利用Quicer进行进行与讯飞和阿里云引擎的api方式通讯，利用Quicer的hppt功能，通过post方式，获取内容，进行处理。但是暂时找不到仅仅通过quicer进行按键监听、响应的方法。如果利用Quicer对python文件进行打开，需要电脑安装pythyon和相关环境，实现也不方便不太灵活，就放弃quicer了
- 使用中，感觉使用sdk方式，要比使用api方式响应速度快
按键相关
- 我在quicker中将caps映射为ctrl+space，以此实现caps键切换中英文，比shift方便好用。但是就无法用caps来语音识别了，会冲突
- 日常使用的按键，进行语音识别多少会有些影响，shift键在利用shift多选时也会有些影响。暂时还没想怎么可以更优化，不影响日常使用，暂时可能就是调整好按键阈值时间来权衡吧
源码使用
- voiceId-src.zip中放置了实现的源代码，主要是voiceId.py，是对原作者进行了小小的修改而成
- 如果要自己修改，参考作者的文档进行python安装与环境安装，使用pyinstaller打包
后续付费
- 测试版应该是三个月，后续使用3.5/1000次，可以根据价格考虑使用。如果根据按键使用，次数可能有点多，这个之后再考虑了
- 如果是付费版本，本软件根据按键进行识别，放在日常使用的按键，识别次数就会有些多，要注意价格和使用。先酱紫啦

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

voiceId

目前的痛点

简单的改进

软件内容

软件使用

其他想法

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
LICENSE		LICENSE
README.md		README.md
alispeech.log		alispeech.log
killVoiceId.cmd		killVoiceId.cmd
token.ini		token.ini
voiceId-src.zip		voiceId-src.zip
voiceId.exe		voiceId.exe
voiceSet.ini		voiceSet.ini
voiceTest.txt		voiceTest.txt

License

SuJun-Hub/voiceId

Folders and files

Latest commit

History

Repository files navigation

voiceId

目前的痛点

简单的改进

软件内容

软件使用

其他想法

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages