大写锁定 语音识别 离线开源?多平台好用的语音识别工具

大写锁定 语音识别 离线开源?多平台好用的语音识别工具
首页 正文

截止到此篇文章发布 GITHUB Releases 已经公开发布至1.0版本
目前更新日志:
支持无限时长语音、支持文件转录字幕

功能更新:
  • 通过分段识别和去重,实现了支持无限时长语音的转写
  • 现在客户端可以转写音视频文件为 srt 字幕了,只需将音视频文件拖动到客户端 exe 上打开即可
Windows 端打包说明:
  • 服务端载入模型所用的 onnxruntime 只能在 Windows 10 及以上版本的系统使用
  • 服务端载入模型需要系统内存 4G,只能在 64 位系统上使用
  • 额外打包了 32 位系统可用的客户端,在 Windows 7 及以上版本的系统可用
  • 模型文件较大,单独打包,解压模型后请放入软件目录的 models 文件夹中
因此:
  • Win10 64 位以上系统,可以使用服务端、客户端,请下载 CapsWriter-Offline-Windows-64bit.zip 和 models.zip
  • Win7 及以上的 32 位系统,只能使用客户端,只需要下载 CapsWriter-Offline-Windows-32bit-Client.zip ,可以通过连接到局域网内其它机器上正在运行的服务端使用。



GITHUB项目地址:Releases · HaujetZhao/CapsWriter-Offline (github.com)


大写锁定 语音识别 离线开源?多平台好用的语音识别工具


如上图所示,打开 start_server 端,等待模型载入完全后再打开 start_client 端,如指示框显示连接成功后按住大写锁定键说话,并且在松开大写锁定之后会自动识别并填入您的输入框,该项目已在GITHUB开源并且完全支持离线识别,可以放心使用。

如果有不会的地方可以看下这个UP的视频:有时候,动嘴比动手更快_哔哩哔哩_bilibili

本文来自投稿,不代表本站立场,如若转载,请注明出处:https://www.4kit.cn/post-49.html
RenpyThief - 游戏一键汉化工具 实时汉化
« 上一篇 11-07
Vectorizer 将图片矢量化
下一篇 » 11-07

发表评论

  • 泡泡
  • 阿呆
  • 阿鲁