Skip to content

Commit

Permalink
uodate readme
Browse files Browse the repository at this point in the history
  • Loading branch information
WEIFENG2333 committed Nov 23, 2024
1 parent ce9b546 commit 03c488f
Showing 1 changed file with 19 additions and 10 deletions.
29 changes: 19 additions & 10 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,15 +2,15 @@
<img src="./docs/images/logo.png"alt="VideoCaptioner Logo" width="100">
<p>卡卡字幕助手</p>
<h1>VideoCaptioner</h1>
<p>一款基于大语言模型(LLM)的智能视频字幕处理助手,支持字幕生成、断句、优化、翻译全流程处理</p>
<p>一款基于大语言模型(LLM)的视频字幕处理助手,支持语音识别、字幕断句、优化、翻译全流程处理</p>

简体中文 / [English](./docs/README_EN.md)

</div>

## 📖 项目介绍

卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件。操作简单且无需高配置,利用大语言模型进行字幕智能断句、校正、优化、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。
卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。

- 🎯 无需GPU即可使用强大的语音识别引擎,生成精准字幕
- ✂️ 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
Expand All @@ -29,6 +29,14 @@
![页面预览](https://h1.appinn.me/file/1731487410832_preview2.png)


## 🧪 测试

全流程处理一个10分钟1080P汕尾英文视频,调用本地 Whisper 模型进行语音识别,使用 `gpt-4o-mini` 模型优化和翻译为中文,总共消耗时间约 ** 4 分钟 **

模型优化和翻译消耗费用不足 ¥0.01(以官方价格为计算)



## 🚀 快速开始

### Windows 用户
Expand All @@ -50,7 +58,7 @@

由于本人缺少 Mac,所以没法测试和打包,暂无法提供 MacOS 的可执行程序。

Mac 用户请自行使用下载源码和安装 python 依赖运行。
Mac 用户请自行使用下载源码和安装 python 依赖运行。(本地 Whisper 功能暂不支持 MacOS)

1. 安装 ffmpeg
```bash
Expand Down Expand Up @@ -88,9 +96,10 @@ python main.py
#### 3. 字幕智能纠错
- 自动优化专业术语、代码片段和数学公式格式
- 上下文进行断句优化,提升阅读体验
- 支持文稿提示,使用原有文稿或者相关提示优化字幕断句

#### 4. 高质量字幕翻译
- 结合上下文的智能翻译,确保译文准确自然
- 结合上下文的智能翻译,确保译文兼顾全文
- 通过Prompt指导大模型反思翻译,提升翻译质量
- 使用序列模糊匹配算法、保证时间轴完全一致

Expand All @@ -104,25 +113,25 @@ python main.py
#### 1. LLM API 配置说明 (可选)

- 软件内置基础大语言模型(`gpt-4o-mini`),无需配置即可使用。但为获得更好的效果,建议在设置中配置个人 API。
- 支持标准 OpenAI API 格式(兼容通义千问、DeepSeek 等)请自行配置。【招租】
- 支持标准 OpenAI API 格式(兼容[SiliconCloud](https://cloud.siliconflow.cn/i/HF95kaoz)[DeepSeek](https://platform.deepseek.com/) 等)请自行注册配置。
- 追求更高质量可选用 `Claude-3.5-sonnet``gpt-4o`

#### 2. 本地 Whisper 语音识别配置(需软件内下载)

- 下载模型:`Tiny`, `Base`, `Small`, `Medium`, `Large-v1`, `Large-v2`
- 下载模型:`Tiny`, `Base`, `Small`, `Medium`, `Large-v1`, `Large-v2`,`Large-v3` , 无需代理国内可直接下载
- 中文识别推荐使用 `Medium` 及以上版本,以确保识别质量

#### 3. 字幕样式自定义
#### 3. 文稿匹配

- 主副字幕设置:字体、大小、颜色、边框样式、行距、位置等
- 排版方式:原文在上、译文在上、仅原文、仅译文
- 在“字幕优化与翻译”页面,包含“文稿匹配”选项。支持使用视频的原有文稿或者相关提示优化字幕断句
- 全流程处理时,请先填写文稿信息,再进行开始任务处理。


## 💡 软件流程介绍

程序完整的处理流程如下:
```
语音识别 -> 字幕生成 -> 字幕优化翻译(可选) -> 字幕视频合成
语音识别 -> 字幕断句 -> 字幕优化翻译(可选) -> 字幕视频合成
```


Expand Down

0 comments on commit 03c488f

Please sign in to comment.