硬字幕提取工具10.0 - 超好用（”语音提词2.0”发布了！欢迎试用）

木摆水灯 · 发表于 2025-3-20 23:23:01

win11系统，离线版本突然打不开了，重新解压也没有用。不支持离线识别的版本可以正常打开使用，有人遇到过么

10362227 · 发表于 2025-6-17 02:26:03

可以更新了

PaddleOCR v3.0.0 整体识别精度相比上一代提升13个百分点。

10362227 · 发表于 2025-9-1 10:27:24

百度OCR好像更新了api地址，产生一系列bug，连离线ocr也用不了了

麥香綠茶 · 发表于 2025-9-30 17:05:08

本帖最后由麥香綠茶于 2026-2-27 22:40 编辑

PP-OCRv5的server繁體中文很準確，希望製作者優化
建議你檢測框，上下兩行就行了，不要有一行一長一短的檢測框
例如以下這樣對白，會有一長一短的，不準確，直接一行長的檢測框全部框起來反而更準確
-你知道他回家了嗎？ -他？

自己有訓練一個PP-OCRv5的server微調版本，能否加入替換

hx168 · 发表于 2026-3-13 12:29:00

麥香綠茶发表于 2025-9-30 17:05
PP-OCRv5的server繁體中文很準確，希望製作者優化
建議你檢測框，上下兩行就行了，不要有一行一長一短的檢 ...

一直没时间更新，因为平时太忙了！

不知您对这个python程序有没有做维护的兴趣，计划开源到github

hx168 · 发表于 2026-3-16 02:39:07

近期将会迎来一次重大代码重构+功能更新，除了人工校对更轻松，还支持一键AI硬字幕提取（不是语音识别），敬请期待！工具后续计划开源到github，平时没有太多时间管理，有兴趣做代码维护的朋友可联系我（文末Q）

麥香綠茶 · 发表于 2026-3-23 23:47:50

hx168 发表于 2026-3-16 02:39
近期将会迎来一次重大代码重构+功能更新，除了人工校对更轻松，还支持一键AI硬字幕提取（不是语音识别）， ...

我在PP-OCRv5_server基礎上訓練微調了11500張繁體中文硬字幕圖片
我權限不夠不能貼連結
精研字幕有發表訓練模型

gts3666 · 发表于 2026-3-30 18:43:29

现在的PaddleOCR-VL-1.5模型很精准，识别准确率基本99%

晃晃无事 · 发表于 2026-3-30 19:26:15

提下跟其他字幕ocr工具的不足，主要还是调用VideoSubFinder，截图和筛选有字幕的图片更繁琐。而且对于ocr动画字幕来说，双区域框选确实很有必要，更能节约时间。

麥香綠茶 · 发表于 2026-4-2 05:29:50

gts3666 发表于 2026-3-30 18:43
现在的PaddleOCR-VL-1.5模型很精准，识别准确率基本99%

PaddleOCR-VL-1.5要另外再訓練，932張繁體中文硬字幕漏了七條，中文識別準確率真的很準
而且PP-DocLayoutV3 是版面分析模型 速度會比V5模型的det框選速度慢很多

換成自訓練微調V5模型的det 47秒

PP-DocLayoutV3 19分53秒

中文字識別模型都是PaddleOCR-VL-1.5差距19分鐘

AI Claude
vLLM 不支援 Windows 原生環境。 PaddleOCR-VL-1.5 官方推薦的高效能後端（vLLM）只能在 Linux 下運作。在 Windows 上你只能使用 PaddlePaddle 原生後端

		自动登录	找回密码
密码			立即注册

硬字幕提取工具10.0 - 超好用（”语音提词2.0”发布了！欢迎试用）

点评