推荐一款本地的简繁转换命令行工具 OpenCC
本帖最后由 hirari_133 于 2023-1-27 10:12 编辑之前在论坛,以及百度、知乎上搜了一下,感觉国内提及 OpenCC 的不多。
项目主页:https://github.com/BYVoid/OpenCC。
这是我在用一款小众输入法(Rime)所使用的简繁转换核心,优点是(按照他们项目主页的说法):
1. 严格区分「一简对多繁」和「一简对多异」。
2. 完全兼容异体字,可以实现动态替换。
3. 严格审校一简对多繁词条,原则为「能分则不合」。
4. 支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠标」「滑鼠」。
5. 词库和函数库完全分离,可以自由修改、导入、扩展。
除了 Windows 下的命令行程序外(当然同时提供 macOS 和 Linux 的命令行程序),他们也提供 Python 包、npm 包、C / C++ 的头文件。
下载地址:https://github.com/BYVoid/OpenCC/wiki/Download。
下载地址(自己整理打包的 1.1.6 版,内附说明):
链接: https://pan.baidu.com/s/1EEMqOsJRQLFF1qEo8FqWyA?pwd=1yje 提取码: 1yje
这里简单说明一下语法:
opencc.exe -i "[输入文件路径]" -o "[输出文件路径]" -c "[配置文件路径]"
例如,把某繁体 *.srt 文件转换成大陆简体:
opencc.exe -i "C:\Users\User\Desktop\01.zh-Hant.srt" -o "C:\Users\User\Desktop\01.zh-Hans.srt" -c "C:\Users\User\AppData\Local\Programs\OpenCC\share\opencc\tw2sp.json"
配置文件决定了转换规则,程序自带以下配置文件,位于解压出的 OpenCC/share/opencc 这个文件夹下:
s2t.json 简体到繁体
t2s.json 繁体到简体
s2tw.json 简体到台湾正体
tw2s.json 台湾正体到简体
s2hk.json 简体到香港繁体
hk2s.json 香港繁体到简体
s2twp.json 简体到繁体(台湾正体标准)并转换为台湾常用词汇
tw2sp.json 繁体(台湾正体标准)到简体并转换为中国大陆常用词汇
t2tw.json 繁体(OpenCC 标准)到台湾正体
hk2t.json 香港繁体到繁体(OpenCC 标准)
t2hk.json 繁体(OpenCC 标准)到香港繁体
t2jp.json 繁体(OpenCC 标准,旧字体)到日文新字体
jp2t.json 日文新字体到繁体(OpenCC 标准,旧字体)
tw2t.json 台湾正体到繁体(OpenCC 标准)
最后,这是他们部署的一个在线测试地址(可能需要一点点魔法上网……):https://opencc.byvoid.com。
转换古文效果怎么样
页:
[1]