一个Python脚本,可以根据已有的中文文档来生成Rime自定义词库。
- 中文文档转为纯文本
jieba分词提取词库信息pypinyin将分词结果转换为pinyin- 生成
Rime的自定义词库
基于jieba与pypinyin开发,安装依赖:
pip install -r requirements.txt例如有一段文字是用Word写的,需要根据它创建自定义词库
- 将
Word文档导出为txt文件:导出-更改文件类型-纯文本-其他编码-UTF-8-确定- 例如文件名为
foobar.txt,放在Run目录下
- 设置
jieba分词的用户自定义词典,保证更准确的分词效果:- 修改示例目录
Run中的user.dict
- 修改示例目录
- 运行
text2dict:- 进入
Run目录 - 假设输出的词库文件名为
user-defined.dict.yaml,执行:python3 ../src/text2dict.py -i foobar.txt -o user-defined.dict.yaml
- 进入
- 将自定义词库添加到
Rime中- 进入用户文件夹,以
Linux下fcitx5-rime为例cd ~/.local/share/fcitx5/rime
- 将
Step 3中生成的user-defined.dict.yaml复制到该文件夹下 - 假设使用的是雾凇拼音方案,编辑
rime_ice.dict.yaml,在import_tables列表的最后添加自定义词库名(去掉文件名中的.dict.yaml),例如:import_tables: - cn_dicts/8105 # 字表 # - cn_dicts/41448 # 大字表(按需启用) - cn_dicts/base # 基础词库 - cn_dicts/ext # 扩展词库 - cn_dicts/tencent # 腾讯词向量(大词库,部署时间较长) - cn_dicts/others # 一些杂项 # 建议把扩展词库放到下面,有重复词条时,最上面的权重生效 # - cn_dicts/mydict - user-defined
- 进入用户文件夹,以
- 重新部署
Rime