基于其MIT开源协议,用户可以进行的功能扩展包括:
- 核心功能修改::
- 在main.py中调整热键组合(修改
pynput.keyboard.Controller
配置) - 变更录音时长限制(默认无超时设置)
- 添加音频预处理模块提升识别率
- 在main.py中调整热键组合(修改
- インターフェイスのカスタマイズ::
- 修改Recording提示的GUI样式(CSS文件)
- 增加实时识别文字预览窗口
- 添加多语言界面支持
- 模型增强::
- 集成其他语音识别模型(如Whisper)
- 针对专业术语训练定制化模型
- 扩展支持方言或特定口音识别
开发者还可在GitHub提交Pull Request将改进合并到主分支。需要机器学习基础的重要修改建议参考Parakeet官方文档,涉及硬件加速修改则需要熟悉MLX框架特性。
この答えは記事から得たものである。超高速ディクテーション:MAC用高速音声テキスト化ツールについて