OpenAI Whisper内网无网络环境运行 | 开源Whisper本地化部署运行 | 语音识别ASR本地化 1. Whisper介绍Whisper是一个由OpenAI公司开源的ASR项目在github中有超多的star国内也有很多公司在使用这个Whisper。我们使用Python或者C或者Java都可以轻松使用这个Whisper作为语音转写服务。这里使用Python开发并且使用pyinstaller封装为Windows可执行程序直接下载下面的压缩包后直接双击app.exe或者app就可以运行极大方便了小白用户的使用不需要懂代码不用输入命令直接通过鼠标操作。该软件只适配Windows 7 Windows 10和Windows 11对于想要在MacOS或者Linux中运行的用户来说需要源码安装。如果想要在Linux服务器中运行并且封装为一个类似阿里云智能语音交互中的ASR录音文件识别接口可以联系博主lukeewin01。Whisper支持在CPU或GPU中运行GPU只支持英伟达GPU也就是使用英伟达的CUDA进行推理。并且支持多种模型多种语言包括但不限于普通话粤语英语葡萄牙语西班牙语俄语意大利语法语德语日语韩语印度尼西亚语缅甸语老挝语越南语阿拉伯语等一共100种语言。其中国内只支持粤语和普通话对于其它的方言需要使用一定量的方言数据训练才能支持。下载地址通过网盘分享的文件第二版Whisper可执行程序 链接: https://pan.baidu.com/s/1yXk5lYt248Mao972X17etA 提取码: bmgd2. 模型介绍Whisper开源了多个模型有tiny, tiny.en, base, base.en, small, small.en , medium, medium.en, large-v1, large-v2, large-v3, large-v3-turbo等模型这些模型参数依次增大准确率也依次提升但是对电脑的要求也逐渐提升。我这里推荐大家使用large-v3-turbo模型这个是基于large-v3这个模型优化过的转写的速度更快了占用的资源更低了但是准确率级别和large-v3一样。跑这个模型如果使用CUDA来推理至少需要8GB显存的显卡如果跑large-v3则至少需要12GB的显存。如果你没有英伟达显卡或者说显存小于8GB显存那么就推荐你使用small模型如果是英语的音视频那么就推荐使用small.en模型。这说明一下有.en结尾的模型就是专门给英语用的模型其它语言的音视频就不要选择.en结尾的模型。当然英语也可以选择非.en结尾的模型比如英语也可以选择使用large-v3模型。如果你选择了small模型那么至少需要4GB的显存的显卡。如果你使用CPU那么可以把后面的CPU线程数拉到最大。3. Whisper优缺点Whisper不是完美的每个项目每个模型都有自己的优缺点我们应该要扬长避短。Whisper的优势是多语种的支持一个模型就可以支持上百种语言这是目前其它开源模型中难以做到的。Whisper也是最近几年来的ASR新鼻祖了开创了全新的ASR实现思路并且也是目前来说训练数据量最大的模型了使用了68万小时的数据集训练的。Whisper还有一个优势就是一个模型就可以搞定语音转写和标点符号添加以及语种识别还可以做翻译直接翻译为英文输出。这是其它开源项目做不到的当然Whisper开源之后有很多模仿者二次开发的项目比如WhisperXfaster whisper, whisper.cpp, whisper-jar等这些项目我都在本地或者服务器运行过每个项目都有其特点比如faster whisper主要是速度快whisper.cpp主要是依赖简单直接可以集成到C的项目中不依赖于torch而WhisperX就集成了Pyannote实现了区分说话人和时间戳对齐。如果你想要部署这些项目也可以访问我下面的博客首页来联系我。https://blog.lukeewin.top更多内容记得关注我。如需看视频效果演示效果可以访问下面的视频链接。https://www.bilibili.com/video/BV1jcjL61EPF/