应用场景:两个不同国家语言的人,通过手机,各自说自己的母语实现自由交流。
RTranslator 是一款(几乎)开源、免费且支持离线实时翻译的Android应用程序。利用RTranslator连接到其他安装同样安装该应用的人,即可实现双方各自以自己的母语进行交流。
仓库地址:https://github.com/niedev/RTranslator
”
RTranslator采用OpenAi的Whisper进行语音识别,并利用Meta的NLLB进行翻译。这两者均为开源且处于技术前沿的人工智能,具备卓越品质,并能直接在手机上离线运行,确保在无网络环境下使用RTranslator时质量不受影响。
此外,即使在手机待机或使用其他应用时(仅限对话模式或对讲机模式下),RTranslator也能在后台正常工作。但部分手机会对后台应用限制电量供应,此时建议避免此类情况发生,保持应用在前台开启并屏幕常亮以获得更佳体验。
1 对话模式
对话模式是RTranslator的主要功能。在此模式下,您可以与另一部使用该应用的手机建立连接。如果对方接受了您的连接请求:
-
当您说话时,您的手机(或已连接的蓝牙耳机)将捕捉音频。 -
捕捉到的音频将被转换成文字并发送至对方的手机。 -
对方的手机会将接收到的文字翻译成其母语。 -
对方的手机会将翻译后的文字转换成语音并通过扬声器播放(若对方已将其手机的蓝牙耳机连接,则通过蓝牙耳机播放)。以上过程在双方之间双向进行。
每位用户可同时连接多部手机,从而实现多人之间的任意组合对话翻译。
2 对讲机模式
若对话模式适用于与某人进行长时间交谈,那么此模式则专为快速对话设计,例如在街头询问信息或与店员交流。
该模式仅支持两人间的对话翻译,不兼容蓝牙耳机,且需轮流发言。它并非真正的同声传译,但仅需一部手机即可操作。
在此模式下,智能手机麦克风将同时监听两种语言(可在对讲机模式的同一屏幕上选择)。应用会识别对方所使用的语言,将其语音翻译成另一种语言的文本并转换为音频,然后通过手机扬声器播放出来。当文字转语音(TTS)完成后,系统会自动恢复监听状态。
3 文本翻译模式
此模式是一个经典的文本翻译器,但还是可用的。
4 性能
为了在使用应用时避免崩溃风险,需要一部至少拥有6GB RAM的手机;而要获得足够快的执行速度,则需配备性能强劲的CPU。
如果手中的手机配置较低(或追求极致速度),可以尝试使用RTranslator 1.0版本(但因依赖Google API服务,该版本并非免费且需进行初始设置)。
5 下载
要安装该应用,请从 https://github.com/niedev/RTranslator/releases/ 下载最新版本的 APK 文件并进行安装(忽略其他文件,这些将在首次启动应用时自动下载)。首次启动时,需要下载翻译和语音识别所需的模型(1.2GB),完成后即可开始翻译。
6 支持的语言
目前支持的语言包括:
Arabic, Bulgarian, Catalan, Chinese, Czech, Danish, German, Greek, English, Spanish, Finnish, French, Croatian, Italian, Japanese, Korean, Dutch, Polish, Portuguese, Romanian, Russian, Slovak, Swedish, Tamil, Thai, Turkish, Ukrainian, Urdu, Vietnamese.
7 使用的库与模型
RTranslator代码完全开源,但其所使用的一些外部库拥有较为严格的许可证。以下是应用中使用的所有外部库及其许可证的说明:
-
BluetoothCommunicator(开源):用于设备间的蓝牙LE通信。 -
GalleryImageSelector(开源):用于从图库中选择并裁剪个人资料图片。 -
OnnxRuntime(开源):作为AI模型的加速引擎使用。 -
SentencePiece(开源):用于NLLB输入文本的分词处理。 -
Ml Kit(闭源):在WalkieTalkie模式下用于语言识别。
以及以下AI模型:
-
NLLB(开源,但仅限非商业用途):所用模型为NLLB-Distilled-600M,配备KV缓存。 -
Whisper(开源):采用的模型是Whisper-Small-244M,同样配置了KV缓存。
本篇文章来源于微信公众号: CFD之道
评论前必须登录!
注册