吾生有涯 学海无涯
析模有界 知识无界

Fluent文档汉化工作进展

记得前阵子说过打算把Fluent文档给汉化一波。

这是一项规模庞大的工程,近万页的文档,之前进展极为缓慢,每天最多翻译一两页(我每天能用在这方面的时间很少)。不过得益于当前各种AI大模型,此项工作现在终于可以跑步前进了。近期已经把理论文档初稿干完了,后期准备将其放到析模界网站(www.topcfd.cn)上,各位道友有兴趣可以移步查看。个人预计要不了几天就可以看到初稿了。精校版需要对初稿进行校正和润色,这个也需要较多的时间,留着后面慢慢弄。

原本是想先整用户手册的,不过用户手册页数太多了,处理起来太费时间,而且用户手册随版本变化较大,经常大版本更新会导致内容发生极大的变化,这个远不如理论文档稳定。理论文档页数较少(才1100多页),前期处理比较容易。

整个处理过程包括四步:

  1. 将原始PDF文档转换成Markdown文档。这里面最麻烦的是公式和表格的转换。理论文档中有大量的公式需要处理,AI识别的效果并不好,需要人工逐个确认。
  2. 将处理完毕后的Markdown文档分割成片段。鉴于当前AI大模型的表现,文档太长的话容易出现幻觉,翻译质量会急剧下降。而且公式显然是不需要翻译的,可以把公式提出来不翻译,这样不仅可以节省翻译时间,还能节省 token。
  3. 翻译各片段。这里可以采用并行处理来提高翻译效率。
  4. 组装翻译后的文档。将翻译后的中文片段组装成完整的文档。

AI翻译质量不是很稳定,其非常依赖于Prompt,经过反复对比测试,弄了一套相对靠谱的提示词,个人感觉翻译效果比DeepL略强。再一个就是AI翻译的效率比较低,这里使用硅基流动(siliconflow.cn)提供的deepseek v2的API,响应速度比deepseek官网快得多。

下半年时间比较充裕,我准备花时间把文档从头到尾讲一遍,各位道友有兴趣的可以关注。


(完)

本篇文章来源于微信公众号: CFD之道

赞(40) 打赏
版权声明:未经允许,请勿随意用于商业用途。
文章名称:《Fluent文档汉化工作进展》
文章链接:https://www.topcfd.cn/39351/
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
分享到

说两句 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者吧

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册