记得前阵子说过打算把Fluent文档给汉化一波。
这是一项规模庞大的工程,近万页的文档,之前进展极为缓慢,每天最多翻译一两页(我每天能用在这方面的时间很少)。不过得益于当前各种AI大模型,此项工作现在终于可以跑步前进了。近期已经把理论文档初稿干完了,后期准备将其放到析模界网站(www.topcfd.cn)上,各位道友有兴趣可以移步查看。个人预计要不了几天就可以看到初稿了。精校版需要对初稿进行校正和润色,这个也需要较多的时间,留着后面慢慢弄。
原本是想先整用户手册的,不过用户手册页数太多了,处理起来太费时间,而且用户手册随版本变化较大,经常大版本更新会导致内容发生极大的变化,这个远不如理论文档稳定。理论文档页数较少(才1100多页),前期处理比较容易。
整个处理过程包括四步:
-
将原始PDF文档转换成Markdown文档。这里面最麻烦的是公式和表格的转换。理论文档中有大量的公式需要处理,AI识别的效果并不好,需要人工逐个确认。 -
将处理完毕后的Markdown文档分割成片段。鉴于当前AI大模型的表现,文档太长的话容易出现幻觉,翻译质量会急剧下降。而且公式显然是不需要翻译的,可以把公式提出来不翻译,这样不仅可以节省翻译时间,还能节省 token。 -
翻译各片段。这里可以采用并行处理来提高翻译效率。 -
组装翻译后的文档。将翻译后的中文片段组装成完整的文档。
AI翻译质量不是很稳定,其非常依赖于Prompt,经过反复对比测试,弄了一套相对靠谱的提示词,个人感觉翻译效果比DeepL略强。再一个就是AI翻译的效率比较低,这里使用硅基流动(siliconflow.cn)提供的deepseek v2的API,响应速度比deepseek官网快得多。
下半年时间比较充裕,我准备花时间把文档从头到尾讲一遍,各位道友有兴趣的可以关注。
(完)
本篇文章来源于微信公众号: CFD之道
评论前必须登录!
注册