苏打文学

字:
关灯 护眼
苏打文学 > 虚拟世界的正确打开方式 > 正文 050 翻译项目

正文 050 翻译项目

正文 050 翻译项目 (第2/2页)

翻译程序就是先获得用户的【提问】,然后由程序去【搜索】数据库,找到了对应的翻译对照内容,便可【回答】用户的提问了。
  
  最重要的东西只有两个,一个是数据库,就是包含了很多个语种的翻译对照表。如果能搞来这个数据库,就算是最初级的程序员也能捣鼓出所谓的翻译软件。
  
  二个是搜索算法,低级的算法当然是简单的查找并提取结果就行。但高级的搜索算法可就不这么简单了,单单是提高翻译精确度这一条就不知道要花费多少脑细胞才能设计出合理的算法。
  
  所以九重对翻译项目的这样安排的,项目从头到尾要一直完善自己的【语料库】,包含各语种的词库,各语种翻译对照表等数据。越全面越好!等收集得差不多了再设计一套翻译算法管理语料库即可。
  
  九重的翻译项目组之前做的就是数据收集的工作,不是人工录入那种笨蛋式的数据建立方式,而是通过编写一些特殊的小程序,由程序来提取网络中的语料库。
  
  百度谷歌翻译自然而然的成为了重点照顾的目标,有现成的干嘛不用?自建多辛苦啊!
  
  另外像是某某词霸,电子辞典之类的软件都成为翻译小组偷窃的目标。在九重从旁辅助的情况下,翻译项目小组的程序员们都快变成一个盗窃团伙了,到处打劫别人家的语料库。反编译、破解、注入等技术用得越来越666了。
  
  ---
  
  “目前已经建立的,语料库相对完整的六个语种分别是汉语、英语、日语、印度语、阿拉伯语、西班牙语,以这六个语种为初始数据,借用各种手段,已经建立起了这六个语种与其他144个语种的互译数据库。也就是说,我们已经可以实现一百五十个语种之间的翻译了。”夏羽回答道!
  
  “这么快?”九重有点吃惊!这速度比想象中的要快很多啊!
  
  这才一个多月而已,已经做到这种程度了?
  
  看到老大吃惊!夏羽颇为得意,不过却谦虚的表示:“这还多亏了老大编写的那个妖孽小程序的功劳!只比起我们自己写的那个程序,差距上了千倍都不止啊。”
  
  翻译小组曾自己编写过一个自动翻译程序,该程序借用谷歌翻译返回翻译结果,效率大约是1.5秒可以获得一个单词的翻译数据,按这个速度,英文语料库75万个单词,一台电脑要13天才能获得英文和汉语互译对照数据。这个工作量就算平摊到翻译小组13台机器上,也需要1天时间才能获得2个语种的互译数据。
  
  最坑爹的是他们制作的程序还不能关闭网页,基本上运行这个程序,电脑也不能干啥事情了。
  
  150个语种的两两互译知道要执行多少个循环吗?
  
  (嗯~在下也算不清楚)
  
  反正很多就对了,九重看到他们做的程序之后,当然嗤之以鼻,然后只用半小时制作出了一个可以多开、可以以借用公司一百台计算机、在后台运行的翻译辅助工具,100台机子,每台程序*3,每秒共计可返回1200+个翻译数据。
  
  这效率惊呆了把翻译小组的小伙伴们都惊了个呆!
  
  “也就是说,基础的单词翻译数据已经建立起来了?”
  
  夏羽说道:“准确说,真正完善的只有之前我提到的6个语种的翻译数据,其他的语种或多或少还有些数据缺失,现在正整在检查和补全中,现在每天大约能检查3-5个语种的部分遗漏。”
  
  “数据库仍然是在原来的那个磁盘中吧!”
  
  “是的,这个道没变!”
  
  “那我先去看看情况,顺便做个备份什么的,你先在这里等我一下,等下和你说个正事。”
  
  十分钟后!
  
  九重回来了,和夏羽说道:“数据库的资料我已经看过了!基本上已经达到了我的要求的,那么!接下来,我们就要在算法上面下功夫了!我来和你说说翻译项目的下一个流程吧!”
  
  ....(未完待续~)
『加入书签,方便阅读』
热门推荐
顶级神豪 史上最强炼气期 全职法师 大小姐她总是不求上进 许你万丈光芒好 麻衣神婿 绝代神主 我不想继承万亿家产 寒门崛起 机武风暴