第38节(3 / 4)
对吗?”
图海川点头:“是的。现在我们就别废话了。”
戈德曼眼中放光,拍拍图海川的肩膀,昂首进门。
造物
图海川独坐讲台,当真一句话都不肯浪费。
「–」
“2025年,我受命为阿里集团正在运作的国际网购平台开发一款多语言翻译系统。当时我还不是项目负责人,只是技术方面的总设计师。设计目标有两个:一是自动翻译所有的网页界面文字,二是为作为阿里旺旺的内嵌翻译支持,让使用各种语言的人可以直接交谈,同时处理语音和文字翻译。你们有些人可能没听说过旺旺,因为它已经被这个内嵌反过来吞并了。网购平台也是这样——本来它定了个名字叫‘世界宝’。现在,这些都通称‘万国宝’。所以先澄清一点:现在我谈到的万国宝,不是指网购平台也不是从前的旺旺,专指我设计的人工智能翻译系统。到这个定义需要改变的时候,我会提醒你们。
“这个项目本来不应该存在。因为在2025年,谷歌的人工智能翻译技术已经很成熟。集团内部开预研会,我的第一反应是:为什么还要自己发明轮子?把谷歌翻译嵌进去不就行了吗?当时谷歌的自然语言翻译产品除了谷歌翻译,还有谷歌数字助理、谷歌duplex。三个内核揉在一起再进行二次开发,恰好能满足我们的需求。这些产品的接口也非常友好。
“开完会我就明白为什么了。万国宝能够出生,还得感谢您。”他向国务卿点了点头,“那时美国商务部由您主持,认定谷歌的自然语言人工智能是战略技术。可以让我们当用户,但不能嫁接在与美国企业竞争的阿里平台上。那个合作才谈了个意向,就被你砍掉了。我们只能另起炉灶。”
美国代表团的译员非常出色,几乎同时说完。国务卿毫不介意,也笑着点头。
“怎么做呢?还得用谷歌的东西。因为那时候谷歌的tenrflow平台几乎统一了机器学习开发模式,已经为自然语言ai提供两种架构。我们用它搭好架子,搞自己的局部算法就行了。2027年我们的系统已经上线试运行。水平还真的不错,比谷歌翻译公开版的正确率和拟人度还高一点。当时,我和谷歌的朋友霍桑聊天,在背后笑话你。我说你砍了商务项目,但没法砍谷歌的开放ai标准,这等于强行给我灌输美国技术思想的精华。霍桑说你不但让谷歌少挣了钱,又逼着中国ai产业补短板,将来还不受限制,都是‘开枪射自己的脚’。他已经过世了,我不妨告诉你。”
这次国务卿面无表情。张翰相当吃惊:什么时候图海川说话这么嚣张过?他现在脑浆温度是有多高?
“2027年的事你们应该还记得。阿里低估了关税问题和跨国物流的复杂。加上那时候世界很乱,各大市场的准入标准也被人为收紧了。整整一年,各国先争吵,再谈判,越谈越糊涂。‘世界宝’上不了线,一拖就是十年,直到把自己的名字都拖没了。万国宝项目组倒是闲了下来。原先赶进度,有很多功夫没有做到位。从2028年开始可以坐下来慢慢改进、反复琢磨。但是,到年底我就撞上了墙。
“那时的万国宝翻译网购平台文字界面,几乎做到了完美。不仅是标准文字,一张商品图片上的中文它都可以立即识别、翻译、改图嵌入。麻烦出在真人交流,尤其是语音会话。当时困扰我的有三个大问题:第一,它搞不懂讽刺。第二,它无法处理很多种修辞,特别是隐喻和指代。第三,遇到语境决定语意的情况就犯蒙。
“前两个问题我用一个真实的内测例子说明。测试员作为中国卖家挂出了恐龙蛋化石商品,一个美国买家向他询问来源和真伪。中国卖家一番解释之后,美国买家说:‘yeah right! i too have an ocean front nevada to sell you’万国宝的翻译:‘真不错!我在内华达州有一套海景房,也可以卖给你。’中国卖家听了非常兴奋,催他下单,说下单之后大家可以聊房地产。”
听众已经笑倒了一片,译员们笑得尤其厉害。
图海川一本正经继续:“后来的万国宝是这样翻译的:‘老板实在!我有块地皮在中南海,你买不买?’在座的人类很容易理解,这才是美国买家的本意。那么我们和后来的万国宝有什么共同点?和以前的万国宝又有什么不同?我们知道内华达不靠海。我们起码经历过几百次别人说yeah right的场合。后来的万国宝会把英语隐喻置换成类似的汉语隐喻,甚至使用类似的土鳖语气,就像各位译员刚才脑子里转的弯。
“当时我设想的解决方法是:把yeah right之类的常用短语,以及后面那个土味浓厚的美国俗语,分别归入‘讽刺’和‘俗语’类型,各自用一个深度学习网络层处理。但这也不能完全解决问题——你架不住随时有人发明新俗语、新黑话。更架不住真的有人说yeah right,表示同意。这就是我刚才说的第三个问题:语境决定语意。这才是最广泛、最无解的问题。汉语中尤其严
↑返回顶部↑