柳传志、李开复谈科大讯飞和语音识别那些事儿

 

3 月 22 日下午,科大讯飞在北京国家会议中心发布新一代“语音云”平台,“捎带”发布了“中文版 Siri ”应用讯飞语点。

这里用“捎带”形容现场的情况是最恰当的:科大讯飞 CEO 刘庆峰作完演讲后,邀请大家共同开启“语音云”时代,掌声落毕,他马上补充说“抱歉,忘了一个环节”,然后由工作人员从台下拿上来一部智能手机,开始演示 “讯飞语点”的 Demo。这个桥段让人不由得想起乔帮主“One more thing…”的遗风。

科大讯飞的“语音云”平台是面向开发者和合作伙伴的,今天不是第一次发布,早在 2010 年 10 月就已经发布了第一版(当时股价大涨)。但今天的大会无疑是讯飞“开发者大会”历史上最火爆的一场,根据讯飞副总江涛(活动现场总指挥)的估算,现场“来了 2000 多人”。我下午 2 点半进场,那时工作人员还在不断地添加凳子,讯飞的人员在跟国家会议中心工作人员沟通:“实在出乎意料,来的人太多了”。

“语音云”发布会 

发布会很精彩,我已经联系了江涛,请他提供刘庆峰在现场演讲用的 PPT,感兴趣的朋友请关注本文的更新,或邮件我(lonzon#ifanr.com)。在现场我也拍了一些 PPT 照片,与大家分享。

首先来看一张发布会之前的观众席照片,微博上有评论说“比腾讯的场子都大”。国家会议中心的四层大会堂 B 大厅座无虚席,甚至开放了第二层。江涛在微博上的评论是“感谢苹果对市场的教育”。不过与现场的热度不同,资本市场反应冷淡,甚至股价还下跌了 0.2 元人民币,跌幅 0.53%,报收 37.7 元。

这是一些采用讯飞“语音云”技术的应用,包括新浪微博、搜狐微博、365 日历等等。我们采访过的虫洞也是采用讯飞语音云技术,但虫洞在其上面进行了优化。根据刘庆峰现场的介绍,科大讯飞开发伙伴达到 3100 家,终端用户超过 3000 万,总请求量超过 700 万次,这一数字与虫洞的 2 亿条还有较大差距。

科大讯飞现在支持多国语种识别,也支持国内的方言识别,在美国国家标准技术研究院(NIST)的语种识别 9 项评测中 7 个排名第一。而语音合成系统方面,也支持了中、英、法、俄等语言。

现场刘庆峰播放了一段合成后的《新闻联播》开场片头,当时发布会时间是 3 月 22 日 15 时 19 分,视频中出现的声音是“欢迎收看 3 月 22 日新闻联播”,如果不仔细听的话,还真的以为是李瑞英、康辉的声音。我听到 3 月 22 日的时候,特意看了手机上的时间——15 时 19 分,离新闻联播开始还有 3 个多小时嘛;不过后来康辉说的话多一些的时候,就听出破绽来了。

发布会现场刘庆峰毫不避讳地与竞品进行了多项参数对比(用字母来隐晦表示公司名称),科大讯飞在多项比赛和测试结果中排名第一。当然,发布会开始前 宣传短片中,“中文语音识别该由中国人来做”的口号更能挑起人们的兴奋神经。大家猜一下下图中 N、G、Q 分别是哪个公司?我猜 N、G 一个是为 Siri 提供技术的 Nuance,另一个是 Google。

柳传志寄语创业者

3 月 22 日发布会结束之后,安排了一个高峰论坛,邀请到柳传志、李开复和雷军(南赴珠海领取“荣誉市民”未能到场)来谈“语音时代”。主持人是《商业价值》的主编张鹏

柳传志是科大讯飞寻找投资的“贵人”,柳传志看着科大讯飞长大。而科大讯飞是联想投资成立后“按照正规流程”投资的第一家企业,2001 年的签约仪式也是当时柳传志唯一出席过的一个。

科大讯飞(前身“讯飞”)成立于 1999 年 12 月 30 日,2007 年改名科大讯飞,是一家安徽公司;2001 年 6 月 6 日联想向讯飞投资 800 万元,实际投入 2533 万元;2008 年 5 月 12 日科大讯飞在深圳中小板上市,当时联想持有科大讯飞 880 股股票,占比 8.21%,在上海广信 13.24% 之后;当时刘庆峰本人持股 761 万股,占 7.10%;科大讯飞管理层持股约 20%。

2011 年苹果 iPhone 4S 发布后,借 Siri 的东风,科大讯飞开始慢慢走入普通人视野。在受到大众关注之前,讯飞已经做出了“讯飞语音输入法”这样面向普通用户的 app 产品,但其风头显然不及 Siri 教育大众后,今天下午发布的“中文版 Siri”讯飞语点。

柳传志讲自己投资的理念是“事为主,人为重”,他夸赞刘庆峰,说他“有理想、有胸怀、有能力,有强烈的把科技成果转化为产品的意愿”。不过在讲台 上,柳传志并未一味夸赞,也提了新要求,比如增加语音识别的复杂度,“我现在出去跟别人演示,只敢选择简单常规的问题进行示例,比如‘明天什么天气’,但 生活更加口语和随意,这一点是讯飞应该加强的方面”。

主持人问到柳传志对互联网创业者的寄语,他的回答是“用做实业的态度做互联网”。“创业之前,问题要想清楚,要想盈利模式,仅靠人气劲儿、烧钱是不 对的。而拿了投资后,也要算准钱能烧到什么时候。如果你创业筹来的钱太不容易,‘钱太重’,就要谨慎选择创业。其实创业失败并不是什么,我投的 200 多家企业中,不少是经历失败,吸取经验再创业的;即使后来你不再创业,创业过程中积淀的经验,对于你以后在公司工作也是很大的提升。”

柳传志也以自己的经历,勉励创业者保持“专注”:

身边很多朋友赚了很多钱,我也可以赚很多钱。当年 96、97 年民生银行投资的时候,我被认为最有可能第一个投资的,但我没投。据别人替我估算,如果当时投了那 1 亿多,现在的回报是 2000 多亿,我觉得我不必后悔,身边不断有这样的事儿出现,你说它是好事,它是坏事?这还真不好说,因为我投资赚了这笔钱以后,我也许会想去投房地产、去做别的 更多的事,电脑这条路可能做不成,也许到最后什么都可能做不成。

李开复谈语音识别技术

李开复是第二名上场的嘉宾。众所周知,李开复是著名语音识别技术专家,谈到语音识别,当然少不了由他来现身说法。

事实上,在讯飞发布会之前,李开复曾在微博上对市面上存在的众多“中国 Siri”提出四个疑问

1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?

今天发布会结束后,李开复更新微博:“讯飞语点推出后,2、4 由讯飞解决了”。

事实上,在之前科大讯飞向爱范儿提供的独家稿件中,讯飞一一回答了四个问题,3 月 22 日发布会用实际产品进行了回应。详细内容见文末引用部分。

李开复的“炉边谈话”提供了很多“专家式”的内容。简单整理成问答形式如下。

问:我们看到讯飞语音识别的技术已经非常成熟,那么你认为“应用”的空间在哪里,未来语音识别技术还有什么挑战?

李开复:云端识别技术,讯飞已经解决了。“应用”在哪里?这并不是一些专家在实验室里拍脑袋就能想到的。大家可以来试,可以在讯飞的云平台上试一试,可能成功的会比较少,但能够摸索到成功的应用的概率也会增加。

语音技术方面,主要挑战还有三方面:

  • 一、语音识别相对容易,但语义理解相对困难。让软件听懂容易,但理解会比较难。
  • 二、如果能在一定程度上做到语义理解,那么怎么样让开发者介入不用太花时间?
  • 三、用户体验的期望值。语音是人类最自然交流的方式——与多点触摸不同,一旦人们开始使用语音交互,会有比较大的心理预期:我爱怎么说就怎么说,你应该能理解,这是一个比较长久的挑战。这中间,应该有巧妙方式来降低这种感受。

问:语音技术里面,是不是使用的人越多,语音技术也会愈加成熟?

李开复:当然了,更多人参与,获得更多自动回馈,可以实现一个良性的正向循环方。一个人能力有限,一亿用户,每 人使用 3 秒钟,就是 3 亿秒,这个数据量是庞大的。实际应用中,正确的输入可以被视作是“一次正确训练和学习”,吸收改进;一个错误的结果,比如订餐时识别错误取消订单,可以视 作“不正确的学习”,同样吸收改进。

但这个比“听写”更困难:错了,是语音错了还是语义错了,或者其中一个正确、一个错误;对了,是语音对了语义对了,或者其中一个正确、一个错误。当回馈量大于累计量和使用量,可以让我们迈出一大步。

问:什么样的语音应用是用户期待和接受的?

李开复:我认为有三个方向。1,相对是语音识别,而非深度语义理解的应用,或者说“浅语义,深语音”。比如听写(Demo 中有提到教育领域的听写测试、KTV 评分、发短信、日程提醒),——输入法也很重要,这个比较保险。

2,娱乐性应用,比如 Siri 这样的调侃调戏类应用。这种识别错了也无伤大雅,很爱使用。苹果很聪明,用调侃 Siri 录了很多语音,然后慢慢把真正的应用做好。

3,在一些“眼忙手忙”的场景,这个时候语音需求就会很大,比如驾车的时候,这时候是不能多点触控的,这算一个“刚性需求”的场所。

在这里我建议开发者:想把语音放进来的时候,不是那么容易,因为语音的 API 和语音的用户体验,比一般的 API 要难很多,比如百科全书类、地图、本地商家,O2O,线上模式拉来线下消费,因为有语义部分在里面,要花很多时间去把它调好,不能用简单的 API 随便联接起来。

附:科大讯飞对李开复“中国 Siri 路在何方”的回应稿件

第一,语音助手能够解决什么真正的用户需求?

大多数人提到 Siri,第一印象就是调戏 Siri,但如果一个产品只是用来“调戏”,那这个产品充其量只能算是玩具,而不是人们所必须使用的语音助手。所以,Siri 的定位应该是解决用户的真正需求和痛处。

可惜,目前 Siri 的模仿者大多视这个需求而不见,而是关注如何才能更好的“调戏”用户。相信只有真正做到解决用户需求的产品,才能够获得用户长久的喜爱,希望国内的开发者能够注意这个问题。

Siri 想要实用,就必须调用开放数据的平台,而中国却没有 Wolfram Alpha 这种引擎,所以中文 Siri 想要真正解决用户需求,只能一家一家去谈,比如找大众点评、百科等。这是创业公司做不来的,而大公司(百度、腾讯等)来做,可能又存在利益冲突。

第二,如何克服后台海量数据学习技术门槛?

虽然李开复老师说全球只有一个公司有这个技术,而我们也不知道这个公司具体是指哪一个。但据我了解,在语音识别方面,科大讯飞是做的不错的,讯飞语音输入法的识别率已经达到 85% 以上。而且他们的语音识别是基于云计算实现的,应该是具备数据学习能力的。

除了语音识别,还有一个难题是语义理解,这也是中文 Siri 的核心难题。让机器真正理解人的语言,这是一件很困难的事。就目前来看,苹果在英文方面都没有很好解决,不然也不会有用户要告苹果虚假宣传了。但苹果可以依靠“调戏”用户获得大量语料,然后学习后提升可用度。

可见,语义理解是一个需要不断优化的过程,每一个用户的参与都将对智能语义理解的完善做出奉献。

第三,应用谁开发?

Siri 的前提是要有语音识别功能,这个功能的门槛之高,已经让很多开发者望而却步。幸好,国内有科大讯飞的语音云开放平台,为普通开发者提供了语音识别和语音合 成的功能,让中文 Siri 的开发有了基础,智能 360 和 Airi 等产品就是基于讯飞语音云平台实现的。

作为普通开发者,使用语音云平台研发产品是很正常的。但如果真的想做成 Siri 这种大众性应用,核心技术却掌握在别人手里,这是致命的问题。所以,真正能够做出中文 Siri 应用的,应该还是科大讯飞这种掌握核心技术的公司。

第四,语音服务器的成本太大?

语音服务器的成本问题对于创业公司来说,确实是个大问题。但事实情况是,需要承受这个压力的,可能只有科大讯飞和谷歌,因为一般公司目前连语音技术都没有。

科大讯飞在 2010 年推出了开放的语音云平台,目前用户规模已经达到 2500 万。3 月 22 日,科大讯飞还将发布新一代的语音云,可见科大讯飞对于语音云开放平台的投入力度很大。作为一家上市公司,相信科大讯飞还是有实力克服用户扩张带来的服务 器成本和带宽压力的。