- 最后登录
- 2014-7-24
- 注册时间
- 2011-12-2
- 阅读权限
- 50
- 积分
- 1450
- 纳金币
- 1448
- 精华
- 0
|
和机器说话,由机器完成任务—这是人类进入工业社会之后最主要的科学幻想主题。自从人工智能之父图灵提出机器是否可以思考的问题以后,50多年以来好莱坞通过《星际迷航(Star Trek)》、《2001太空漫游》、《瓦力》等电影反复告诉人们一定会寻找到肯定的答案。现在,它正来临。很多人随身携带的手机,正在变为那台想象中的机器—内置Siri的iPhone 4S已成为目前门槛最低的人工智能设备。
人们对Siri的热情,除了表现在与Siri各种奇特的对话之外,美国的科技爱好者纷纷自己动手,将Siri改造成可以发动汽车、调控温度、开灯、拉窗帘的语音开关。从“帮我拨通一个电话”到“帮我做一顿饭”之间还有多大距离?手中拥有一部iPhone 4S的人给出的预测显然会更为乐观。
由Siri成为主流应用可以得出的判断是,语音智能将成为人与网络、人与机器连接的一个新入口。虽然微软、谷歌、IBM等在语音和人工智能领域各有布局,但更善于将技术人性化、产品化的苹果又一次站在了改变产业的位置上。
鼠标和Siri,两者最初都是斯坦福国际研究所(SRI International)的技术项目,虽非苹果原创,却都在其商用开发之下,进入普通消费者的世界。前者早已成为计算机标配,后者则正在掀动一场新变革。
巧合的是背后有一贯的逻辑:让计算机更人性化。计算机语言抽象难懂,初期只能用键盘输入制式的命令。而苹果一直在缩短计算机与人的距离,将抽象转变为直感的体验—鼠标可以在视觉化的图形界面上操作;多点触屏可以直接用手指控制;Siri则是用交谈的方式完成任务。它们受到大众市场追捧,正因为其接近人类与世界互动的自然方式。
进化
很多人把Siri与语音识别简单等同起来。实际上,语音识别只是其前端的交互方式。更为重要的是其后端—即如何智能地理解用户的意思,并通过与IOS操作系统的集成,以及与Yelp等网络服务或知识库的集成,自动完成各种任务。
乔布斯在去年接受访问时曾提到:“Siri是一家人工智能的公司。”这也正是Siri与微软Tellme、谷歌Voice Action等语音识别或语音控制产品的重要区别。一个最简单的例子是,当你询问Siri:“纽约的天气情况如何?”并获得答案以后,如果继续问:“那么伦敦呢?”SIri也能够明白你问的还是天气。它能够处理自然语言,并且在语境中作连贯的理解和回应。而Tellme更类似于语音识别后的信息搜索;Google Voice Action虽然可以触发任务,但必须使用设定的命令语句而非自然语言,可是普通用户并不喜欢记忆一堆指令。
Siri源于美国国防高级研究计划局(DARPA)庞大的人工智能项目的一部分。始于2003年的CALO(Cognitive Assistant that Learns and Organizes,即能够学习和组织的具有认知能力的助手)项目汇集了斯坦福、麻省理工、卡耐基梅隆等25所顶级大学和商业研究机构的300多名研究人员。2007年该项目结束之时,项目协作方之一的斯坦福国际研究所,认识到其中巨大的商业机会,通过继续募集资金和组建团队,成立了Siri团队,李嘉诚基金会也是投资者之一。Siri最初作为iPhone的第三方应用,通过和其它应用的合作,让用户以语音完成预定餐馆、出租车、行事日程更新等。2010年2月推出升级版的应用之后,它很快就成为了生活类应用的第一名。
乔布斯去世前一年多的时光中,有相当一部分投注在Siri上。2010年3月,喜欢这款应用的他亲自致电Siri的联合创始人兼CEO戴格·吉特拉斯(Dag Kittlaus)进行商谈;一个多月以后,苹果宣布对Siri的收购。随后的一年多时间里,Siri被整合到了IOS5系统中,并成为乔布斯谢幕前留给众人的又一次惊叹。
追求完美和细节的苹果,并不像Google那样常常推出测试产品(Gmail曾有5年多时间都是Beta版)。Siri却例外地挂着Beta的标签。虽然喜爱者甚众,也有许多失望的用户抱怨测试版—对口音的识别能力太弱;对模糊语言的理解能力不如预期;可以执行的任务太少,譬如不能添加联系人、无法控制其它第三方应用。
Siri正在加紧和系统的整合。苹果内部也还在探索中,会慢慢先在苹果自己的应用里面做siri的整合,学习更多东西。“譬如苹果的新应用‘Find My Friend’就和Siri整合了。苹果对于人工智能的想法比较动态和超前,可能会有比目前制式的API架构更先进的协议。”和苹果的团队保持着联系的William Wei(魏国章)告诉《环球企业家》。他1993年加入乔布斯团队NeXT公司,1997年随乔布斯进入苹果。
入口之争
竞争对手们也感受到了压力。谷歌董事长埃里克·施密特(Eric Schmidt)在近期对应反垄断质询的声明中说道:“历史表明,流行的技术总是被全新的模式取代。就在反垄断听证会几个礼拜以后,苹果通过Siri开启了一个全新的进入搜索技术的方式。”他援引了著名的科技评论者MG Sigler的观点说:“每个人都坚持苹果最终将会进入搜索引擎行业,苹果确实这么做了,只是它用了人们都没想到的方式。Siri成为了搜索的入口。”实际上,Siri不仅可能成为搜索的入口,它还可能成为各种网络服务甚至硬件设备的新入口。
Beta版的Siri只是一个开始。它极有可能不断扩展,并成为开放性的平台。Siri的第一轮投资者Gary Morgenthaler这样预测未来:“Siri的结构是一个可扩展的平台,新的领域(例如电子商务、个人记忆、体育、博客、新闻、社交等)可以在几周内加入。通过每个季度不断加入新的领域,Siri可以高效地大幅提升智能。除此之外,Siri还可由第三方开发者拓展,他们可以加入特定领域的专长(例如旅游、娱乐、餐饮、本地服务等)。目标是让Siri成为一个开放平台,让Siri开发者建立起有价值的事业。现在的苹果开发者平台已经有超过十万开发者了。”
而在魏国章看来,融合iOS5+iCloud+Siri的推出与接下来的发展,苹果将把整个移动产业带到人工智能大领域里。开发者将拥有新的API和新服务工具来创造出下一代的新软件并带领着使用者去真正体验“虚拟个人助理”的新纪元,而不再局限于那小小的屏幕。
对于微软、谷歌等巨头来说,虽然暂落下风,但这场新的竞争才刚开始。谷歌的语音搜索、微软的自然语言研究都具有强大实力。同时,人工智能和语音识别技术在美国发展了几十年,有相当一批顶尖的实验室及关联企业。和苹果类似,谷歌等公司若能收购并整合创造出突破性模式的企业,仍将有复盘的机会。而另一方面,语音智能也只是未来趋势的一脉。微软的kinect所代表的体感技术,同样是缩短人与机器距离的强大力量,Kinect结合的语音功能也在不断提升中。
在国内,中文的语音识别也有已经较为成熟并投入消费应用的技术。上市企业科大讯飞的高级副总裁、研究院院长胡郁告诉本刊,讯飞口讯、讯飞输入法等主要产品,总计有800万下载用户,每天有200万次语音交互。同时其技术也在新浪微博的语音搜索中使用,腾讯则获得其语音能力的授权,正在研发相关产品。在他看来,语音智能之所以现在爆发,与移动互联网和云计算紧密相关。有了移动设备的普及,人们对于便捷的语音有更强烈的需求;同时,这种语音智能的交互计算量很大,有了云计算才能够完成复杂的计算。
不过相比美国,中国在人工智能和操作系统的技术上仍有很大差距,因此在短期内产生和Siri同级别的产品,可能性甚微。苹果网站的FAQ中提到,明年Siri将会提供中文服务。如果Siri能够与中国的网络服务提供者(如大众点评等)、第三方开发者建立良好的合作,将会给中国语音智能行业内的企业带来更大的挑战。对更多想要在这一领域淘金的中国公司来说,在苹果平台上开发Siri有关的应用,依然将是短期内最主流的方式。
|
|