前言:本文是团员Lily的第1篇分享输出,质量还是不错的,有些基于自己实战的感触和判断,并能通过自己总结的逻辑图来清晰阐述讯飞iFLYOS和百度DUEROS的区别。欢迎有更多的团员们也来分享你的AI干货~
去年这个时候,由于项目需要,我对各语音平台产品做了一点调研,当时觉得大部分产品都很不完善,比如当时百度DUEROS 2.0刚刚发布,使用文档写的有些混乱,试用起来让人摸不着头脑;讯飞也还没推出OS,只有一个AIUI开放平台。今年回过头再看这些语音平台产品,不论是功能丰富性还是成熟度都进步了一大截。各大公司也都在推自己的平台或者OS,百度有DUEROS、阿里有AliGenie、讯飞有iFLYOS、图灵有TuringOS、思必驰有DUI...研究完我竟然有一种老母亲看着自己孩子长大了的欣慰之情……
一、啥是语音操作系统(OS)
语音操作系统类比于我们熟悉的电脑操作系统,电脑操作系统主要为用户提供了操作界面(交互方式)、各种软件可以运行在操作系统上。对应的,语音操作系统提供了语音作为交互方式、可以调用各种技能。
和语音OS经常捆绑销售的另一个概念是开放平台。通过开放平台,各种第三方的设备、技能、内容可以接入到OS中。拆开来看,设备开放平台的感觉有点类似我生产一个手机,手机需要安卓系统,系统本身是不用我开发的,我只需要接入就好。技能开放平台的概念像是开发者模式,通过平台可以配置交互流程以完成一定的功能,最终可以发布在技能商店(类比于app store)。平台的目的是丰富OS生态,安卓为啥厉害呀,不就是大多数移动设备愿意使用它作为操作系统,全世界有成千上万的公司和开发者依托它开发应用,生态丰富用户就多了,用户多了商业价值自然就有了呀
二、讯飞iFLYOS v.s 百度DUEROS
之所以选这两个产品对比,一是因为都是我试用过的平台,比较熟悉;二是因为讯飞和百度分别代表了传统语音技术起家的公司和互联网大厂,他们是未来语音OS最大的竞争对手,比较具有代表性。
1、讯飞iFLYOS
(图1)
iFLYOS的主要功能可以分为四大块:
1)设备接入:是指电视、音箱、甚至是芯片等硬件设备通过SDK或者api的方式搭载iFLYOS,从而获得语音交互能力
2)服务接入:又分为智能家居接入和内容接入。
A)通过智能家居接入,主控设备可以控制接入的各智能家居(如灯、路由器、电视、冰箱)
B)内容(如有声读物、新闻、自媒体)接入后,用户可以订阅内容或直接访问播放。
C)设备接入和智能家居接入的区别:这两个概念有点容易混淆,先开始我觉得这两个不是一个意思嘛,设备也可以是智能家居啊,其实举个栗子就明白了。我有个音箱但是不智能,我想让它变成有语音交互功能的智能音箱,于是我给它安装sdk或者api,然后通过sdk或者api给iFLYOS发送请求(一段语音),后边的都交给iFLYOS啦,我等着执行返回的数据(另一段语音或者一个操作)就可以了。这是设备接入,让你的设备具有语音交互的能力。后来我觉得这样还不够智能,我想用它控制家里的灯,这样我睡觉时候就不用先关了灯再摸黑了。于是我购买了一个已经接入了iFLYOS的大米牌电灯,这时候我对我的音箱说“关灯”,iFLYOS会给大米牌电灯发送请求让它关闭,这就是智能家居接入,通过主控设备(我的音箱)可以实现控制接入了OS的智能家居
3)技能工作室:技能可以类比于app,只不过把屏幕和触摸屏操作换成了语音交互。技能工作室为开发者提供了技能设计、开发、测试、发布、优化的工具,开发完成后的技能可以发布到技能商店。另外官方也提供了很多基础技能,比如打电话、查天气等
4)AIUI:官方定义是“AIUI 是科大讯飞提供的一套人机智能交互解决方案”,个人理解是通过AIUI可以快速配置出一套个性化的语音产品:包括设置语音识别偏好(比如普通话还是四川话)、自定义问答对、自定义技能等等。感觉AIUI的概念和设备接入有点类似,只不过可以配置的内容要多于设备接入,而且AIUI应用感觉更偏软件,而设备接入更偏硬件。官网AIUI的入口已经被取消了,目前只能从资源中心找到,可能未来是要和设备接入融合的。
(图2)
iFLYOS的逻辑大概是:用户从软/硬件的语音入口,利用iFLYOS提供的ASR、NLU、TTS能力进行语音交互,调用技能、获取内容和控制智能家居。基于这样的逻辑,讯飞现在在做的就是拓展入口和丰富内容。iFLYOS提供的服务中,设备接入和AIUI平台服务于拓展入口,技能工作室、服务接入服务于丰富内容。
2、百度DUEROS
(图3)
DUEROS和讯飞提供的功能大体一致,但是架构逻辑明显更加清楚一些(我可能是逻辑强迫症患者本人)。功能主要分为两个部分,一是技能平台,二是设备平台。
1)技能平台≈讯飞技能工作室+服务接入,通过上边总结的图2也可以看出来这些服务都是在内容侧的,这就是为啥我觉得这个架构要比讯飞的逻辑清楚。
2)设备平台≈讯飞设备接入+AIUI的一部分功能。DUEROS设备平台的功能已经融合了一部分AIUI提供的功能,比如可以添加自定义控制指令。但目前DUEROS好像还不支持使用自定义技能和问答对这种选项,相比之下讯飞AIUI的定位可能更偏“定制化”一些。
(图4)
对比图4和图2可以发现,逻辑几乎是一毛一样的!对此我表示一点都不意外,看一下阿里的Ali Genie也基本是这个套路。
三、小结
总结一下,语音OS+开放平台起到连接入口和内容的作用。入口侧的软硬件产品需要丰富的内容增加可玩性、可用性,内容侧的技能、内容和智能设备需要更多的入口带来更多的用户和流量,同时两者都需要的ASR、NLU、TTS、bot等核心技术的赋能。语音OS正好起到一个桥梁作用,满足了各方的需求。
在产品逻辑和服务都雷同的情况下,各语音OS比拼的可能就是其他能力了。
百度这样互联网公司的优势,一是平台能力肯定是要强于讯飞们的。二是在内容端BAT自带流量、多年在各自领域积累的内容和已经比较成熟的生态。如果我是2C的设备商或者开发者,我的产品最终是要面向大众用户的,这些对我来说都是非常有吸引力的加分项。
讯飞这样的技术起家的公司优势是什么呢?我觉得虽然讯飞们在ASR、TTS技术方面的确有一定的优势,但是作为商业产品,各厂的差别并没有那么大,对于商业来说大家的技术都基本够用了。除去技术方面,讯飞的优势可能就是多年在B端做解决方案积累的资源了。举个我自己的栗子,之前我们有个需求场景要求是离线或者私有云部署,这种场景BAT大厂一般是不愿意做的,加上公司之前和讯飞就建立了合作关系,所以自然而然的就联系到了讯飞。我想这种情况应该不是个例,所以大胆预测一下,讯飞之后的发展路线可能仍然是在B端(尤其是国企、政府)深耕,扮演一个用技术给其他想要转型的传统公司赋能的角色。这样看,AIUI定制化的思路就很契合这种发展路线。但是现在AIUI的入口被放的那么深,可见讯飞官方没有把这块作为日后主要的业务方向,就给人一种“想做的和能做的不太对等”的尴尬感觉。
对于一个2B细分领域的产品(想象一下,比如我的产品是面向法院的工作人员查询相关案例),我的用户范围非常非常有限,需要的技能也固定且较为单一,BAT的流量、内容、生态在我这儿都没有用武之地。在我之前遇到的需求场景中,我们的要求真的很低,需要的仅仅是一套在非公有云环境下可用的产品,如果能对行业数据和专业词典做出优化那就太好了。最后我们选择了和讯飞合作,因为他们能解决“私有部署”+“定制化训练语料”的需求,虽然真的很贵(一旦涉及到“定制化”这个词,那成本真的就很高了)。如果有一个公司能针对我所在的行业给出一套优化过的解决方案,我一定会毫不犹豫的选择它!
所以着眼于垂直行业也是语音技术公司的另一种发展思路。比如TuringOS,同是做语音OS,它的画风和iFLYOS、DUEROS就不太一样,官方定义就特别强调了“专为儿童场景设计”,语音识别针对儿童进行了优化,技能也更多是教育向的。在做大而全的平台不占优势的情况下,focus在小而美的垂直领域也不失为一个明智之选。
-END-
以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan.guokr.net/groups/219/ (如果遇到支付问题,请先关注饭团的官方微信服务号“fantuan-app”)
---------------------
作者:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,6年AI实战经验,9年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。