我们也请来了天猫精灵、小米音箱、Rokid(若琪)以及叮咚音箱,这些渡鸦音箱的「兄弟们」将与它一起接管我们的考验。
撰文 | 宇多田

在今年三个多小时的天下大会主论坛上,百度把一半韶光都留给了渡鸦音箱。

这个造型极其吸睛的四色正方体,暂时代替了无人车,成为李彦宏唯一揣到兜里带到乌镇互联网大会的「百度技能代表作」。
与其他重量级 AI 硬件厂商比较,百度推出这款音箱的韶光绝对不能算早。
在已经有了阿里、小米、京东等一众巨子摇旗叫嚣的智能音箱市场,大概只有百度自己知道,这款姗姗来迟,且并不便宜的音箱,到底能不能让消费者买账。
渡鸦音箱 Raven H,市场价格 1699 元
如何来衡量它呢?
对付一款普通音箱来说,音质一定是重中之重;而智能音箱,标准则要繁芜太多。
不过,各家厂商最不愿听的,实在不是「音质差」,而是被叫做「智障」。
虽然在某种程度上,截止目前,这个称呼安在任何一家音箱上都险些没差(谁用谁知道)。但在一定范围内,由于语音交互系统这个内核各不相同,各厂智能的音箱表现的确差异较大。
换句话说,在材质、音质、语音交互体验以及内容资源等多个评测维度中,后两者更为关键且联系紧密。
而对付要自称要 All in AI 的百度,虽然在良久之前就开始把 DuerOS(语音交互开放平台)嵌入到大大小小其他品牌的硬件产品中,而这次自家硬件的出身,或许对付DuerOS连续招揽硬件买卖起到「样板」浸染。
没错,这是第一款可以让大众直接考验百度 AI 技能软硬实力的消费级产品。
拿景鲲的话来说,百度便是要通过这个音箱来见告大众,什么才是不裹挟于本钱与市场竞争的用户体验,为什么 DuerOS 才是真正的家当领导者·。
「无论从颜值、声音,还是内容和交互,渡鸦都是音箱类产品的标杆。有浩瀚竞品是非常好的,由于这样市场会越来越大,但在音箱市场,我们想着重用户体验的打破,也该当有 iPhone 这样的定位。」
「软」要做 AI 时期的安卓,「硬」要做音箱界的 iPhone,百度的胃口不可谓不大。但这款音箱能否承「义务之重」,以下评测,算是渡鸦正式进入市场前的一个「小测验」吧。
渡鸦 Raven H 由主机和 touch 两部分组成。touch 便是手里的这块点阵屏,可单独拆卸作为远程触控板进行主机的操控,譬如你上厕所,就可拿着这个小屏掌握寝室音箱
作为第一个拿到渡鸦音箱的垂直新媒体,我们首先并没有被它颜色鲜艳,且「风格清奇」的外不雅观所迷惑(听说直男相称喜好)。
但把它拿在手上反复摩挲,溘然可以理解这番「想做音箱界 iPhone」的野心。这种被称为 Kalix 的箱体材料,有一种差异于常用普通硬件塑料或网布的特殊触感(掺杂了颗粒感的顺滑)。
4 种颜色的搭配,是选择了色彩学中的德国工业标准色 RAL 体系)
而这种分外的触感以及着色工艺,据称是渡鸦团队与比利时著名化学材料供应商 Solvey 的博士们协作几个月后才终极拍板的方案。
还有这个酷似乐高玩具的奇特造型,则在很大程度上出自瑞典著名消费品设计公司 Teenage Engineering 的手笔。
渡鸦的产品经理一贯向我们贯注灌注一种「美学与艺术优先」的产品理念,但我们知道,比拟市情上其他音箱,这里面肯定有一笔不菲的设计费与材料费。
其余,如果这是一款美到爆表的音箱,但是「智商」和「功能」却低于市场均匀水平,你乐意买一个这样的摆件回去,还是选择那些「穿着秋裤」,但价格相对低廉的普通柱状音箱?
因此,重点来了,「用户体验」才是我们最关心的。换言之,这次测试也是我们对 DuerOS 的一次磨练。
为了能够全方位「折磨」出渡鸦音箱语音交互系统的各项水平,我们也请来了天猫精灵、小米音箱、Rokid(若琪)以及叮咚音箱,从「语音识别」、「语义理解」、「问题反馈」(包括多轮对话,能供应的技能与做事数量)等多个维度对这四款音箱进行横向评测:
从左到右分别是叮咚音箱、天猫精灵、渡鸦音箱、Rokid、小米音箱
远近场语音唤醒
对声音的捕捉,是智能音箱开始实行你指令的第一步。如果这款音箱能够有效过滤环境噪音,准确捕捉较远、较小的声音及指令,那么它才能连续「读懂」你的命令,进而做出合理的反馈。
在这一环节,我们首先在担保唤醒音量同等的条件下,从间隔远近对 4 款音箱进行测试。
首先,在相对安静的环境中(只有窃窃密语声),我们分别在间隔不到 1 米处,3 米处以及 5 米处,对四个音箱进行唤醒。
第二轮中,我们又将音箱播放的音乐调至 100 分贝,在间隔音箱不到 1 米处和 3 米处进行唤醒,结果如下:
从这个结果来看,市情上大厂产品的远场识别的水平线基本同等。
但有一个很明显的问题,叮咚音箱与 Rokid 都是仅用闪烁灯(无声音)来提示用户「已被唤醒」,但在站着(明显高于音箱时,我们看不清 Rokid 的闪烁灯)或者是背对音箱的角度,我们有时候难以知晓音箱是否已经被唤醒。
一、远近场语音识别:
同样是基于不同的间隔维度(小于 1 米、3 米、5 米),在相对安静的环境以及提问音量同等的条件下,我们分别问了 5 个音箱两个很根本的问题:
(1)北京景象怎么样?
(2)李彦宏是谁?
5 款音箱的表现如下:
这个结果同样看不出各个音箱背后的语音交互系统在语音识别方面的明显差异。
二、中英文稠浊语音识别
虽然各家音箱都表示可以进行「中英文稠浊识别」(提醒一下:他们单独识别英文的水平险些为 0),但识别效果显然还是有些许差距。
我们问了这样几个问题,只能说,不要太过于期望海内音箱给你播想听的英文歌:
1、我想听 Justin Bieber 的歌
2、我想听 Alexander Jean 的歌
3、我想听 What do you mean
4、什么是 Tensorflow?
5、试了多少首不是小贾(Justin Bieber)和霉霉(Taylor Swift)唱的英文歌(结果……很不理想)
结果如下:
很明显,作为大 IP 和点播率较高的外洋歌手,Justin Bieber 与 Taylor Swift 的歌猜想之中地好识别,险些 5 款音箱都准确识别出这两位歌手的英文名字。
但其他歌手就非常不理想了,譬如 Alexander Jean,只管虾米音乐(阿里)与百度音乐(百度)曲库里都有他们的歌,但音箱都识别不出这个乐队。
而作为 Justin Bieber 的热门歌曲,What do you mean 的识别准确率普遍相对较高。
但在5款音箱中,对付其他稍冷门国外歌手的作品,无论发音多么大略,所有音箱的识别率都较低。
而一些英文专有名词,譬如 Tensorflow……还是不要难为海内的音箱了。这就像跟让 Google Home 说中文一样,绝对不能强求。
三、句子里只有单个关键词的语义识别:
如果说语音识别的准确率大同小异,那么音箱交互体验的差距或许会在语义识别方面逐渐显现。
在顺利捕捉到你的声音,并将这些仿照音频旗子暗记进行数字化处理(语音识别)后,关键的一步来了:对这些文本信息进行剖析,「读懂」这些信息,然后才能给出一个精确的反馈。
这里的「基于单个关键词」,指的是句式中的主语一样平常只有一个,无形容词(范围限定词)。音箱在识别并剖析单个关键词后,便能给出准确答案。
譬如:什么是 A,B 怎么样,来点 C。
我们问了 5 个问题,都是这种大略的句式:
1、刘强东是谁?
2、设个闹钟
3、放首周杰伦的歌
4、来点相声
5、想听娱乐新闻
而结果如下:
所有问题都有精确的反馈。
个中,对付「刘强东是谁」,Rokid 的回答稍大略,而其他音箱的答案彷佛都搬出了百度或其他百科词条。
而「设定闹钟」这个问题,天猫精灵、小米音箱、渡鸦可以进行「多轮问答」,也便是说,能够针对详细韶光进行二次确认。
实际上,除了语音和语义识别的准确率,音箱能否针对问题本身进行反馈,还涉及到其背后节制的内容资源的丰富程度(内容布局,你懂得)。
个中,在提出「来点娱乐新闻」这个哀求时,天猫精灵的回答明确指出「娱乐新闻」紧张来自微博,而渡鸦的娱乐新闻紧张来自百度搜索,其他音箱的新闻则没有指明详细来源。
而对付「来点相声」这个问题,这些音箱的内容源险些都来自喜马拉雅。
四、句中涉及多个关键词的语义识别
对付关键词较多,语句相对繁芜的问题,各个音箱「理解能力」开始有了明显的差距。我们问了以下 5 个问题,反馈各不相同:
1、刘强东的老婆/妻子是谁?(也同样问了「刘强东的女朋友是谁」)
2、爱因斯坦什么时候提出的相对论?(相对论是什么时候提出的)
3、我想听励志的歌曲(我想听励志的中文歌)
4、想听海内的科技新闻
5、我只想听周杰伦、孙燕姿和陈奕迅这三个人的歌。
通过增加了问题的繁芜性,我们得到了一些非常故意思的反馈。
无论是「老婆」还是「妻子」,渡鸦音箱、小米音箱都可以给出精确的答案,而京东旗下的叮咚音箱,则一下子回答是「章泽天」,一下子表示「我不关心这类八卦」……
而提到「女朋友」,只有叮咚音箱给了精确回答。
值得把稳的是,虽然「女朋友」是一个缺点的事实,但是对付我们人类来说,出于本能,都会回答出跟「老婆」一样的答案。
而「相对论」这个问题,渡鸦音箱表现得更为精良。
除了有技能方面的缘故原由外,百度产品经理还认为这跟公司的搜索与百科基因有很大关系。他表示,「只要涉及到知识问答一类的问题,百度的强大就会显露出来」。此外,小米的表现也相对不错。
而给音乐限定范围的问题,大多表现都不太好,只有渡鸦和天猫精灵在音乐的限定范围内给出了精确的答案。
不过,涉及到有范围限定的新闻,则「全军覆没」。
值得把稳的是,对付末了一个问题,渡鸦的表现的确有些让人意外,由于这种多个关键词的识别与理解难度很大。我们连续听到渡鸦播放的歌曲,的确依次是「周杰伦」「孙燕姿」以及「陈奕迅」的歌。
至于为何能做到这个问题,百度给机器之能的回答显得大略粗暴:「这便是百度在自然措辞处理技能上的一个创新点,是一个创新的产品功能。」
五、多轮问答
知乎专栏一位叫「我偏笑」的 AI 产品经理揭橥了这样一个不雅观点:
自然措辞解析技能已经逐渐不再成为各家广义智能助理产品的核心竞争力,而识别用户意图之后所供应的做事开始成为对话机器人差异化的核心。
这里的「后续做事」,就包括「多轮对话体验」。
他认为,在识别用户意图后,为了帮助你在多种可行方案中做出选择,语音交互系统该当通过多次交互终极实行你的明确指令。
在我们对 5 款音箱的体验中,除了「设定闹钟」,「问询股价」,以及天猫精灵的「购物」与「充话费」等大略的多轮对话设定外,很少有可以进行多轮对话的问题(这里指,不须要每下一个指令就叫「唤醒词」的连续作答)。
但渡鸦音箱在音乐单领域的「多轮问答」表现,体验还不错。
举个例子,在说「我想听运动的歌」,音箱开始播放音乐之后;你可以再次唤醒它(说句「小度小度」),并接着提出哀求——「播放中文的」,这时音箱就默认为「你要听运动的中文歌曲」,继而实行命令。
以下问题,经由我们的测试,在进行二次唤醒后,都可以针对上个问题进行第二次「缩小范围的设定」,而其他音箱暂时做不到这些。
不知作为用户的你,是否认为这是一种必要的对话流程。
当然,如果是混领域的多轮问答,譬如“本日北京景象怎么样?”“帮我查一下从北京到上海的机票”,这些对话由于涉及到技能、内容资源等多个维度,以是暂时市情上险些所有音箱都达不到这个效果。
六、反馈处理-音箱功能的丰富性
我们在刚才已经提到了,每个音箱针对问题的回答,除了跟系统能否有效识别和剖析你的指令有关,还有一个很主要的成分——音箱的内容资源与语料库能否支持你想要的这个功能。
换言之,便是音箱背后的生态实力是否足够强大。
我们从用户比较常用的三个维度列出了一个简单的功能表,而各家可以实现的功能,在很大程度上取决于自家厂商的生态基因。
但须要把稳的是,这一定属于智能人机交互产品的核心竞争力——「后续做事」(上面已经提到)中的一个主要维度。
很明显,从功能的丰富性与背景基因来看,创业公司会有些许劣势。
而对付大厂来说,各家有各家的上风,譬如阿里的天猫精灵与京东的叮咚更善于 O2O 功能,而可以接入小米(其本身就有一个弘大的硬件王国)和渡鸦的智能硬件数量(DuorOS 起步较早)则看起来更加可不雅观。
综上所述,根据我们对音箱「语音交互体验」这个维度的评测显示,刚刚面市的渡鸦音箱的实力还是不容小觑的,乃至在「多轮对话」方面明显高人一筹。
也便是说,渡鸦音箱中 DuorOS 供应的交互体验,在某种程度上认证了百度的技能实力。
但是我们须要清楚的是,一个音箱是否能赢得市场,除了交互体验,音质、价格、交货能力(产能)以及可以连接的硬件数量也将是磨练产品的主要维度。
对付渡鸦来说,在交互体验过关后,面对市场,仍旧还有很长一段路要走。










