苹果决定删掉一个单词

2023-07-01 05:41:07 来源:果壳网

“Hey Siri”要成为历史了。


(资料图片仅供参考)

今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。

但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?

为什么不要“Hey”了?

对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”,这都叫做“唤醒词”,目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家,你奶喊你:嘿,狗剩~赶紧把院里的鸡喂了去!

如下图所示,语音助手的工作分为四个模块,像人一样,它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。

语音助手的工作模块|作者提供

目前业内公司采取用特定的唤醒词来触发语音助手的方案,比如苹果语音助手 Siri 的唤醒词为“Hey Siri”,小米的是“小爱同学”,阿里的是“天猫精灵”,百度的是“小度小度”,亚马逊 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”(是的这五个都是它的唤醒词)。

Computer是Alexa的唤醒词|Giphy

唤醒词音节越多越复杂,唤醒成功率就会越高,误唤醒率就会越低。但是,在实际使用当中, 更短的唤醒词更受用户的喜爱,特别在用户急于发出指令时。

像三星语音助手的唤醒词是“Hi Bixby”(大致发音为:嗨 碧克斯碧),由 5 个音节构成,但是大量的用户在使用中会减少一个音节,发音为“嗨 碧克斯”或者“嗨 碧斯碧”。

2018 年,微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”,现在轮到 Siri。“Hey Siri”由三个音节构成,“Siri”由两个音节构成。虽然只是少一个音节,但也是语音助手升级的必经之路。

那之前“Hey”这么一下为了啥?

可是越短的唤醒词,越容易跟其他词混淆,与“Siri”具有类似发音的词汇很多,比如 Syria(英文:叙利亚)、Sirie(英文:人名),Sire(英文:陛下),容易产生误唤醒。为了提升唤醒的准确性,音节最好丰富一点。

其实哪怕是丰富些的“Hey Siri”,也有很多用户抱怨在说“History”(英文:历史)时,会误唤醒出 Siri。

此外在噪音较大,或者手机离说话人较远的情况下,“Siri”的第一个音素,即发音类似于“斯”的部分(见图 1 绿框),声音频率较高—— 频率高的声音衰减快,容易与环境噪音混淆。这意味着在用户开车,听广播,看电视或者远距离呼叫 Siri 时,Siri 可能更难唤醒。

Hey Siri 音频及其频谱图|作者提供

而“Hey”是包含一个较大能量的低频发音,可以将比较短而且能量小的其他音素(主要指 Si 和 Ri 这两个)与噪音区分开来。

你是省事了,Siri 可费了劲

关于发音相近的词导致的误唤醒问题。一种方案是使用 对比学习(contrastive leaning)等方法,刻意消除易混淆词语的误唤醒。其原理类似于,单独拎出来“History”和“Syrian”等音频,告诉唤醒模型,这些发音是错的!

但这种方法必须在事前由人来找出容易混淆的单词,有一定局限。

通过核对唤醒词之后的语音,可以让语音助手在一些聊天场景中“保持冷静”,比如当你和朋友聊天刚好提到 Siri,但并不是为了唤醒它时。

你可以试下唤醒一屋子的语音助手|Giphy

此外,对开发者而言,去掉“Hey”,还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”,或是在使用完语音助手之后说“Goodbye Siri”;有时用户唤醒语音助手好几次没成功时,还会说“Come on siri”,这种时候要不要唤醒?

从产品经理的角度考虑,最优方案当然是听懂用户的所有意图,比如“Goodbye Siri”意味着不需要唤醒,而“Good morning Siri”意味着用户想要沟通。但由于语音唤醒模型比较简单,功能没那么强,一直运行也比较耗电,所以大部分产品会选择一刀切——要么都唤醒,要么都不唤醒,但这又破坏了用户体验。

根据目前放出的 iOS17 开发者版本来看,苹果暂时不支持“Good morning Siri”,“Come on Siri”等情况下的唤醒。

ChatGPT 会取代语音助手么?

微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”:“无论是 Cortana、Alexa、Google Assistant 还是 Siri,这些语音助手笨得像块石头。”

与最新最热的生成式聊天 AI 相比,语音助手似乎是上个时代的产物,它们只能回答简单直接的指令,从数据库选一些已有的东西来语音播报,还常常出错;而 GPT 们可以生成小说,讲一个世界上曾经没有的笑话,应付人类各种的语焉不详,跟你谈笑风生。

甚至成为你的朋友|Giphy

目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级,阿里也宣布未来所有产品都将接入“通义千问”大模型,其中也包括天猫精灵。

可能在一段时间之后,手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息,并结合用户所处的场景,更准确地了解用户的意图,那样就可以做到无需唤醒词的人机自然对话了。

一个AI

我听到你意念叫我了。

作者:魏浩然

编辑:睿悦

如有需要请联系sns@guokr.com

标签:

最新内容