语音产品(语音交互产品)

语音产品(语音交互产品)插图在目前的AI产品体系中，众所周知主要有三个方向，分别是:图像(即人脸识别)、智能推荐(类似于各种推荐引擎产品，如今日头条等。)和语音交互。

图像很容易理解。去年非常流行的Face ID就是基于此设计的。早期的诸如“人脸识别打卡”、很多公司都会采用的人脸识别登录设备，也是相关应用。智能推荐是通过分析用户的日常行为和操作，获取用户的画像，从而分析用户的喜好，为用户生成和推荐感兴趣的内容。说“Tik Tok”一刷就停不下来，很重要的一个原因是，它推荐的内容大多是用户感兴趣的，这取决于它的智能算法。

至于“语音交互”，到底是什么？

语音交互是基于语音输入的新一代交互方式，通过说话可以获得反馈结果。生活中最常见的就是手机内置的各种“语音助手”:魅族的小希，IPhone的siri，小米的萧艾，都是相关的产品或功能。

语音产品(语音交互产品)插图(1) 一、“语音交互”的定义

“语音交互”可以这样理解:人类和设备通过自然语言完成信息的传递。

这里我们把它分成四个简单的内容:

1.人员和设备

语音交互，是“人机交互”的一种，是“智能家居”概念中人类与手机、电脑甚至电器等机器之间的交流和连接。“语音交互”的对象是人和设备，而不是人和人，比如微信。实际上，用户通过微信与另一个用户交流，自然不属于“人与设备”的范畴。

2.自然语言

指的是随文化自然演变的语言，如汉语、英语、法语等。，但为计算机设置的语言是一种“人工语言”。语言是人类交流和思维的主要工具，自然语言的处理也是人工智能中最困难的问题之一。

“语音交互”是指人们需要发出声音来与设备进行交互。比如我们在设置闹钟的时候，喊一声“Siri，明天早上八点给我设置一个闹钟”，意味着我们通过自然语言完成了一次与设备的交互，而不是传统的“打开闹钟——设置时间”的人工操作。所以，很重要的一点就是“自然语言”。我们通过设备设置闹钟，然后它会发出声音。我们似乎已经完成了与设备的一次交互，但它发出的是铃声，而不是自然语言。即使你用“人声”作为报警，也不是“语音交互”定义的“自然语言”。

3.信息传输

也就是我们通过自然语言完成了与设备的某种交互，比如设置闹钟、查看导航等。一定是有一定的信息流从我们这边到设备，再回到我们这边，一个双向传输的过程。有时候只是设备给出的回应可能是语言，也可能是一个任务的执行。

二。互动模式的发展

人与设备的交互方式经历了PC时代、移动时代、AI时代三个阶段。

语音产品(语音交互产品)插图(2) 在PC时代，我们主要依靠鼠标、键盘等外部设备进行输入。比如双击一个图标打开相应的软件，需要轻敲键盘实现一个又一个字符。这种模式既麻烦又不实用。

过渡到移动时代后，现在几乎人人都有手机。如果你想点击任何应用程序，你可以用主手指轻敲它。这时候我们互动的方式就变成了触摸。那么为什么手机发展到现在，十几年过去了，还停留在“摸”上呢？那是因为相比传统的外接设备实现输入，它已经有了飞跃，它的下一个阶段还处于起步阶段，还不能完全被取代。

当“手机”变成“嘴机”的时候，可能就变了。

下一个时代是“AI时代”，也就是我们正在讨论的“语音交互”时代。大家都看过很多科幻电影，很多科幻电影之所以精彩，是因为展现了科技可能的未来。比如在《钢铁侠》中，托尼与他的人工智能“J.A.R.V.I.S”有着奇妙的互动。(有兴趣自己搜视频~)

但目前在“语音交互”的时代，还是以“语音输入”的内容为主，也就是我们给设备下一个指令:给我设一个闹钟，告诉我怎么去等等。，然后设备通过执行输出相应的内容，是刚性的，或者是程序化的。设备只会在你选择的时间给你设置闹钟，只会告诉你怎么去。诚然，这是我们想要的，但不够人性化。

当“互动”真正实现的时候，我们期待的场景应该是:我说我要去XX，设备读取指令，分析后给出一个反馈:离那个地方不远，平时可以走着去，但是现在外面下大雨了。我可以帮你叫辆出租车，估计8分钟左右就能到。

顺着这个思路，我们来讲一个“语音交互”的发展史。

三。“语音交互”的发展历程

也有单向倾听、单向输入、双向交流三个阶段。

语音产品(语音交互产品)插图(3) 1.单向监听

大家都经历过，比如10086的电子助手。当我们拨打10086时，给我们的回应肯定不是人工客服，而是电子语音:“话费查询请按1，套餐和流量办理请按2”。只有当电子语音解决不了用户需求的时候，你才会在最后说“如果需要人工帮助，请按0”。

这是被动的。用户只能被动接受预设的服务。无法更改，也无法对电话那头的用户的话做出任何反应。唯一能让它改变的就是用户按下相应的数字键。

2.单向输入

最常见的应用是各种输入法的“语音识别到文本”，也称为“语音输入法”。通过说话让应用识别，然后以文字的形式翻出来。很多时候，一段很长的对话可能需要我们敲很长时间的键盘。随着这项技术的成熟发展，我们可以直接说出这段话，然后只需要修改几个标点符号和错别字就可以快速完成一段话的输入。

但是它最大的缺点是不能形成互动，还是单向的，只是从出口方变成了进口方。这时候它更像是一个工具，只在我们不想打字的时候使用。毕竟我们在使用设备进行语音转文字处理的时候，它不会自动反馈说，我觉得你这里说的不好，需要修改。

3.双向通信

顾名思义，人和设备开始交互，也就是所谓的语音助手，可以帮你处理一些任务，设置一些事情，同时也可以进行一些简单的聊天交流。当你输入的时候，你也可以得到设备的输出，这样就形成了一定的互动。

当然，它还远远没有成熟，或者说，还没有那么聪明。就像小孩子一样，ta会对你哭，会对你笑，但是当你说一些它听不懂的话，ta只会睁着眼睛看着你，因为涉及的技术也比较复杂。

比如:“单向听”就像听收音机。你收音机前的电台主播不知道，你只是在听；“单向输入”就像在KTV唱歌。你唱完这首歌，要么继续下一首歌，要么机器显示没有歌曲，也不会有人性化的反馈(那些有打分功能的KTV系统除外)；“双向交流”真的很接近人与人之间的交流，就像两个人在电话里，互相倾诉自己的喜怒哀乐。

最后，我们来讨论一下相关的实现原理，这也是“语音交互”技术的核心部分。

四。“语音交互”的实现原理

在网上看了徐建安先生的视频，受益匪浅。现任百度高级产品经理。他简单地将“语音交互”的实现原理概括为一个过程，即用户说话，系统识别并理解，然后转化为语音反馈。

语音产品(语音交互产品)插图(4) 接下来，我简单介绍一下相关流程。

说话:用户发出声音——也就是前面提到的“自然语言”。无论在哪个国家，用户通过说话与设备交流信息。只有这样，才会有后续的一系列步骤。毕竟我们说的是“语音交互产品”。用户必须说话才能形成互动，而不是用户坐在沙发上，设备说:“你要茶还是咖啡？”。

ASR(自动语音识别):自动语音识别——此时机器可以听用户发出的声音，并转换成“文字”供机器阅读，也就是俗称的“语音听写机”。是实现“语音”到“文字”转换的技术。在这个环节中，我们熟悉了各种“语音输入法”的功能。

这个环节也是比较容易出错的环节。有时，当用户说话带口音或语速加快时，设备可以轻松翻译错误的单词。

NLU(自然语言理解):自然语言理解——此时机器试图理解文字，这也是目前“语音交互产品”中的一个难点突破，也是核心点。很简单，如何在互动中达到完美，是建立在“相互理解”的基础上的。或者说一段对话如何才能成功进行，理解对方的意思是非常重要的。

比如用户说“我觉得今天天气不错，适合出去玩。”潜台词是，“这么好的天气，我想出去走走。能给我点建议吗？”但是机器曲解为“他想先吃个饭再出去玩”，于是推荐了外卖的各种联系方式。这样的“交互”是失败的，因为机器没有理解用户的意思，也就是我们老话所说的“对牛弹琴”。

DST(对话状态跟踪器):对话状态控制和DM(对话管理器):对话管理——这两个可以放在一起讨论。举个例子，如果用户说“给我订张机票”，显然这个对话对应的信息是不完整的，因为没有时间，没有目的地，没有出发地点。这时系统判断相应指令中缺少信息，或者做出判断。然后，它会问:“你想从哪里开始？你要去哪里？你什么时候走？”。

所以在这两个阶段，机器做出的主要判断是这个对话进行到了哪一步，是用户说话了还是机器说话了。如果对话完成，机器可以执行相应的命令；如果不完整，它需要再次要求用户完成内容。

动作:命令执行——很容易理解为什么会把一个分开，和DM形成双向关系。也就是我们前面说的，如果这个命令完成，用户说“明天早上8:00给我设置闹钟”，那么系统只需要按照指令设置闹钟，并反馈“闹钟已经设置好”，那么这样一个交互就完成了。但如果用户说“帮我设置闹钟”，显然设备无法执行相关命令，需要生成相应的对话提示用户补充完整时间，然后执行命令。

所以某种程度上也可以理解为动作，动作独立于“语音交互”的过程。只有当这种交互的信息完整时，它才会执行命令。

NLG(自然语言生成):自然语言生成——此时，经过语义理解和对话状态控制，系统已经对用户发出的自然语言进行了分析，当它知道如何回应时，就会生成相应的自然语言。比如用户选择的模式是中文，那么他说中文，机器也要用中文回答。该是设备开始响应的时候了。

TTS(Text To Speech):从文本到语音——简单来说就是将“文字”转换成“声音”，这被视为ASR技术的逆向。只有在这个过程中，才容易体现其“人性化”的一面，这就需要设计师加入各种丰富的演讲技巧，甚至要求语气、音色甚至断句，否则就会显得“机械化”

比如用户说“我想吃外卖”，机器回答“好的，我给你找了附近十家外卖店，其中沙县小吃离你最近”；另一个回答是“好的，这里你找到了最近的餐馆，就是沙县小吃。网上评价还不错。据说那里的云吞面很不错。我建议你试试它们”。很明显，最后推荐的是沙县小吃，不过后者略显人性化。同样，同样一句话，如果用不同的语调和音色说出来，给人的感觉是一样的。

动词（verb的缩写）摘要

语音产品(语音交互产品)插图(5) 在这一系列过程中，ASR主要发生在“识别之前”。这里强调的是对用户声音的“识别敏感度”，因为你要听清楚了才能听懂。这里需要克服的是“声音信号的识别和优化”。

NLU发生在“识别”中，也是整个语音交互过程中最难的部分，因为需要机器来理解人类说出的语言，而机器没有感情。就像一个用户说“我操你”，可能机器会解读为“用户要去他叔叔家”，而不知道用户其实是在骂人。这个环节重点是“机器对声音信号的理解”，机器的人性化从这里开始改变。

TTS发生在“识别之后”，也是用户真正能直观感受到的一个方面，因为在这个阶段，设备可以视为在与用户进行交互。用户不懂任何机器语言，只是想感受一下机器听完我说的话，能不能给我想听的答案。有时候，即使机器没有正确理解，它的反馈也能让用户耳目一新，凸显产品的价值。这个环节需要注意的点是“信息反馈与播报”。

打个比喻，我们把在学校考试前的准备过程理解为“ASR”，要记住知识点；考试过程是“NLU”，我们实际上是把记录的知识点运用到试卷的题目中；公布测试结果的过程就是“TTS”。只要成绩差，前两个过程再怎么努力，也很难被认可。相反，只要最后反馈结果好，即使之前的工作不到位，似乎也能让人给个赞。(当然，天下没有不劳而获的事。只有前期的准备才能最终获得好的结果。)

因为用户是以结果为导向的，无论我们怎么吹嘘自己的产品有多聪明，反应有多快，理解能力有多强，什么网络神经中枢，神经网络引擎，只要用户在使用过程中没有感受到它的智能，一切似乎都是徒劳的。

所以，在设计一款“语音交互产品”的过程中，每一个环节都非常重要。目前最大的语音交互平台是亚马逊，其平台上的语音交互产品有2万多种，但国内不超过300种，连零头都没碰过。“语音交互产品”潜力巨大，尤其是近几年“物联网”势头强劲，5G网络已经公布。我觉得在未来的浪潮中，肯定会有“语音交互产品”的一席之地。

本文由@ 21 String原创发布。每个人都是产品经理。未经许可，禁止复制。

题目来自Pixabay，基于CC0协议。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

作者：美站资讯，如若转载，请注明出处：https://www.meizw.com/n/114069.html

语音产品(语音交互产品)

相关推荐

发表回复