现在最爱游戏好的语音助手是哪个？

时间：2023-03-19 23:02:34 浏览：次

　　爱游戏爱游戏Siri：相比其他两个语音识别率低。而且给出的答案相比其他两个也差很多。而且声音一听就是合成出来的，另外两个，特别是cortana很像是真人的录音。我感觉苹果在这方面水平一般，两外两家都有自己强大的搜索引擎做后盾，所以功能要强大很多。

　　Google now：语音识别率高，结果准确。但是…Google now没有“人格”。你调戏它，它是不会叼你的。据说Google对Google now的定位就是这样，根本没打算给它添加“人格”，因为不实用。不过我倒是觉得这样有些太“严肃”了。不过我倒是主要使用Google now，因为我有Android手机+watch，每天查查天气，导导航什么的就不用手动输入了。

　　Cortana：我觉得cortana是这三之中最好的，识别率与准确度和Google now不相上下，而且有“人格”，没事可以调戏着玩。特别是微软居然放出了Android版的cortana！不过Android上cortana的权限不高，很多事情不能干。不过无所谓了，我就是当“电子宠物”一样的玩她，你还别说我还真有点想买个wp的冲动了，好吧微软你赢了。哦上次有人在知乎上问，微软会不会做全息图像的cortana。我想说的是，只要出我一定买！

　　都说文无第一武无第二，但是针对语音助手这个问题来说，我们讨论“最好”的时候，各家其实还真的都有各自能拿出来一较高下的亮点。传统的移动端研发公司，几乎都在说自己有什么“黑科技”，尽管不论是2B还是2C端用户，“黑科技”这个词都是最能触及到大众认知层面到词汇。

　　但是从现实层面来说，还真的没有哪家的黑科技能突然投入到广泛的实际应用层面，至少针对语音助手来说，最重要的不是功能，而是其整合能力和综合素质的体现，以及其能力的衍生范围，是作为一款语音app，还是作为一个真的能切实改变我们生活的“助手”。

　　所以对此，我们可以稍微分析一下当前市场环境下语音助手的不同优势作为评判——

　　先拿百度比较引以为傲的小度来说，百度在自然语言处理（NLP）领域，确实积累非常深厚，目前来说它们最大的亮点在于对话式语音操作系统，并且拿到了专利金奖，而且在此基础上，小度在2021百度大会上，将小度的场景进阶到除了家庭之外的更多场景中，随身设备和音质的提升，主打沉浸体验，而且方向上基本也从”语音“转型到”视听体验“上。

　　小米的小爱同学，去年完成了升级，在开发者大会上5.0版本的发布从语音助手升级为智能生活助手，还升级了五大场景，但是这次升级对我来说，形式意义远大于实际意义，确实能让很多消费者感受到语音模式的进化，比如全景智能协同和对话主动智能，但是在小米生态之下，它单独的存在还是和从前几乎没有任何拓展。

　　至于你和我说华为的小艺和荣耀的yoyo……有用过的朋友可以在评论区留言，我就不过多吐槽了……

　　同样是作为语音助手，天猫精灵，最近几年被达摩院打磨的是越来越好了，上文中大家吹过的牛，天猫精灵几乎都能实现，不仅如此，天猫精灵还在IoT生态的移动端用户交互入口位置做的更优秀，在“双端一体”的层级表现上更成熟。而且在此之外，还将语音助手完全拓展到了传统场景外的汽车行业，真的把使用场景做到大跨步“出圈”，而这些也离不开斑马智行的巨大助力。

　　同样来自达摩院的技术，斑马智行加持下的语音助手系统，已经几乎占据了车载语音助手的头把交椅。可以这么说，作为行业内首个将语音定义为车内第一交互方式的头部玩家，斑马智行从指令交互到自然对话交互升级，再到斑马洛神智能座舱系统实现的AI语音学习能力，尽管从16年才开始引入车载智能语音助手，但是短短5年，已经完成了车载智能操控语音方面的超级蜕变。

　　小鹏的语音优势集中在车控方面的诸多细节，比如打开车窗可以说百分比，也可以进行简单的对话闲聊，但自主学习的能力和潜力在实用型场景中远远不够，对于人声命令的触达机制也停留在“语音”阶段，而不是精益求精的“语义”层面，而语音和语义有着天壤之别的巨大差异；

　　理想one的语音助手，主打形象牌，虽然近两年才在ota过程中强化了语音的能力，例如“所见即所说”，但是它最大的弊端，仍在于还是只能一句指令一句回答，单次的唤醒。

　　打个比方说，你每一次都需要重新问一个问题，它既不会记得你之前的话，也不会猜测你后面想问什么，纯粹的语音指令交互。严格来讲，它所做的所谓创新性努力都还停留在平台型的需求补给层面，而我看到有人说Siri，不好意思，你的Siri实际上也只停留在这一层。

　　但是斑马智行的语音，很早就完成了“所见即所说”现在甚至可以支持90s连续自然语对话，也就是上文所说的“语音不同于语义”。

　　这里的90s的背后，其实是AI在理解语义的复杂过程，打个比方说，当你问到“今天天气如何？”时，语音助手一般都会给出完整的回答，但是当你继续问到“那明天呢？”一般的语音助手就会从基础应答开始，陷入迷茫：“对不起，我好像听不懂您在说什么”，而这样割裂的对话，显然不适合我们的沟通习惯，但是理解语义的关联后，就好像学语文时常说的上下文的理解，可以更顺畅的完成信息交互过程。

　　语音和语义的区别就在于，一个是通过你的直接指令给出反馈，另一个则是通过你说的话，猜测你的意图，而这两个从能力上有着天壤之别：纯粹的语音指令不会添加任何的AI导向，服从命令就够了，而语义则更切合日常中我们和朋友一样的交谈方式，它会思考，会构建完整的对话体系，从而完成更严格的工作任务。

　　而且斑马智行目前的洛神系统，可以通过达摩院AI语音平台的学习能力，将一些原本不会的指令通过用户的教学引导，学习掌握新技能。

　　打个比方说，你的一些口语习惯可能一开始它没法理解，但是当你稍微换种方式让它理解后，它也会马上将指令记录下来，学习新的指令说法。而遇到非常难以理解的问题时，它则会转到后台学习平台进行“学习”，通过人工/自动标注的方式掌握，并在后续使用中提醒你学会了新知识。

　　这就非常“贾维斯”了！想想看，不同于统一的系统AI识别应答，每个人都可以通过洛神系统得到自己的专属管家助手，而且时间越久，你们的配合就越默契。能够沟通交流自己学习成长的AI语音，才是未来人工智能的正确方向。

　　就像我开头所提及的那样，语音助手的终极究竟是什么？是一款语音app还是一个真能切实改变人们生活方式的“助手”呢？这个问题的最终答案到目前来说，仍然没有揭晓，但是我们几乎也能遇见到未来将会有一场白热化的“语音大战”，而这场大战我显然更看好天猫精灵和斑马智行的强强联合，因为正是有他们拓宽赛道的一系列操作，才让这个起跑线和竞争门槛拉高，不再将技术禁锢于语音本身，开拓出了更多的场景与功能，而这些技能树的疯狂点亮，无疑就是斑马智行一直在做的事——

　　依靠科技改变的不仅仅是科技本身，而是改变你原本以为熟悉的各个行业。在AI的想象空间没有到达突破人类极限之前，我们对此可以抱有无限的期待，因为它确实值得这份期待。

　　谷歌眼镜用户，又是苹果双手机，从iphone 4开始出一代从北美买一代。你以为我说了这么多会告诉你google now，谷歌眼镜自带的语音识别系统， siri，讯飞，出门问问等的好处么？

　　我只想告诉你，在办公室说“hei siri，给xxx打电话”和在大街上突然抬头说：“ ok glass，带我去 xxxx”，脸皮再厚的蛇精病也只能坚持3个月以下。

　　首先，我觉得题主和点进来的人，一定是不普通的人类。因为在这个时代使用语音助手，意味着你要有很多好奇心和耐心，去探索并包容新生事物的不足，去相信“未知”一词包含的无限可能性。下面分几part详细回答一下题主的问题，大家请自备小板凳。

　　当前形态的语音助手并不足够好，但它依然是人工智能技术在我们日常生活中最成熟、广泛的应用方式。你可以将语音助手看做是一个住在各种智能设备里的机器人大脑幼体程序，当它进化出判断力和创造力之日，就是人人拥有强大的管家贾维斯之时（也可能是被统治、每晚给语音助手讲恐怖故事：程序猿来了）。

　　语音助手是一种语音控制程序，通过智能设备上的收音硬件，它能听见你的话，进行语义判断，然后在前台迅速做出回应：通过麦克风和你语音聊天，或者听令帮你操控智能设备。

　　语音助手被唤醒、听明白、会说话的过程，背后对应的是机器学习（深度神经网络）和数据挖掘算法，以及语音识别、语义理解、语音合成技术，并需要语音知识数据库进行云端支持。

　　拿灵犀语音助手来举例，将科大讯飞公司的讯飞超脑技术作为深度神经网络后，就能不断自我学习了解主人的说话方式和爱好需求，进而给予个性化反馈服务。

　　通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。全天候黑屏唤醒最早由摩托罗拉在2013年通过硬件优化实现，摩托罗拉重返中国后的第一款手机 moto x通过灵犀语音助手来实现唤醒后的操控（相关视频见文章最尾部）。

　　声音是一种波，说到底还是信号处理问题。你可以理解为建立一套人和语音助手都懂的编码，语音助手的理解过程，就是通过解码引擎在云端数据库里又快又准找到编码对应的最优内容。

　　像指纹一样，每个人也有独特声纹，语音合成就是将真人声纹特征采样、编码，经过连读韵律优化后，将任意文字有表现力得转化成虚拟人声。

　　世界上第一个使用全息投影技术举办演唱会的虚拟偶像、宇宙第一公主殿下、全二次元维度人类的老朋友——初音未来就是因为使用了这项技术被怀疑假唱的。

　　各国神话、传说里一早就有工匠创造人形生命的真假故事。中国古代神话中三头六臂的哪吒也可以看作是一例，以莲托生，法力无边。

　　世界第一部科幻小说，英国诗人雪莱的妻子玛丽·雪莱1818年创作的《弗兰肯斯坦》描述人类试图以科学研究制造智能生命的故事。

　　1950年，计算机学家阿兰·图灵提出著名的“图灵测试”。如果一台机器与人类（通过电传设备）展开对话不被辨别出身份，就具有智能。

　　1952年，贝尔实验室研制出首个实用语音识别设备，能识别10个英语数字发音。

　　1968年，科幻大师克拉克电影《2001太空漫游》中，2001年人类能够制造超级人工智能HAL-9000。其中，HAL在被关机时唱的歌，正是1961年贝尔实验室创造出的、世界上第一首由电脑唱出的歌。

　　1966年，最早也是最著名的聊天机器人程序Eliza诞生，她被设定为一个精神治疗医师。有趣的是，Siri发布时，Eliza也被再次请出进行对话。当时，Eliza和 Siri 之间年龄相差 45 岁，内存相差 200 万倍。

　　1976年，美国克雷公司推出了世界上首台运算速度达每秒2.5亿次的超级计算机Cray-1。

　　1997年，IBM公司的“深蓝”电脑打败了世界国际象棋冠军盖瑞·卡斯帕罗夫。“深蓝”每秒可以计算2亿步。

　　从1952年开始用时半个多世纪，语音识别技术经历了由小词汇量、孤立词的识别到大词汇量、非特定人连续语音识别的飞跃，终于，2011年10月，苹果公司发布搭载了人工智能软件Siri的iPhone 4S手机，语音助手从此被公众所关注。

　　由于智能语音技术的研发周期长、投入大，行业进入壁垒较高，时至今日，全球范围内技术应用成熟的语音助手并不多。当下认知度较高的语音助手包括：乔布斯家的Siri，谷歌家的Google Now、微软家的Cortana小娜，我国国内也有技术成熟厂家，在中文识别方面甚至更胜国外巨头一筹，如科大讯飞家的灵犀语音助手，以及Robin最近力推的度秘等。

　　需要区分的是，早年的MSN机器人、小黄鸡Simsimi以及小冰其实属于聊天机器人范畴，而“闲聊”在语音助手的职业生涯里只属于附属功能，后者更注重事务处理和知识服务。

　　我们可以看到，以上日常能用到的语音助手，出于平台需要、发展战略等原因，它们像人类一样，包装有不同个性和生存技能，但从本质上来说，判断一个语音助手强不强，要看它的大脑模型是否聪明，语音识别率是否准确。这决定了在日常环境中，它是不是一个随时待命、反应迅速、机智体贴的虚拟陪伴者。

　　假如各具特色但本质相同的语音助手们合体成一个，作为主人的你，一天将是怎样度过？

　　讯息爆炸时代，百科知识交给语音助手背后的搜索引擎来记录就好，同时也要警惕知识外包的后果。

　　坦白的说，以我对这个行业的理解，目前落地到商用级别的大部分语音助手，它们背后的厂商在技术上都出于同一赛道，并没有哪一个品牌拥有了可以用于消费级别的黑科技。所以说当我们提到“那个语音AI助手最好”这个问题时，更多的讨论的并不是科技的领先，而是在聊语音AI落地场景、生态产品设计和实际体验。

　　其实说起来很有趣，之所以大家对语音AI这个问题这么关注，其实这其中隐含了一个重要的逻辑是：

　　语音AI会成为未来最主流的交互方式。根据贝恩公司此前的一份调研数据显示，未来人机交互方式中，语音交互将会占到30%左右。

　　百度小度、小米小爱、天猫精灵乃至于谷歌的Assistant和亚马逊的Alexa，其实都在抢夺这个赛道。

　　那么我们今天从科技上讨论的一个最重要的问题是，语音AI的好用究竟应该体现在哪些方面？

　　首先，语音AI集成在硬件产品上，开门第一步必须是听得到听得清。这其实就是在硬件上考验拾音的问题。

　　其次，从AI的角度，我们和它产生对话，它听得清当然很重要，但更重要的是要能够听得懂。这里就涉及到比如复杂语意解析、文本分析、自然语言理解等等算法。

　　最后，是语音AI在工作时的综合体验，比如说唤醒率，再比如说误触率，再比如说交互反馈。

　　从我对于天猫精灵、小度、小爱和腾讯叮当几款产品的实际体验看来，这几款智能音箱产品虽然在以上几个维度的交互式体验中稍有差别，但这种体验上的差别却没有给我带来明确的想要推荐某一款的念头，因为从本质上，还是我刚才在开头的那个结论，他们都是一个赛道内的产品。

　　而在我使用体验过这么多款语音AI之后，我越来越觉得让语音AI更好用，其实是它们的产品设计，以及在功能的引导性上。

　　我们在聊语音AI的时候，有些人自然会很在意它为我们带来的效率提升。但大家有没有想过，其实还有一个群体他们并不在于语音AI是否高效，但他们却也是迫切需要这样一个产品？

　　在我看来，除了物联网入口、高效的生活助手等身份之外，语音AI另一个更重要的需求点则在于它的便利性。就像是老人和孩子这样的群体，用触控打字的方式来实现智能设备的交互，爱游戏对他们来说实在是太难了。

　　而这也是为什么，对于大多数老年人来说，他们仍然会选择落后的老年机来作为通信工具。

　　而对于这个群体我想说，绝大部分我们用的风生水起的智能手机上的功能，超过70岁的老人都是不会使用的。我由于工作原因，在这两三年曾经接触过好几位将近80岁却依然独居的老人。

　　他们的儿女和他们隔着千万里，我问他们平时有事的时候怎么联络，他们就会拿出这样一个手机。

　　所以，从这个角度上来说，如果你问我“什么样的语音AI是最好的”这样的问题，我想说一个拥有一块显示屏的智能音箱，同时拥有通过语音操控，超便捷的视频聊天功能，这对于老人来说，就是最好的语音AI。

　　接下来，我想从产品设计的角度，接着聊一下我眼中真正好用的语音AI究竟应该是怎样的形态。

　　在我看来驾驶过程是刚需，老人小孩的陪伴和功能纽带是刚需，物联网入口是刚需。

　　而几乎所有搭载在手机上的语音AI，目前来说都是闹着玩的。去网上看看有多少把Siri当傻子耍的段子，就知道为什么苹果公司要永远的被钉在语音AI的耻辱柱上了。

　　刚才我说过了，在未来语音交互是只能设备的最主要交互方式，所以这里就有一个直指灵魂的拷问是“语音AI能不能像人类一样和你对话”。

　　如果我们要讨论这个问题，那就必须要从硬件和软件的两个角度去讨论不同的场景。

　　全双工作为一项通讯传输术语，指可以同时(瞬时)进行信号的双向传输(A→B且B→A)。具体指交换机在发送数据的同时也能够接收数据，它采用点对点连接，这种安排没有冲突，因为它们使用双绞线中两个独立的线路两者同步进行，就好像我们平时打电话一样，说话的同时也能够听到对方的声音。

　　这里我要科普知识点，我们通常所说的半双工，广泛的应用在对讲机上，而比如微信里有个语音对讲功能，也是应用的半双工技术。

　　而目前在语音AI领域领域，这个行业很多落地的硬件产品，讯飞、百度、微软和小米也都实现并跟进了全双工的硬件配置，在我看来这是语音AI在实用性上非常重要的一次硬件配置上的拉齐。

　　其实在科技产品的研发上，硬件的意义永远都是在为软件提供基础和保障，就像是全双工一样，只有具备了这一点，软件和算法上才有空间去迭代。

　　有了全双工信道，在硬件上去解决语音助手是否能被打断等问题后，才能从软件和算法上，在误触率、唤醒率、复杂场景的识别、复杂语意解析等等维度上通过模型训练，来实现真正的人工智能。

　　“首先我觉得它是个二货。然后如果我想和这个二货能够沟通，我就必须也要像一个二货一样。”

　　很多车载导航产品上都有这样的问题，首先是车载AI说话的时候不能被打断，你必须耐着性子听它说完。第二是车载AI必须使用一次旧唤醒一次。

　　在车载导航上的应用，在实际体验上最明显的感觉就是无缝感。通过全双工的硬件加持之外，在语意的理解、拆分、过滤、随时待命、上传、回传等等一系列的操作，通过算法对AI的训练，在我看来它的一个最终极形态是，要将内功修炼到，无限逼近一个坐在副驾驶上的导航员。

　　如果你问我哪个语音AI才是最好的，我还是不想推荐任何产品。因为除非到了有一天，人工智能已经甩开了人类的步伐。而在那之前，工程师和产品经理对于AI的设计和规划，只有方向对了，才有可能带来更好的语音AI。

上一篇 : 最美证件照爱游戏只需要轻轻一按

下一篇 : 亿通科技2022年年度董事会经营评述爱游戏

2022世界杯赛事竞猜-2022世界杯竞猜app

联系我们

公司动态

现在最爱游戏好的语音助手是哪个？