说起来可笑,每次我找不到眼镜的时候,我都想拿出手机,给我的眼镜“打个电话”,好听声辨位。
不知道有没有人,开发这种功能?
不得不承认,在某些场景下,声音具有很强的穿透力。也因此,智能音箱会被开发出来,一声“小爱同学”省了我们不少力气。
在智能语音这条赛道,可发挥的场景,待开发的空间还很大,这里列了几个例子,供君参考。
其实语音合成技术离我们很近,例如高德地图里志玲姐姐的声音,读书软件里有声朗读,科大讯飞研发的“讯飞留声”还可以满足你,10句话就可以复刻自己的声音。
从早期“我-是-机-器-人”的机械声,到如今我们听到的Siri的回答,无论从音质、复杂度还是自然度上,都近乎无可挑剔。但是在技术迭代的过程中,表现力一直是语音合成技术亟待解决的问题。
唯真性高,但是“人情味”不足。
而提到“人性化”的声音,最惊艳的莫过于去年惊艳亮相谷歌I/O开发者大会的智能语音助手。
有没有觉得,那句“Umm...”让整个对话“真”了起来。
我们知道,人类在说话的时候会夹杂很多语气词,用来缓冲大脑思考问题。同样,机器人进行信息检索的时候也需要时间,加入这些词汇让它们看起来更像人类。
一个会说人话的机器人,还是有机会杀一杀萌宠经济的锐气。
此前,《麻省理工科技评论》评选出的2019年“全球十大突破性技术”,“阿里AI助手”是唯一上榜的国产技术。
原因在于专业技能过硬,仅49秒,点了34杯咖啡。
用户只需要对点餐机进行与正常人一样的对话就可以完成。
“五个巧克力、两个香草拿铁,巧克力加奶油。”“两个中杯焦糖拿铁,一个热的一个冷的。”“算了巧克力不要了。”“再要六个小杯少冰摩卡,三杯加焦糖三杯加香草”“再加一个大的冷的拿铁,去冰半糖加脱脂奶,打包。”
在云栖大会现场,阿里语音交互首席科学家鄢志杰最快以每秒5个字的语速向一台机器点单。
而人类咖啡师在第一次没记住的情况下,重听之后完成了订单,用时2分37秒。
该系统不仅可以在公共场所强噪声环境下进行信号处理和语音识别,还融合了视频识别与面部识别、场景感知等多模态的感知技术,同时更增加了多轮多意图口语理解、业务知识图谱自适应等认知技能。
这项技术除了可以替代收银员之外,还被应用在地铁里。
据悉,上海地铁已经部署了这一技术,乘客直接说出目的地,售票机便可选择合适的站点和路线。
在语音助手界,最红的莫过于微软小冰,写诗、唱歌、主持、唠嗑无所不能。据悉,微软小冰作为“社交化人工智能”已经在全球积累了过亿用户,产生了300亿条的对话记录。
如今的第六代微软小冰,已上线全新的共感模型(即小冰可以通过自创回应,来牵引对话向她所希望的方向进行)。她可以实时预测人类即将说出的内容,实时生成回应,并控制对话节奏,从而使长程语音交互成为可能。
带节奏,牵引对话,这是导购员最擅长的事情。
这是一个信号。
品牌广告主可以凭借更具针对性、以语音为先的数字内容抢占搜索结果的位置。
也就是,“语音流”里的广告位。
这是是一片需要营销人员去探索的空白区域。想想看,当语音助手的系统中,没有数据来源或足够深度的内容为问题提供答案时,品牌可以主动参与到对话中去。
在文章开篇,提到了给眼镜“打电话”,那如果眼镜可以自己发出声音“我在这里”会如何?
事实上,这件事情,已经有人做到了。
通用电气开发出了一款原型机,它可以让机车给维修技术人员发送语音信息,描述需要修理的东西。或者,它可以直接打电话给他,说“我的转子有问题了,你快来修”。
其实,“机器自检”这种模式,来自于通用电气的Digital Twin。
专业术语小贴士(来自美国国防采办大学DAU的术语):
Digital Twin,即数字孪生,指充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。
换句话说,就是在虚拟空间中对工厂进行仿真和模拟,并将真实参数传给实际的工厂建设。
通用电气的Digital Twin项目不仅实现了工业资产的3D显示,还可以处理从全球各个机器收集到的信息,从而更好地为决策提供信息。
更多的语音应用场景,还有老罗发布的TNT工作站,用声音控制电脑的操作,一度引起网友吐槽,最终寥寥收场。
作为对比,在今年的WWDC 2019上面世的macOS 10.15 系统,也实现了语音控制Mac 设备,不禁令人感慨:
语音交互会成为下一代主流交互方式吗?
记得科大讯飞AI产品副总裁陈亮在一次演讲中说:“AI用得好不好,关键在于用的人的想象力”。
所以,我们其实要考虑的是:如何在合适的场景,选择合适的交互方式。
当我在跑步的时候,如果有一个虚拟语音助手可以直接告诉我应该如何调整呼吸和步伐节奏,我是希望与“它”进行对话的。
又或许,还有“会说话”的眼镜......