关于远场语音交互,声智科技 CEO 陈孝良告诉雷锋网: “语音是最简单、最自然的人机交互方式,同时也是技术难度最大的交互方式,特别是语音交互从近场走向远场落地到真实场景,必须考虑噪声、混响、回声等声学问题,以及数据差异引入的机器学习模型问题,这些都是保证自由人机交互的核心技术。”
但是网络上横跨声学和计算机学科的教育资源太少,李智勇老师的这篇文章不仅揭示了远场语音交互的核心技术,还对商业化落地的路径进行了深入的解读,无论是语音交互的技术人员,还是产品经理,都值得一读。
手机之后国外各大巨头非常罕见的步调一致的在做同一件事情:智能音箱。而这一切最初的驱动力来自于Amazon Echo,但有意思的事情是Amazon Echo这产品根本没做任何的功能上的创新,听歌、看新闻、设闹钟、说笑话、控制家电等所有东西都可以在手机上找到替代品,它唯一的变化只是把语音交互的方式从近场升级为远场,并把精度和速度打磨到非常优秀的程度。只是这么一点点变化,似乎就要创造一个无比巨大的行业,那远场语音交互为什么有这么大的威力?