1.语音方面
首先,我们讲人工智能在语音方面的突破,人工智能在语音识别,语音合成上面最近都取得了非常瞩目的结果。2016年9月,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率低至6.3%的突破,创造当时该领域内错误率最低纪录。一个月后,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现。
2.图像方面
其次,在图像方面,人工智能也有很多长足的进步:
2015年12月,ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破,以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context,常见物体图像识别)中同样成功登顶。在ImageNet挑战赛中,微软亚洲研究院的研究团队使用了一种前所未有的深度高达152层的神经网络,这比以往任何成功使用的神经网络层数多5倍以上,从而在照片和视频物体识别等技术方面实现了重大突破,将错误率降低至3.57%。
2016年10月,微软亚洲研究院视觉计算组的研究员在图像识别MS COCO图像分割挑战赛中获得第一名,成绩比第二名高出11%,且相较于前一年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步。
3.自然语言方面
除了语音和图像以外,其实人工智能在自然语言上面也取得了很大的进展。
(1) 人机对话 :自然语言人机对话方面,深度神经网络逐渐取代了传统的统计机器学习,成为主流的研究方向。现在,自然语言技术已全部转向深度学习网络,我们的对话系统也都用到了深度学习网络。大家熟知的微软小冰,起关键自然语言处理技术就是采用的微软自然语言处理技术,目前已经能够实现与人类23个来回的对话。
(2) 机器翻译 方面,Microsoft Translator现已支持60多种语言,可以实现多个人多种语言的实时翻译,比如大家每个人可能来自不同的国家,只要拿着手机APP版的Microsoft Translator就可以互相交流。你说一句话或者输入文字,对方听到/看到的就是他的母语。而在刚刚结束的微软年度开发者盛会Build 2017上,微软也展示了最新的Presentation Translator的PowerPoint插件,它利用了微软的Translation API接口,可以在播放演示文稿的过程中,实时地将其翻译成多种语言。
(3) 机器阅读理解 方面,在由斯坦福大学自然语言计算组发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛上,微软亚洲研究院的自然语言计算研究组持续稳居榜首。微软亚洲研究院团队在准确性和相似度这两个不同维度的评价标准上均取得了最优的成绩,其准确度达到了76.922%,相似度达到了84.006%,高出第二名近两个百分点。