重磅:百度AI布局长这样

全天候科技是华尔街见闻发起的原创科技新媒体,悦读更多请登录我们的网站,或关注我们的公众号“全天候科技(iawtmt)”、“新金融见闻(AWFintech)”。

“人工智能公司”百度的AI战略布局首次清晰地浮出水面。

近日,在“2017国际大数据产业技术创新高峰论坛”上,百度副总裁、百度AI技术平台体系总负责人兼百度研究院院长王海峰时做了题为《百度人工智能》的演讲,首次全面揭秘百度的AI战略布局。

今年3月,吴恩达宣布从百度离职;时任百度副总裁的王海峰晋升为AI技术平台体系(AIG)总负责人,同时被晋升为Estaff成员,转向百度集团总裁和首席运营官陆奇汇报。今年8月底,王海峰又被晋升为百度研究院院长。

王海峰是自然语言处理领域的知名科学家,国际学术组织ACL 50多年历史上唯一出任主席(President)的华人,同时也是唯一来自中国大陆的ACL Fellow(注:一种头衔,是对 自然语言处理领域有杰出贡献的人最高的认可)。

根据王海峰的演讲PPT和数据派(THU)对演讲速记的整理,全天候科技摘取如下。

百度从七、八年前就开始布局人工智能,从NLP、语音、机器学习、图像等方面开始,时至今天,百度已经形成了一个较完整的人工智能技术布局,包括基础层、感知层、认知层、平台层、生态层和应用层,共计六层。

一、基础层:大数据、算法和大计算

互联网已经成为整个客观世界的镜像。所以,掌握好、利用好、分析好这些互联网数据,在很大程度上也是对客观世界很重要的刻画和理解。

总体上,大数据技术分为几个方面,比如数据的采集、提炼以及应用。如果对一个零售商店数据里的用户进行建模,某一个用户可能是白领,另一个是主妇,这样的行业数据经过分析就可以帮助商户更好地进行营销行为。另一方面,百度基础的计算载体是数据中心,有20多个大型的数据中心,设立在世界各地;国内有最大的GPU集群,有非常强的带宽和吞吐能力,还有像集装箱一样模块化的计算中心。

二、感知层:语音、图像、视频、AR/VR

语音技术的突破方向很多,包括识别、合成和唤醒,这也是市场需求很大,且百度比较看重的部分。目前语音识别,已经达到97%以上的准确率。随着人工智能应用的深入,在家居场景、车载场景等等,越来越多的语音识别不是对着麦克风说,而是要有一定距离,这就涉及到远场的语音识别。这与现在手机上的麦克风不一样,首先会有定位,还有一系列新的技术待解决。

合成想做得非常好,特别自然、流畅,而且可以是个性化的,包括把人的情绪变化等都带进去,就变得非常难。这里不只是语音和声学信号处理问题,同时涉及到对语言的理解、对人的理解,这样才能做出有情绪、个性化的合成。

唤醒,是需要设备的时候就叫一声,它就知道你要跟它说话,比如家居场景的一个智能音箱或者智能电视,这时候就需要唤醒技术。唤醒技术的困难在于我们要控制误唤醒,比如在家里放一个智能音箱,如果不叫它的时候,忽然之间它自己就跳起来了,或者睡觉的时候,有点外界噪音,它就忽然跳起来,体验会很差。所以,控制住误唤醒很重要也很有挑战。

图像方面,人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态,如一张图片,检测里面有没有人脸,或有两张照片,比对一下两处出现的是不是同一个人,这方面的准确率已经很高了。而识别动态图像的时候更复杂一点,比如有一段视频,首先要定位这些人脸,而这里会产生很多应用,比如在很长的视频流里找到一个人。

另外,我们可以对图像进行识别匹配,做语义的标注,粒度很细,如一幅图里很具体地找到其中一个部分是什么,这里可以做很多细粒度的图像识别。OCR是图像识别里相对具体的方向,现在OCR技术不仅可以扫描书,更可以识别一个表格或者一个很复杂的结构,如发票,不但把里面的文字识别出来,还可以把一个区域识别出来的文字结构化,整体上会做很多定制化的识别。