网易科技讯 5月29日消息,网易科技开物沙龙第四季“智能语音与聊天机器人专场”今日下午在北京举行,

出门问问 人工智能自然语言处理工程师 李理在现场分享了对人工智能方向的理解。他认为之所以Google离开中国之后第一次投资中国的公司便选择了出门问问,除了核心技术之外,主要还在于有出色的人工智能团队以及浓厚的工程师文化氛围。

以下为李理现场分享观点整理:

出门问问是2012年10月份成立的一家公司,到现在已经经过了C轮融资,包括红杉、真格,都是我们的投资方。特别值得一提的是去年10月份我们获得了Google的C轮投资,数千万美元的投资,这是Google离开中国之后第一次投资中国的公司,对此我们也感到非常骄傲,首先一方面是我们获得了一些资金,能够持续投入来做这样一个事情;另外一个非常重要的是Google对我们技术的认可,对于我们这样一家创业公司在人工智能领域所做尝试的认可,这是更令我们高兴的地方。

为什么Google愿意投资我们这样一家创业公司呢?我个人觉得因为有世界一流的人工智能团队以及管理,包括我们的创始人兼CEO李志飞以及CTO雷欣,都是Google的科学家,他们一直在人工智能和语音识别领域有非常深入的研究,我们的联合创始人李媛媛也在人工智能和管理这块有非常丰富的经验,我们230多人的团队里70%都是工程师,所以我们也是非常工程师文化的公司,这可能也是Google选择我们投资的原因。

出门问问做了什么使得Google愿意投资?

用一句话来概括很简单:我们是一家人工智能技术的公司,我们是用人工智能来做一件人机交互的事情,当然这可能是在座很多公司和朋友做的事情。

我们有零大核心的人工智能技术,跟在座很多公司也很类似,包括我们自己的语音识别和智能推送、语义理解和多轮对话,以及我们的社交和推荐,利用这些技术,加上硬件,我们是软硬结合的方案,最终给用户很好的体验。

说到人工智能大家可能会想到很多,无人驾驶、深度学习,包括最近火爆的AlphaGo,这是大家对人工智能的看法,也是最近为什么人工智能很火的原因。但对于我们来说,我们是因为这些事情使用人工智能技术,比如深度学习,来实现语音识别、语音合成、语义分析、多轮对话、智能推送以及垂直搜索这六大技术,我们把这些技术应用到我们的产品中,给用户提供信息检索以及各种各样的服务。

下面我给大家简单过一下技术,首先是语音识别与合成,这是我们很早就开发的系统,2013年7月就上线了深度神经网络的东西来改进我们的语音识别。

语音识别后是语义理解,大家知道,对于机器人和各种各样的智能设备,光是把声音变成文字其实并没有什么用处,更大的用处是我们能够准确理解用户的意图,给用户一些信息或提供服务,这才是最最关键的,所以我们有核心的语义分析技术。

具体理解我们语义分析做了两大类事情,一是问答系统,包括回答垂直领域的问答,对60多家服务提供查询,比如查天气、查周围餐馆、讲笑话、切换歌曲和导航;另一个是通用领域的问答,比如“刘德华的老婆是谁?”“北京有多少人口?”“长沙的市长是谁?”另外一个是对话系统,对于人机交互来说问答当然是非常简单的获取信息的方式,但对于比较复杂的系统,我们需要通过对话的方式,这也是机器人最常见的交互方式。

语义分析对于垂直问答需要做一些事情,包括查询分类、标签识别,用户说“明天我要坐飞机从北京到上海”,首先我们要理解他是查询机票的意图,除此之外还要分析出语义的标签,比如明天下午的时间,还是2016年5月30日,这样我们就可以对接第三方服务找到用户的机票信息。

另外是刚才介绍的通用领域的问答,比如刘德华老婆是谁、刘德华有多高,这里有一些技术细节就不具体介绍了。

理解了用户需求,我们需要给用户提供服务,这时候我们需要由机器回答问题,我们的做法有两类:一类对于垂直搜索来说我们是根据第三方合作伙伴实现合作,再通过第三方的服务给用户答案。

我们对接了60多各行业的100多家数据提供商,比如右边我们可以查询股票、查询餐馆,餐馆查询比较复杂,比如“附近”、“人均50”、“粤菜”,类似这样的查询。

除了搜索之外,搜索解决的是用户主动寻找信息的方式,但是作为智能设备来说,智能推送也非常重要,在用户没有觉察到的情况下我们主动知道用户可能会有某种需求,在用户完全不知道的情况下我们给出一些推荐的方案。

比如我们前些天经常加班,加班到12点大家第二天都变成了熊猫眼,这时候我们的手表可能会提醒你,现在你在熬夜,喝一点保健品可能会对身体好。这看起来是一个简单的提醒,但我们怎么知道程序员在熬夜呢?做到这件事情我们要能够智能感知用户的场景,包括传感器,甚至手表上就有很多传感器,我们会根据传感器来推荐你现在是在打字还是躺在沙发上看电视,躺在沙发上看电视就没有必要推荐,但如果你在工作,我们就会提醒你一下,是不是应该动一动,或者喝杯咖啡提提神;另外,你在携程定了一张明天下午3点的机票,我们会在下午1点或更早的时候就提醒你应该出发了。如何做到这一点,我们首先需要分析您收到的短信内容,知道你在明天下午定了一张机票,我们会主动在明天合适的时机提醒你出发,或者航班有什么变化,我们也能够在第一时间把信息推送给用户这样用户会觉得我们的产品非常智能。

除了之前我们做的帮用户实现的信息查询,不管信息是主动的还是被动的,但是对于更多的应用场景和机器人来说,我们不仅要提供信息,更多是提供服务,比如前面查看航班信息,对于用户来说最重要的是能够坐飞机或打车到一个地方真正完成服务,这才是最最关键的,所以我们除了做一些信息服务之外,也会做一些涉及交易,能够实现信息闭环的服务。

这就是我们要做的从信息到服务的升级,比如我们之前会问“附近有什么咖啡馆”,这是信息查询,我们可能会找到星巴克,但最终如果我不能帮用户定一杯咖啡,可能也没有太大用处。包括用户问“中关村怎么走”,我们可能会给出一些信息,但如果我们不能帮他打车或提出公交换乘方案,可能也没有太大用处,所以我们在思考,对于智能硬件和机器人来说,除了提供聊天、日常信息查询之外,更加重要的是真正帮用户做事,这才是它价值的体现。

要实现从信息到服务的升级,除了跟第三方合作伙伴有更密切的合作(由之前的查询合作到实现服务的合作)之外,除了技术之外,也需要做一些升级。

之前大部分都是问答,用户提问明天北京到上班有什么航班,我们告诉你有哪些航班可以选择;但是对于服务和解决问题,问答是远远不够的,很多情况下我们需要动作对话的方式、引导的方式把用户模糊的需求变成具体的需求。比如“我要喝杯咖啡”,这个需求非常模糊,你到底要喝什么样的咖啡,你是什么喜好,包括定了咖啡后把咖啡送到你的手里还要知道你的地址,这里的对话可能会涉及到很多非常有趣的地方,比如地址处理,他可能说“我要一杯咖啡到公司”,这时候我们要理解公司是什么含义,它可能是一个指代,如果我们有用户公司的信息,可能会直接配送到他的公司,但如果没有的话,我们会问“您的公司在什么地方?”用户回答“公司在中关村XXXX大厦”,这样它就记住了这些个性化信息,下次用户说“我要打车去公司”,机器人就知道公司是在哪个楼,这样就能体现它的智能,作为秘书知道我们的偏好,这是非常有意思的。

我们目前做的多轮对话业务,已经做了订餐、订咖啡、打车、手机充值,包括订票、送货、上门服务,通过丰富的服务把信息查询到信息服务打成闭环,这样能够给用户真正做一些有用的事情,这是我们做智能设备、机器人的思路。

前面说到技术,我们具体把这些技术用到了哪些产品呢?下面我简单介绍一下我们设计的产品:

最核心的是智能手表,上面有我们的Ticwear智能服务,我们也尝试了开车问问等应用。因为目前最重要的是Ticwatch这款手表,所以多介绍一些这方面的信息。我们跟有些公司不一样,有的公司只是做人工智能、有的公司只做硬件、或者有的做操作系统,我们的思路是,为了达到最佳用户体验,必须要软硬结合,从软件到硬件都是高度定制化服务,我们的软件、语音识别、语音合成包括语义理,都是专门为手表定制的,包括硬件等各方面也是为了在手表上得到最佳的用户体验,只有这样,才能做一款非常好的产品。

所以最早除了人工智能技术之外也有自己的Ticwear操作系统,因为它是连接硬件&软件服务的桥梁。

另外我们也做了自己的硬件,Ticwatch这款手表,大家可能使用过Apple Watch,它是方形的,不太符合大家印象中圆形手表的印象。另外我们自带扬声器,比如之前使用的手表,它没有扬声器,那么语音识别的技术就没办法使用,但为了完成完整的从语音输出到语义分析的交互,我们一定会在手表上放扬声器,即使增加难度,但为了提升用户体验,我们必须要做的事情。在某些特殊场景下,比如噪音或地铁,语音识别并不是很准,或者在某些场景空不出手,现在我演讲,这时候来了电话,挂电话需要点一下手表,或者开车时做这样的操作,是非常危险的,我们就做了手势控制,类似于微信“摇一摇”,比如来了电话后甩一下手,这样就把来电挂掉了。

今天更多是语音方面的讨论,手势这块就不过多介绍了。

这是我们的一款纯金Ticwatch手表,缎金,除了支持安卓系统之外也能适配IOS系统。

刚才说到,除了有硬件、AI服务和操作系统之外,对任何一个智能设备,包括手机来说,我们使用它,更多是它有丰富的应用,所以我们在一开始就非常重视生态系统。

第一天我们就开始筹划Ticwear系统的商店,去年我们也成为了Androidwear在中国的官方合作伙伴,这是我们的应用商店,上面可以下载到非常丰富的第三方应用。

一年多来销售还是比较好的,也看到了消费者对我们的认可,走软硬结合智能可穿戴设备的路子其实还是非常有前景的,这是我们的销量数据。

未来我们可能会尝试一些新的硬件形态,比如车载、机器人等新的东西,我们始终认为,如果要做一个领域,我们必须要从硬件、软件、操作系统各个环节都能深度定制,这样才能带给用户最好的体验。