在很多投身人机交互研究的工程师和研究员心中,这部电影描绘了他们心中的理想:拥有迷人声线、温柔体贴而又幽默风趣的人工智能系统OS1萨曼莎除了能提供如日程提醒、播放音乐等功能外,还能与用户对话谈心。在情感、智商方面,萨曼莎已于人类无异。 简仁贤是《Her》的影迷之一,2015年8月创业之前,他供职于微软(亚洲)互联网工程院,任副院长一职,负责领导微软小冰及小娜的产品技术开发,在人工智能、搜索引擎、机器学习、深度学习以及大数据方面都有涉猎并经验丰富。 职业经理人的道路本可稳当的走下去,但简仁贤却选择离开创业,他的目标是将“萨曼莎”变为现实,为此,他选择自己成立公司,力图将图像、语音、文字的人机交互融合,专注情感情绪识别,打造一家基于情感人工智能的人机交互公司。 于是,2015年下半年,竹间智能成立了。 根据简仁贤原本的设想,三者融合的界面应该在创业五年之后能做好,其中三年时间打磨技术,两年时间落地,因此,第一笔融资至少要支撑公司运转三年。 但现在,简仁贤的计划必须要做出改变了。 被改变的计划 与深网见面的那天,简仁贤迟到了,他的上一个约会是与投资人会面。约定时间过后二十分钟,简仁贤端着一杯美式咖啡走进会议室,接下来,他要接受包括深网在内的四家媒体两个小时的采访。 忙碌的状态在今年会一直持续。 “下半年会很忙,会提供很多解决方案。我们每周、每个月都会有很多新的大型用户来找我们合作,所以下半年会更加着重在商务的拓展,还有解决方案和应用的落地这两件事情上。” 按照简仁贤原本的规划,商业拓展本应在2018年才会启动,但客户及技术发展的需求让简仁贤决定加速。 改变发生于去年年底。 “我刚开始只是一股脑非常想要完成电影《Her》那样的场景。后来发现我们光做技术达不到那样的效果,一定要到行业里去应用。因为只有到行业里去应用,才能够拿到真实的用户使用数据,对你的模型才能做更精进。” 第一个被验证可以落地的垂直行业是电商,由第一个案例总结出的经验,随后被应用到金融行业上。与金融行业打上交道只是缘于巧合,但在与金融行业打交道的过程中,简仁贤发现了金融机构对于人机交互拥有的强烈需求。 “传统的金融机构备受压力,所以他们想要用我们一开始开发的对话及情绪情感技术,让他们的用户更能够贴近他们。” 依赖基于图像、语音和文字的情绪情感识别,竹间智能打造的人机交互系统与传统问答系统相比具有明显的特别和优势。 传统问答系统本质上需要依赖模板维护,系统通过识别用户问题中的关键词给出选项,并未真正实现人机对话,体验不佳,且维护成本高昂。竹间智能研发的交互系统则能够基于语义理解、语音和图像的情绪理解,真正理解用户的意图,快速给出准确的回应,并根据用户当前情绪,适当予以疏导。 简单的说,竹间智能的人机对话系统更像一个真正的人。要达到《Her》中的情景仍有很长的路要走,但相较传统问答系统,竹间智能的成果已往前一步。 三位一体攻克情绪识别 竹间智能团队目前语音、图像、语言三个方向的团队人数正在趋近于平均,语义理解和情绪识别是团队攻克的两大技术方向,其中,简仁贤尤其喜欢提及竹间智能基于图像的情绪情感识别技术。 如何让机器辨别出人的喜怒哀乐?传统的方法是将人的表情分解成不同的部分,基于不同部位的表现计算出一个可能的表情,竹间智能则是利用深度学习的方法进行识别。 对人脸识别进行情绪情感的辨识和决策依赖于9种情绪和22种属性,9种情绪是开心(Happy)、生气(Angry)、哀伤(Sad)、惊讶(Surprise)、害怕(Fear)、反感(Disgust)、轻视(Cotempt)、困惑(Confused)、中性(Neutral);22种属性包括性别、是否佩戴戴眼镜、头发长度、胡子样式、肤色、发色、年龄以及皮肤质量等。基于对人脸情绪的识别,结合对人脸属性的辨识,算法给出情绪识别的判断。语音的情绪识别则是基于音频、声波,结合深度学习的方法进行。 同时对语音、图像及文字的情绪情感识别进行攻坚,对于一家人数在150人左右的创业公司而言,并不是一个容易达成的目标。但简仁贤认为这是必须要做的事情。 选择这条路径,是基于简仁贤对人机交互未来发展趋势的判断。 (责任编辑:admin) |