智能音箱进阶:新增视觉功能 终极形态是家庭机器人
阿里巴巴人工智能实验室于3月22日发布人机交互系统AliGenie2.0版本。新版本最大特点是在原有“听”和“说”的交互体验基础上,引入视觉能力。
据悉,AliGenie 2.0的视觉能力包括图像识别、人脸识别、物体检测。搭载新版本的“天猫精灵”成为首款能“看见”的智能音箱。然而,天猫精灵并没有推出一款“带屏幕的音箱”,而是推出了“精灵火眼”功能:通过XHolder外设及“精灵火眼”应用程序,用户能连接自己的手机,为天猫精灵加一块屏幕。
“精灵火眼”初期上线了读书、识别药盒等功能。比如,面向儿童使用场景,“精灵火眼”与出版社合作,精选了适合3岁到8岁儿童的117套图书。面向老年人使用场景,“精灵火眼”推出识别药盒的功能,能识别4万种药盒,只要扫一扫就能用语音播报药名、功效、过期日等信息。
在阿里巴巴人工智能实验室看来,智能音箱终极形态是家庭机器人,从“听”“说”,到“视觉交互”,再到“行动力”,阿里巴巴希望通过引入视觉能力加速这种进化。
据了解,天猫精灵上市200多天,即实现200万台销量。在全球市场,最畅销的智能音箱亚马逊ECHO达到这一数字,用了一年多的时间。可见,中国智能音箱市场的发展非常迅速。
而在国内,人工智能带动“百箱大战”,目前智能音箱的品类繁多、功能却走向趋同。在阿里巴巴人工智能实验室负责人浅雪看来,这种情况不会持续很久,大多数没有技术投入、生态建设的产品会消亡,最终可能只剩两到三个主要玩家。
尽管当前市场都把目光瞄准硬件,但浅雪认为,未来发展的核心趋势在于云和端的能力。“我们会不断把更多的能力,引入到家庭场景当中,不断定义我们对人机交互的理解、对家的理解。”
来源: 新华网