您访问的页面找不回来了!
返回首页- 您感兴趣的信息加载中...
算力说
无论是在电影还是小说中,预测未来的能力总是让人惊叹。运用AI算法,透过声音或像素流向对未来进行预测,或将为你打开这扇新世界的大门。
MIT、UCBerkeley强强联手,用AI听出你的姿势
在今年的CPVR2019论文中,有一篇跨模转换的文章吸引了算力智库的注意。这究竟有什么特别之处呢?原来,只需要音频语音输入,AI可以预测并生成出相对应的手势,而所谓的跨模转换即为声音到手势及手臂动作的转换,让我们先来看段视频了解一下。
视频的左上是标定好的真实数据,而右边的视频则是基于左下的预测部分进行合成的。通过观察,我们可以发现预测数据对比真实数据的准确度是高度一致的,这种神奇的操作又是基于何种原理呢?
语音预测动作的技术原理大致分为以下四个要素:
1.首先,需要训练与音频相对应的姿势检测序列(能将指定序列从数码流中识别出的方法)。研究人员使用L1回归到2D关键点的序列堆来学习从语音到手势的映射。
2.其次,使用对抗性鉴别器(防止数据训练时源标签信息丢失以及结果多样性不足的鉴别器)来避免回归到所有可能姿势的平均值,以确保预测动作的可信度。
3.进而,运用卷积音频编码器(用以音频纠错的编码器)对2D图像进行采样并转换为1D信号。
4.最后使用Unet转换架构(用已转换的1D信号重建2D图像的转换架构)。而bottleneck作为构建Unet转换架构的三大组成之一,为完全卷积网络(由卷积音频编码器及Unet转换架构组成)提供了过去和未来时间的上下文。而这一步即为预测速度的关键。
在了解了相关技术之后,让我们来感受一下这个神奇的视频。
动画角色创建或成为最先应用
说话者的手势是独特的,对一个人进行训练并预测另一个人的手势并不起效。这些个人特定手势往往带有自己的风格,无论是睁大眼睛又或是手舞足蹈。比如下面这两位。
而无论你的动作细微还是夸张,都逃不过AI的“法耳”。
研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。
东京工大建立FuturePose系统,提前看穿你的下一步
东京工业大学的研究团队于今年在IEEE上发布了一套名为FuturePose格斗训练系统。这套系统可以帮助实验者预测对手未来0.5秒后的动作。让我们先看两个有趣的动图来了解一下。
研究人员通过RGB像素流向,运用机器学习来定位关节,进而根据关节摆动方向来预测对手未来的动作。
【TechWeb】7月5日消息,据国外媒体报道,本田汽车在日前举办的技术说明会上宣布,计划在2020年实现“3级”自动驾驶实用化,即在有限条件下实现驾驶自动化
【TechWeb】最近,米家发布了一款新玩具,米家九号平衡轮,Segway-Ninebot设计制造,售价999元,目前已在小米商城上架。是可供5至50周岁体重小于80kg的人群使用的高科技风火轮
蓝鲸TMT频道7月5日讯,腾讯视频日前宣布将持续加大对国漫的投入力度,通过强化内容储备、产品迭代创新、升级合作模式以及打造国漫英雄宇宙等维度,助力国漫发展