再一次,人工智能欺骗了人类。在一项试验中,人工智能让73%的人信任人工智能组成声响作用是实在的。这一最新研讨成果有望应用于电影、电视剧和其他影视制作作业。

幻想一下,假如你在看一部恐怖电影:女主角在漆黑的地下室里哆嗦,背景音乐很糟糕,一些看不见的凶恶生物在漆黑中扭动,然后忽然有一个物体被一声巨响击倒。假如没有这种严重和恰当的音响作用,就很难经过眼睛看到场景来制作这种惊骇。

一般,这些声响作用都是由作业室里的福利艺术家录制的,他们用特定的物体宣布特别的声响。例如,假如导演想要在视频中增加破碎的玻璃声响,他或许需求福利艺术家打破很多的玻璃直到声响与视频编排相匹配。(DeepTech注:Foley,被称为拟声词,用于增强电影的听觉体会,是对日常声响作用的再现。)后期制作将增加到电影,视频和其他媒体,以进步音频质量.这些再现的声响能够以声响艺术家杰克弗利的姓名命名,从衣服和脚步声到任何吱吱作响的门和碎玻璃的声响。

现在,为了处理这个问题,德克萨斯大学圣安东尼奥分校的研讨人员发明了一个根据机器学习的自动化程序,该程序能够确认视频编排中产生的作业,并产生实在的声响作用,并使大多数人信任假声响作用是实在的。

关于这项作业,德克萨斯大学圣安东尼奥分校教授杰夫·普雷沃斯特(JeffPrevost)说,"自上世纪30年代以来,经过在后期制作电影和电视剧中运用福利艺术,为特定场景增加声响作用一直是一件杂乱的作业。"假如没有实在的福利音效,电影就会显得空泛和虚幻,但福利音效的组成却增加了电影和电视剧的发明周期和本钱。

普雷沃斯特和他的博士生桑奇塔·高斯(SanchitaGauss)创立的多层机器学习方案中,他们创立了两种不同的模型,包括辨认视频中的动作和确认正确的声响,以测验声响作用的组成。

第一个模型能够从快速运动动作编排的帧中提取图画特征(如色彩和运动),以确认适宜的声响作用;第二个模型经过联系推理剖析目标在不同帧中的时刻联系,并经过联系推理比较不同帧的时刻联系。该模型能够猜测视频中产生的作业。

在最终一步,模型猜测的活动或运动是经过组成声响来匹配的。现在,他们现已为1000个电影编排发明了声响,并捕捉到了常见的动作,如雨、飞马和滴答时钟。

研讨结果表明,他们的模型最好应用于不需求与视频完全相同的场景(例如,雨的声响和火焰的劈啪声),但当视频中包括随时刻改变的随机运动(例如打字、雷暴)时,作用就不太好。

此外,他们对57名当地大学生进行了查询,以确认他们是否能分辨出哪些电影片段包括了开始的声响作用。在评价第一种形式时,73%的学生挑选组成声响作用作为开始的声响作用,而在评价第二种形式时,这两种人工智能模型的份额为66%。能够看出,这两种人工智能模型欺骗了大多数人。

但是,Prevost说,这种办法仍有一个显着的缺陷,它有必要要求分类主题出现在整个视频帧序列中,而且依靠有限Foley类别的数据集。

「股票知识」七成以上的人无法分辨真假音效

在这方面,普雷沃斯特以为,这些缺陷将在往后的研讨中得到处理。