可以自动读出声音的阅读软件(什么软件可以读文字读出声音)

计算机视觉是过去几十年中研究得相当多的一个领域,主要是因为它在建造自动驾驶汽车和其他可以像人类一样“看”世界的工具方面有直接和明显的应用。然而,这种水平的研究最

计算机视觉是过去几十年中研究得相当多的一个领域,主要是因为它在建造自动驾驶汽车和其他可以像人类一样“看”世界的工具方面有直接和明显的应用。然而,这种水平的研究最近才出现的一个领域是使用声音而不是视觉来模拟环境。现在,麻省理工学院(MIT)的研究人员撰写了一篇研究论文,其中涉及了在这一领域训练的机器学习(ML)模型的构建。

麻省理工学院新闻网站的一篇博文称,麻省理工学院-IBM Watson人工智能实验室合作建立了一个ML模型,利用空之间的声学来观察和模拟环境。简单来说,这个模型就是通过弄清楚听众如何从某一点听到声音,并传播到不同的位置,从而实现对环境的映射。

这种技术有很多优点,因为它只能用声音来确定环境物体的基本三维几何形状。然后,它可以呈现精确的视觉效果来重建环境。潜在的应用包括虚拟和增强现实,以及增强人工智能代理,使他们能够通过使用声音和视觉更好地可视化他们的环境。例如,与计算机视觉相比,水下探索机器人可以利用声学更好地确定某些物体的位置。

可以自动读出声音的阅读软件(什么软件可以读文字读出声音)插图图表显示了房间的3D模型,以下是带声音的热视图类型的概念。

研究人员强调,与基于计算机视觉相比,基于声音建立这种ML模型要复杂得多。这是因为计算机视觉模型利用了一种称为光度一致性的属性,这意味着当从不同角度观看时,一个物体看起来大致相同。这不适用于声音,因为根据听者的位置和其他障碍,你从一个来源听到的可能会非常不同。

为了解决这个问题,研究人员使用了另外两个特征,即互易性和局部几何。前者基本上是说,即使演讲者和听众的位置对调,声音也是一模一样的。同时,局部几何映射包括通过结合神经声学场(NAF)中的互易性来捕获对象和其他建筑组件。

为了使ML模型在测试环境中工作,需要向其中输入一些视觉信息和声谱图,其中包含了基于指定的始发者和听众位置的音频听起来会是什么样子。根据这些输入,模型可以准确地确定当观众在环境中移动时声音将如何变化。

研究论文的主要作者安德鲁·罗(Andrew Luo)指出:“如果你想象自己站在一个门口附近,对你听到的声音影响最强的是那个门口的存在,而不一定是房间另一边离你很远的几何特征。我们发现,与简单的全连接网络相比,这些信息可以得到更好的总结。”

展望未来,研究人员希望进一步加强该模型,使其能够可视化更大更复杂的环境,如一座建筑甚至整个城市。

你可以在这里阅读他们的研究论文:

https://arxiv.org/pdf/2204.00628.pdf

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/221759.html

发表回复

登录后才能评论