pgd606(pgd606)

机器心脏释放机器之心编辑部第一,效率提高大大提高动态图下分布式训练的效率。在深度学习中,当数据集和参数的规模越来越大时,训练所需的时间和硬件资源就会增加,最终成

机器心脏释放

机器之心编辑部

比PyTorch更快,MindSpore一周年升级巨量新特性

第一,效率提高

大大提高动态图下分布式训练的效率。

在深度学习中,当数据集和参数的规模越来越大时,训练所需的时间和硬件资源就会增加,最终成为训练的瓶颈。分布式并行训练可以降低对内存和计算性能等硬件的需求,是一种重要的训练优化方法。目前MindSpore动态图模式已经支持数据并行。通过按批量维度划分数据,将数据分布到各个计算单元进行模型训练,从而缩短训练时间。

基于ResNet50 v1.5+ImageNet数据集测试,在瑞星计算硬件平台上,MindSpore的动态图模式分布式性能可以达到PyTorch典型分布式场景的1.6倍,静态图模式分布式性能也可以达到TensorFlow典型分布式场景的2倍。

py入门:https://www . mindsport . cn/tutorial/training/zh-cn/r 1.2/advanced _ use/debug _ in _ py native _ mode.html

数据预处理加速Dvpp

它是数据机器学习的基础。在网络推理场景中,我们需要对不同的数据进行预处理,从中筛选出核心信息,放入我们训练好的模型中进行推理和预测。在实际应用场景中,我们经常需要推理大量的原始数据,比如实时视频流。因此,我们在瑞星推理平台中引入Dvpp模块来加速网络推理的数据预处理过程。

Dvpp数据预处理模块提供C++接口,提供图像解码、缩放、中心抠图、标准化等功能。在Dvpp模块的设计中,考虑到整体的易用性,其功能与MindData现有的CPU操作符重叠,所以我们统一了其API,通过推理执行接口设置运行设备来区分。用户可以根据自己的硬件环境选择最佳的执行算子。Dvpp数据预处理过程如下图所示:

比PyTorch更快,MindSpore一周年升级巨量新特性

我们在瑞星推理服务器上测试了Dvpp系列算子的性能。该服务器拥有128个主频为2.6GHz的CPU内核和128Gb的内存空。实验中我们选取了yoloV3网络和coco2017推理数据集的40504幅图像进行推理,最终得到输入大小为[416,416]的图像。

我们使用Dvpp算子和CPU算子对数据进行预处理,得到如下性能比较:

可以看出,Dvpp系列运算器在处理大量数据时,相比CPU运算器具有明显的性能优势。在该实验中,处理40,504幅图像的性能FPS提高了129%。

查看教程:https://www . mindsport . cn/tutorial/influence/zh-cn/r 1.2/multi _ platform _ influence _ ascend _ 310 _ mindir.html # ascend-310

第二,创新

分子模拟库(海绵),来自社区分子动力学工作组

海绵的MindSpore版本是由北京大学的高和深圳湾实验室以及社区中分子动力学工作组(MM WG)的华为MindSpore团队共同开发的分子模拟库。它具有高性能和模块化。

为什么需要开发海绵?

分子动力学模拟是一种利用牛顿定律近似描述微观原子和分子演化的计算机模拟方法。它既可用于基础科学研究,也可用于工业应用。在基础科学领域,分子动力学有助于研究者从微观角度研究体系的物理化学性质。

在工业生产中,它可以利用大规模计算的能力来辅助药物分子的设计和蛋白质靶点的寻找[1,2]。由于模拟时间和空之间尺度的限制,传统分子动力学软件的应用范围受到很大限制。研究人员也在不断开发新的力场模型[3,4],采样方法[5,6]并尝试结合新的人工智能[7,8],进一步拓展分子动力学模拟的应用领域。

因此,新一代分子动力学软件需要提上日程。它应该是模块化的,可以支持科学家有效地创建和构建可以验证他们的理论模型的结构。同时,还需要兼顾传统仿真方法的效率,并与其在传统领域的使用相兼容。此外,为了实现分子模拟和机器学习的自然融合,它还应该具有嵌入人工智能框架中的形式。海绵是基于这些思想而创建的全新的、完全独立的分子模拟软件。

与以往基于传统分子模拟软件结合SITS方法的生物分子增强采样相比[9],海绵原生支持SITS并优化了计算过程,使得使用SITS方法模拟生物系统的效率更高。对于极化体系,传统的分子模拟结合定量计算用于解决电荷浮动问题[10]。即使用机器学习来减少计算量,也会在程序数据传输的问题上浪费很多时间。而海绵通过使用模块化的特性,可以支持与内存中的机器学习程序直接通信,大大减少了整体的计算时间。

比PyTorch更快,MindSpore一周年升级巨量新特性

图1: Na [CpG]和Lys生物分子模拟可以结合SITS和其他方法进行。

比PyTorch更快,MindSpore一周年升级巨量新特性

图2:机器学习+分子模拟的方法可以更快更准确的模拟偏振系统。图为[C1MIm]Cl离子液体的模拟。

MindSpore +海绵

基于MindSpore的自动并行和图形融合特性,海绵可以高效地完成传统的分子模拟过程。海绵可以利用MindSpore的自动分化,将神经网络等AI方法与传统的分子模拟结合起来。

比PyTorch更快,MindSpore一周年升级巨量新特性

海绵模块化设计结构图

海绵是MindSpore1.2版的开源产品,具有以下优点:

1.全模块化分子模拟。模块化分子模拟算法易于领域R&D人员快速实现理论和算法,并为外部开发者贡献子模块提供友好的开源社区环境。

2.实现了传统分子模拟与MindSpore相结合的人工智能算法的全过程。在MindSpore中,R&D人员可以方便地将人工智能方法应用于分子模拟。全算子海绵将与MindSpore进一步结合,成为新一代端到端可微分的分子模拟软件,实现人工智能与分子模拟的自然融合。

教程:https://www . mindsport . cn/tutorial/training/zh-cn/r 1.2/advanced _ use/HPC _ sponge.html

mind spore+海绵的前景

展望:后续版本更新中会增加MetaITS模块、有限元计算模块等已经得到理论验证的功能。这些模块将帮助海绵更好地模拟相变和金属表面。同时,海绵版MindSpore的各个模块逐渐支持自动微分和自动并行,为连接机器学习方案提供了更加友好的支持。

远期展望:扩展海绵的各种特征模块,使其能够描述大部分微观体系,具有较高的计算和采样效率。针对特定的工业需求,如药物筛选或晶型预测,基于海绵会衍生出完整的基于流程的计算方案,可以满足大规模并行计算的需求。在MindSpore框架下,海绵具有元优化功能,从而实现更准确、更快速的力场拟合。

MindQuantum,来自社区量子力学工作组。

MindQuantum是结合MindSpore和HiQ开发的量子机器学习框架,支持各种量子神经网络的训练和推理。得益于华为HiQ团队的量子计算模拟器和MindSpore的高性能自动微分能力,MindQuantum可以高效处理量子机器学习、量子化学模拟和量子优化,性能达到业界TOP1(基准测试),为研究人员、教师和学生快速设计和验证量子机器学习算法提供了高效平台。

比PyTorch更快,MindSpore一周年升级巨量新特性

mindquantum与tfquantum/paddlequantum的性能比较

比PyTorch更快,MindSpore一周年升级巨量新特性

比PyTorch更快,MindSpore一周年升级巨量新特性

查看教程:https://www . mindsport . cn/tutorial/training/zh-cn/r 1.2/advanced _ use/parameterized _ quantum _ circuit.html

多跳知识推理测验(TPRR)

TPRR是华为泊松实验室和华为MindSpore团队为解决开放域多跳问题而提出的通用模型。与传统问答系统只需要从单个文档中检索答案相比,多跳知识推理问答系统需要从多个支持文档中获取最终答案,并返回从问题到答案的推理链。基于MindSpore的混合精度,TPRR可以高效地完成多跳问答推理过程。

完整路径建模:

TPRR模型基于多跳问题推理链各环节的所有推理路径建立条件概率模型,该模型从“全局角度”进行知识推理。

动态样本选择:

TPRR模型采用动态样本的建模方法,通过更强的比较学习增强模型的多跳问答能力。

算法流程图如下:

比PyTorch更快,MindSpore一周年升级巨量新特性

TPRR模型荣登国际权威多跳问答榜HotpotQA评测榜首,榜单图如下:

比PyTorch更快,MindSpore一周年升级巨量新特性

查看教程:tprr.html https://www.mindsport.cn/tutorial/influence/zh-cn/r1.2/nlp

三。易用性

一键模型迁移(MindConverter)

脚本迁移工具(MindConverter)旨在帮助算法工程师将基于三方框架开发的现有模型快速迁移到MindSpore生态系统。该工具根据用户提供的TensorFlow PB或ONNX模型文件,生成可读的MindSpore Python模型定义脚本(。py)和相应的模型权重(。ckpt)通过分析模型的计算图。

比PyTorch更快,MindSpore一周年升级巨量新特性

一键迁移:

通过MindConverter CLI命令可以一键将模型迁移到MindSpore下的模型定义脚本和对应的权重文件中,节省了模型重新训练和模型定义脚本开发的时间。

100%移动性:

在MindConverter有跨框架算子映射的情况下,迁移后的脚本可以直接用于推理,达到100%的迁移率;

支持的型号列表:

目前,该工具已经支持计算机视觉领域的典型模型、自然语言处理的BERT预训练模型的脚本和权重的迁移。有关型号的详细列表,请参见README。

BERT模型定义迁移结果显示(部分代码):

比PyTorch更快,MindSpore一周年升级巨量新特性

查看教程:https://www . mindsport . cn/tutorial/training/zh-cn/r 1.2/advanced _ use/migrate _ 3rd _ scripts _ mindconverter.html?highlight =思维转换器

四。可靠性

健壮性评估工具帮助OCR服务满足第一个AI C4健壮性标准的要求。

MindSpore稳健性测试工具MindArmour,基于针对样本的黑白盒(20+方法)、自然扰动(10+方法)等技术,提供高效的稳健性评估方案,帮助客户评估模型的稳健性,找出模型的弱点。

OCR是指利用光学设备捕捉图像和识别字符,降低人力成本,快速提高工作效率;如果攻击者对要识别的字符进行人眼察觉不到的改动,模型无法正确识别或处理,那么OCR服务对字符识别的准确率就会下降,用户也不会知道问题背后的原因。评测小组使用MindArmour对OCR服务的健壮性进行了评测,发现OCR服务中部分模型对自然扰动和样本的防御能力较差。例如,在检测噪声、PGD和粒子群算法等攻击算法下,文本框检测模型的准确率低于66%。通过使用该方法,可以指导模型开发团队以95+%的准确率识别恶意样本,并通过反样本检测和数据增强训练等技术提高模型和OCR服务的健壮性。

比PyTorch更快,MindSpore一周年升级巨量新特性

https://www.bsi.bund.de/shareddocs/downloads/en/BSI/cloud计算/人工智能C4/人工智能-云服务-合规-标准-目录_ aic4.html C4标准链接

第五,更值得期待

事实上,MindSpore即将带来的大量新功能并不局限于本文展示的例子,例如超大规模参数化模型、可解释的AI、MindSpore物联网支持以及其他更前卫的功能。它们将在4月底的华为开发者大会2021(云)上亮相,社区也将在近期发布新的开源工具集。敬请期待!MindSpore社区,开源一周年,会给你带来源源不断的惊喜!

参考资料:

[1]德维沃M,马塞蒂M,博特戈尼G,等.分子动力学及相关方法在药物发现中的作用[J].药物化学杂志,2016,59(9): 4035-4061。

[2]刘,石,周,等.分子动力学模拟与新药发现[J].药物发现专家意见,2018,13(1): 23-37。

[3] Robustelli P,Piana S,Shaw D E .发展折叠和无序蛋白质状态的分子动力学力场[J].美国国家科学院院刊,2018,115(21): E4758-E4766。

4.[2]聂润波,黑德-戈登.生物分子模拟力场的新进展[J].结构生物学当前观点,2018,49: 129-138。

[5]杨友义,邵青,张军,等.分子动力学中的增强采样[J].化学物理学报,2019,151(7): 070902。

[6]伯纳迪,梅洛,舒尔腾.生物系统分子动力学模拟中的增强采样技术[J].生物化学与生物物理学报(BBA)-普通学科,2015,1850(5): 872-877。

[7]王H,张L,韩J,等. DeePMD-kit:一个用于多体势能表象和分子动力学的深度学习软件包[J].计算机物理通信,2018,228: 178-184。

[8]Ribeiro J . M . L,Bravo P,Wang Y,等.用于增强抽样的加权自动编码变分Bayes(RAVE)[J].化学物理学报,2018,149(7): 072301。

[9]杨L,秦高y .一种选择性综合回火方法[J].化学物理学报,2009,131(21): 12B606。

[10]阚泽,朱青,杨林,等.离子液体中纤维素溶解的极化效应:极化模型和积分tempe环增强取样法的分子动力学模拟[J].中国科学院学报.物理化学学报B,2017,121(17): 4319-4332。

MindSpore官方信息

吉图布:https://github.com/mindspore-ai/mindspore

gitee:https://gitee . com/mind spore/mind spore

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/20417.html

发表回复

登录后才能评论