英特尔公司副总裁兼企业与政府事业部总经理rajeeb hazra博士在2019年6月17日于德国法兰克福举行的2019国际超算大会上代表英特尔发表主题演讲,介绍了英特尔最新的高性能计算产品和技术突破。
在2019国际超算大会(isc’19)上,英特尔介绍了一系列英特尔以数据为中心的产品组合如何改变下一代高性能计算(hpc)系统,并推动全行业向e级超算不断发展的最新情况。
英特尔公司副总裁兼极限计算部门总经理trish damkroger 表示:“在当今以数据为中心的世界,英特尔将继续推动创新并不断提升产品性能。我们的高性能计算解决方案产品组合——包括英特尔至强铂金9200处理器和英特尔傲腾数据中心级持久内存——实现了前所未有的科学探索和发现。”
如今,先进的高性能计算系统同时借助传统的高性能计算数据分析和人工智能技术,来高效处理最为复杂的科学问题。然而随着高性能计算系统对计算性能的要求越来越高,内存带宽日益成为一个瓶颈。
在日前举行的2019国际超算大会上,英特尔展示了其以数据为中心的产品组合如何通过将高性能计算数据分析和人工智能加速整合到一个单一的计算环境中,并提供新的内存和存储模式为计算引擎提供支持,进而解决高性能计算系统面临的独特挑战。
当前,英特尔以数据为中心的产品组合为系统架构师提供了构建先进计算系统的根基,赋能这些系统能够传输、存储和处理海量数据。
针对那些对计算性能有着最高要求的系统,英特尔近日还宣布,包括atos*、慧与(hpe)*、联想*、penguin computing*、megware*等在内的一些指定oem厂商以及经过授权的英特尔经销商目前已开始出货基于英特尔至强铂金9200处理器的预配置系统。作为第二代英特尔至强可扩展处理器产品系列的延续,英特尔至强铂金9200处理器系列为广泛的工作负载和用途提供领先的性能,诸如科学模拟、财务分析、人工智能/深度学习、3d建模与分析、密码学和数据压缩等场景。英特尔至强铂金9200处理器集成了英特尔深度学习加速(英特尔dl boost)技术,其人工智能性能相比上一代发布的至强可扩展处理器提高多达30倍。
在2019国际超算大会上,英特尔还与欧洲中期天气预报中心(ecmwf)*、爱丁堡大学并行计算中心(epcc)4*、富士通*、斯洛文尼亚it服务提供商arctur*以及nextgenio项目2中的其它合作伙伴公布了多项不同超算应用项目中使用英特尔傲腾数据中心级持久内存获得的最新突破性性能。
欧洲中期天气预报中心(ecmwf)将其fields database(保存中期天气预测的气象数据)存储于持久内存并分布在多个计算节点上之后,获得了10倍3的更高带宽。配备英特尔傲腾数据中心级持久内存的计算节点不仅加快了ecmwf的全球天气预测,还减少了运行其模型所需的i/o节点数量。arctur高性能计算中心与巴塞罗那超算中心携手合作,在模拟轻型电动飞机的3d模型时,获得了2倍3的速度提升,并在16个节点上将其openfoam运行时间缩短了50%3。爱丁堡大学并行计算中心(epcc)在配备英特尔傲腾数据中心持久内存的计算节点上运行代码后,在castep*材料科学应用上实现了2倍3的高吞吐量,加快了跨多个领域的材料科学研究。此外,英特尔进一步加快英特尔傲腾数据中心级持久内存在高性能计算系统中的应用,并宣布了一项针对超算推出的,利用英特尔傲腾数据中心级持久内存和分布式异步对象存储(daos)的革命性全新存储架构。其中,daos是一种提供高带宽、低延迟和高i/o操作的开源软件定义横向扩展对象存储,专为高性能计算和人工智能工作负载的融合而设计。这一全新的软件定义存储引擎消除了目前并行文件系统中的若干局限性。
alcf-x*项目总监/e级计算系统副总监susan coghlan表示:“阿贡领导力计算机构(alcf)将作为‘极光’(aurora)项目的一部分首次大规模生产部署daos存储系统,到2021年,‘极光’(aurora)将成为美国第一个e级计算系统。daos存储系统旨在提供e级系统上的i/o密集型工作负载所需的元数据运算速度和带宽。”
在2019国际超算大会上,英特尔还披露了其有关one api项目的更多信息。该项目将提供一个统一的编程模型,以简化多样化计算架构上的应用开发。同时,英特尔的one api将基于行业标准和开放规范,并可以与openmp*、mpi*和fortran*等进行交互操作。
1 配备英特尔 dl boost获得最高30倍的人工智能性能,对比了2017年7月发布的英特尔至强铂金8180处理器。英特尔于2019年2月26日前进行测试。平台:dragon rock 2 socket 英特尔至强铂金9282(每个插槽56个核心),启用超线程,启用睿频,总内存768 gb(24个插槽/ 32 gb/ 2933 mhz),bios: se5c620.86b.0d.01.0241.112020180249,centos 7 kernel 3.10.0-957.5.1.el7.x86_64,深度学习框架:intel optimization for caffe版:/intel/caffe d554cbf1, icc 2019.2.187,mkl dnn版本:v0.17(commit hash:830a10059a018cd2634d94195140cf2d8790a75a),模型: /intel/caffe/blob/master/models/intel_optimized_models/int8/resnet50_int8_full_conv.prototxt,bs=64,无数据层dummydata:3x224x224,56个实例/2个插槽,数据类型:int8 vs 英特尔于2017年7月11日前测试:2s英特尔至强铂金8180 cpu @ 2.50ghz(28个核心),禁用超线程,禁用睿频,通过intel_pstate驱动程序把调速器设置到“高性能”,384gb ddr4-2666 ecc ram。centos linux版本7.3.1611 (core),linux内核3.10.0-514.10.2.el7.x86_64。固态盘:英特尔固态盘dc s3700系列(800gb,2.5in sata 6gb/s,25nm,mlc)。性能测量使用了:环境变量:kmp_affinity=’granularity=fine, compact‘, omp_num_threads=56, cpu freq set with cpupower frequency-set -d 2.5g -u 3.8g -g performance。caffe:(/intel/caffe/),修订版f96b759f71b2281835f690af267158b82b150b5c。推理使用“caffe time –forward_only”指令测量,训练使用“caffe time”指令测量。对于“convnet”拓扑,使用了虚拟数据集。对于其它拓扑,数据存储在本地存储设备上并在训练之前在内存中缓存。拓扑规格来自于/intel/caffe/tree/master/models/intel_optimized_models (resnet-50)。英特尔c++编译器17.0.2 20170213版,英特尔mkl小型函数库2018.0.20170425版。caffe与“numactl -l”运行。
2 nextgenio项目由671951号grant agreement下的欧盟horizon 2020研究与创新项目进行资助。
3 系统配置细节由epcc提供:
34个配备英特尔至强可扩展处理器8260m cpu的dp节点(a0步进),富士通主板每个插槽96gb ddr4 dram(6×16 gb dimms,2666速度级),加1.5 tb英特尔傲腾数据中心级持久内存(6×256 gb dimms,qs)双轨omni-path网络(每个节点2个opa网卡),通过2个48端口opa交换机连接两个运行lustre的额外存储服务器节点4 epcc是爱丁堡大学先进计算中心
英特尔和英特尔标识是英特尔公司在美国和其他国家(地区)的商标。
*文中涉及的其它名称及品牌属于各自所有者资产。