最近忙,写大戏、写总结、写3G、写超级计算机,就是没 时间写博客。这段时间,我最有感触的是中国大飞机制造的高科技支撑有着落了,曙光5000A,打进全球超级计算机500强排行榜前十榜单,使得中国继美国 后,成为为世界上第二个可以研发生产百万亿次超级计算机的国家。所以要和大家一起分享 。
曙光5000A将在上海超级计算中心安家,将用来支撑我国大飞机制造
“百万亿次计算机到底是一个什么概念?用它计算一天,用家用的PC计算大概要算33年。”上海超级计算机中心姚继锋博士这样解释曙光5000A。
在前不久公布的全球超级计算机500强排行榜中, 装了微软Windows HPC Server 2008操作系统的曙光5000A实现了百万亿次的突破,以峰值速度233.47万亿次、Linpack值180.6万亿次的成绩,跻身世界超级计算机级计算机前十名。
这是本次排名中在美国之外的唯一进入前十名的超级计算机。由此,中国成为世界上第二个可以研发生产百万亿次超级计算机的国家 。
奇迹诞生于地下车库
2008年,除了北京的奥运场馆外,中国科学院计算所地下车库是一个最令人兴奋和激动的场所。 因为,中国史上最牛的计算机最牛的运算纪录就是诞生于这里。
2008年9月初,中国科学院计算所地下车库一片忙碌,这里正在紧锣密鼓地搭建一个数据中心。造价两亿元人民币的1920台服务器已从天津工厂运抵北京, 由于机器太多、太沉,一楼的地面无法沉重,机器们只能屈尊于这里。
整个数据中心的搭建非常神速,仅仅用了10天左右的时间。仅一个晚上,居然将现场共计700条,总长达60公里的光纤全部部署完毕。原因很简单,曙光公司 调动了可以调动的全部人员,包括秘书、财务等行政人员。
由于大规模的计算集群对于硬件的稳定性要求非常高,一台机器的一条内存出问题就会导致整个任务失败。因此整个过程中来自曙光的工程师们一直轮流值班,并在 现场准备了大量备份硬件,一旦发现问题立刻上前更换。
这样夜以继日的目标只有一个,赶上11月在美国奥斯汀举办的第21届超级计算机大会,跻身到世界权威的Top 500超级计算机排名的前列。这份自信来源于最近的两次测试:6月,在首台安装了Windows HPC Server 2008的服务器上进行的单节点测试中,运算效率达到了86%,为同期各类操作系统中最高;7月,在32节点测试中,运算效率达到84%,几乎实现了节点 数目-运算能力的线形扩展。
从9月1日开始搭建计算机到10月28日完成最后测试结果,微软和曙光的工程师团队,与这台重50吨的超级计算机“同吃同住同劳动”了7周半之久,多次在 最后的期限前奇迹般的实现既定目标。
9月28日,曙光5000A的浮点运算能力达到87.6 T;9月29日,系统运算能力即突破百T大关达到116.3 T,得以赶在世界超级计算机大会的截止日期——10月1日之前顺利申报全球超级计算机的Top500;10月9日,达到了140.3 T的新高;10月13日凌晨两点左右,运算能力达到167.4 T,突破了此前曙光预计的160 T,“创造了中国高性能计算的历史”;在经历了10月25日174.9 T和10月26日的179.8 T之后,2008年10月28日,曙光5000A得到它提交给世界超级计算机大会的最终结果——180.6 T。
要知道这些成绩是在一个由地下车库改造成的、占地达2000平方米、几乎完全不通风的、环境噪音接近70分贝的数据中心中诞生的。曙光和微软的工程师们平 均每天在这里工作14小时以上,在工作现场的机柜旁、停车场的角落里,你可以看到悄然入睡的疲惫身影。
冒险者的双赢
曙光公司副总裁聂华坦承,选择跟微软合作,多少有一点冒险成分。之前,曙光的超级计算机一向依托于Unix或Linux高性能操作系统环境。
从2007年选择WCCS2003开始,曙光和微软在高性能计算机上开展合作,最重要的一点是,“当高性能计算做到一定境界的时候,曙光真正关心的是能否 对整个高性能计算产业经济发挥作用,能否促进高性能计算机使用得更普及。” 聂华说,“而Windows操作系统显然会让用户感觉更亲切,调试更方便,界面更友好,这是合作的基础所在。”
对微软而言,将初出茅庐Windows HPC Server 2008在这么大规模的计算集群上部署和应用,尚属首次。此前,微软HPC团队服务过的最大客户是美国国家超级计算应用中心(NCSA),当时构建的超级 计算机由1200个双路四核的服务器节点构成。而此次曙光5000A由1920个四路四核的服务器节点构成,规模是作为高性能计算技术的全球领先者的 NCSA拥有的超级计算机的4倍,这对微软中国HPC团队来说,挑战非同寻常。
其实,作为国家863项目的5000A,最开始招标是做一个百万亿次计算机,根本用不了1920个节点。由于863项目国家走的程序有一个很长时间的延 后,技术已经发展了,大家觉得百万亿次不足以显示技术实力,所以决定挑战一下节点的极限。
在9月29日取得116.3TFlops的运算结果之后,工程师们在10多天的时间里一直无法取得任何的突破,有人质疑,Windows HPC Server 2008真的是如此大规模计算集群的正确选择吗?顶住压力,不放弃是唯一选择。在总结了前段时间屡屡失败的教训后,终于在10月9日,达到了140.3 T的新高,并随后多次刷新了中国超级计算机运算纪录。冒险与挑战极限,让曙光、微软向世界证明了他们的真正实力。
评论
技术全球化有利于自主创新
毫无疑问,曙光5000A超级计算机打进全球高性能计算机Top500强前十名榜单,是中国自主创新的一个典范。
曙光5000A不仅在全球超级计算机500强的排行中取得亚洲第一,全球第十的骄人成绩,更是向世界表明中国已经成为继美国之外,第二个可以研发生产百万 亿次超级计算机的国家。
这一成绩背后值得关注的一点是,支撑5000A运行的是微软的高性能计算平台Windows HPC Server 2008,这也是它第一次在大规模的超级计算机上亮相。为了和曙光一起见证“中国高性能计算历史”,微软中国HPC团队动用了来自全球的骨干技术力量,可 谓不惜血本。最终,曙光5000A使微软向全球表明了它在高性能计算领域中所潜藏的巨大能量和实力。
从这一角度来看,曙光5000A是技术创新全球化的一个重要案例。曙光恰好抓住了跨国公司微软向全球公司转变、研发力量东移所带来的创新机遇。事实上,在 跨国公司研发全球化的趋势下,利用国际资源与产业结构调整来开拓自己的创新平台和创新产品,提高国家的创新能力正在成为科技界的共识。
技术全球化有利于自主创新。正如科技日报社长张景安所说的那样,自主创新,从来就不是封闭创新。高科技发展的一个重要规律就是在竞争中合作,又竞争又合作 比关起门来自己竞争要强得多;中国科技界应该发扬奥运精神。奥运健儿跟世界冠军比赛,科技界应该瞄准图灵奖、诺贝尔奖,而不是自己设个奖评。
因此,我们呼吁业界总结经验、解放思想,反对闭关自守,克服迷信权威的思想,适应研发全球化、经济全球化的挑战。在跨国公司研发全球化的趋势下,充分利用 国际科技和产业资源,明白自己真正需要什么资源,拓展哪方面能力,从而获取创新的主要收益。(文/毛江华)