八〇后“超算导师”:超算软件研发更需“愚公移山”精神
这段时间,国家超级计算无锡中心副主任付昊桓一直关注着疫情药物的筛选。如果有合适的软件应用,将会对超级计算机筛选过程提供强大助力。
“超级计算机为解决工程和科学中的重大难题而生。”付昊桓说,超级计算机不只是比速度,更是比应用。
“神威·太湖之光”团队在国际范围的首次亮相,是2016年6月21日德国法兰克福的国际超算大会(ISC)上。
在付昊桓介绍系统技术细节的大会报告之后,数以千计的国际同行频繁穿梭于几平方米的神威展台,以至于会展结束时,展台的地毯都翘了起来。
“神威·太湖之光”虽荣登“全球超级计算机500强”榜首,但西方国家对中国“纯国产”超级计算机“神威”的威力还持怀疑态度。
半年后,在美国盐城湖举办的世界超算大会(SC)上,国际超算应用领域的最高奖“戈登贝尔奖”揭晓。当时,全球共计6个超算研究项目入选“戈登贝尔奖”提名,其中3个项目来自中国。付昊桓参与的“千万核可扩展大气动力学全隐式模拟”最终摘得桂冠。这是自1987年“戈登贝尔奖”设立以来,中国科研团队首次获奖。
第二年,付昊桓主持的两个项目——“非线性地震模拟”和“全球气候模式的高性能模拟”项目又入围了“戈登贝尔奖”,占当年入围项目的2/3。其中,“非线性地震模拟”再次获奖,蝉联“戈登贝尔奖”。
作为一名80后,付昊桓在本科、硕士、博士阶段攻读的都是计算机科学,在博士后阶段,他突然转向研究地球物理。后来,他回到清华大学地球系统科学系任教。
如此选择,源于他攻读博士学位期间与一位地球物理领域研究者的合作。他们的暑期研究项目虽然只进行了一两个月,但最终成果受到广泛关注,最后被来自意大利的石油公司应用到生产中。
交叉学科的魅力,一下子吸引了付昊桓。原本打算毕业后进入产业界的他再次选择科研。
“刚开始进行交叉学科研究有些痛苦,需要一段时间的磨合期。”他说,他学计算机专业,其他教师研究地球物理、气象气候等地球科学。起初,双方讲专业术语,互相都听不懂。“但时间久了,我们就能感受到学科之间的互相碰撞,产生了火花。”
“其实超级计算机本身就是一个跨学科平台。”付昊桓说,超级计算机是由各个不同科学领域的科学家用户用来解决“宇宙的起源”“黑洞的形成”“全球的气候变化”等超级问题的一个交叉平台:上层是用户和应用,中层是算法,下层是超算架构。
“这和跨学科、跨机构的研究团队是一样的,只有上下都贯穿起来,才能系统性地解决问题。”付昊桓将这种跨学科合作研究,概括为“和而不同”。“和,即合作的心态;不同,即不同的学科、不同的能力、不同的理解。不同学科的融合,才会自然产生更强的创新能力。”
2015年底,付昊桓被任命为国家超级计算无锡中心副主任。而他与“神威·太湖之光”的缘分早在当年夏天就已开始。
当时正值“神威·太湖之光”超级计算机研制与组装的关键时期,付昊桓带领来自清华大学和北京师范大学的20多名师生来到无锡,以用户的身份,基于正在建设中的“神威·太湖之光”进行全球气候模式软件的研发。
研发初期,超算中心的基础设施尚不完备,仅有的几台空调只能用来给机器降温,以保证机器的运行。他们每天都要在蒸笼一样的环境中,从早到晚地做程序开发和测试。无奈之下,他们买来10多个落地大电扇。尽管如此,每天结束工作,他们每个人都像洗了“汗水澡”,全身湿透。
基于“神威·太湖之光”这样世界领先的超算平台进行软件应用研发,对于付昊桓来说是个弥足珍贵的机会。特别是冲击“戈登贝尔奖”的项目中,有难得的机会用神威系统上千万的计算核心来进行突破性的探索和尝试。
为了争分夺秒地进行项目测试,付昊桓和其他成员都几乎开启了“7×24”的工作模式,大家交替休息,在有限的测试窗口保证计算任务持续运转。
更大的挑战则来自软件的生态。由于神威采用的是全国产的新型片上融合异构芯片,原有的基于x86架构设计的大量科学及工程计算软件,无法直接在神威上高效运行。
作为付昊桓在清华大学带的第一个博士生,甘霖说,正常的应用也就几千到几万行代码,而他们当时面对的地球系统模式代码是近百万行。这些是各国气候学家在过去几十年里积累下来的对大气、海洋、陆面、海冰等各个圈层变化机制的理解,每个人写代码的风格不同。为此,他们需要逐步进行代码的转换、移植乃至重新设计,最后为“神威·太湖之光”超级计算机所用,这是个“愚公移山”的过程。
从2015到现在,他们团队持续工作,该项目仍在不断更新。超算大会主席表示,他们所做的工作让人无法想象,这个工作如此繁重,他们却有如此的信心和耐心。
2017年,他们的应用精确模拟了2005年8月发生在美国的卡特里娜飓风,成为当年全球入围“戈登贝尔奖”的3个应用之一。
此后,他们进一步与国家气象局以及新能源企业展开深入合作,提供业务支持。付昊桓最大的心愿就是,在国产超算硬件的基础上,推动国产软件生态的可持续发展,服务更多的用户,解决更多的实际应用难题。