日点击10亿的全球疫情图背后,是俩中国博士生
每天早上起来第一件事,就是打开电脑查看网页、邮箱,看看有没有数据需要更新更正。然后全天随时监控疫情数据,动辄还要以近乎7×24(每周每天连续24小时)的方式连轴转……
新冠疫情暴发几个月以来,这是约翰·霍普金斯大学博士生董恩盛和杜鸿儒每天的常态。
全球政府、媒体、专业人士奉为圭臬,日点击量超过10亿次的约翰·霍普金斯大学全球新冠疫情数据地图,就诞生在这所学校两名中国博士生的个人电脑上。
故事,还得从两个多月前的一杯咖啡说起。
全球疫情数据No.1 从一杯咖啡开始编辑本段
1月20日星期一是美国的马丁·路德·金纪念日。法定假日与周六日连成了一个小长假,这使董恩盛和杜鸿儒导师劳伦·加德纳原定每周一的组会推到了周二上午10点举行。
24个小时之前,钟南山院士刚刚通过央视直播画面向全世界确认了新冠病毒人传人和医护人员感染的情况,美国也在同日确诊了首例新冠肺炎病例。周二一早,董恩盛已从新闻得知武汉可能即将“封城”的消息,对国内的情况有些担心。
董恩盛
但在约翰·霍普金斯大学,刚刚结束假期的师生正一身轻松。假期里举行了博士资格考试,董恩盛和杜鸿儒都顺利通过。导师加德纳教授给每人买了一杯咖啡,大家边喝边聊,从假期生活聊到下学期的研究计划。
杜鸿儒
师生三人所在的是约翰·霍普金斯大学土木和系统工程系的系统科学和工程中心,加德纳教授在学校的传染病学院挂职,他们的研究方向包含系统工程、数学建模、网络分析和流行病学。
劳伦·加德纳教授
喝着咖啡,加德纳教授问董恩盛:“你知不知道最近中国的新冠肺炎很严重?”
2019年5月,董恩盛就曾设计过一个美国麻疹风险的地图,被纽约时报、美国有线电视新闻网(CNN)等媒体报道。这次,加德纳教授向董恩盛建议,针对中国的新冠疫情再做一个数据地图。
“因为有做美国麻疹地图的经验,基本上我只要把麻疹换成新冠肺炎的数据就可以完成基础工作了。”当天晚上,约翰斯·霍普金斯大学全球新冠疫情数据地图便在董恩盛手中应运而生。不过这时的地图默认视角还只限于东亚地区。
2月1日,杜鸿儒也正式加入了这项工作中。每天起早贪黑维护疫情地图,关于中国疫情的数据,两人主要通过中国国家卫健委和丁香园网站获得。
“随着确诊病例在更多国家出现,一个明显的对比是,中国方面的数据在呈现形式和及时性上都要好非常多,为数据获取和录入带来很大便利。”董恩盛告诉北京日报(ID:Beijing_Daily)记者,起始阶段,其他国家的疫情数据主要来自媒体,直到现在,全球疫情已非常严重的情况下,美国具体到一些郡县的疫情数据都难以从公开渠道获得,“但是中国的话,从各县、市的卫健委基本都能相对容易地找到相关数据。”
这张图缘何成为全球关注中心编辑本段
医学和公共卫生是约翰·霍普金斯大学的强项,其公共卫生学院历来在美国高校排名第一。2月底,美国的新冠肺炎确诊病例悄然达到数十例,伊朗和意大利疫情呈现出暴发态势,董恩盛和杜鸿儒制作的疫情地图也受到越来越多关注。
“大概是在这个阶段,美国地方卫生部门联系到了我们,表示希望在地图上看到美国的情况。”董恩盛说,如果再单做一个美国的地图,工作量太大。除此之外,不同国家的用户也找到他们,提出一些建议和需求,甚至有人希望能做一个本国语言的版本,“我说这我们可万万做不到了。”
既然无法满足每个人特定的需求,团队决定干脆把疫情地图的默认范围扩大到全世界。
其实,鉴于新冠肺炎前所未有的破坏力和威胁性,这样面向全球的“疫情数据地图”系统,约翰·霍普金斯大学并不是独一家。哈佛大学与牛津大学合作,美国疾控中心(CDC),以及微软的必应搜索(Bing)都设计发布了类似的系统,供全球公众使用。
CDC发布的美国疫情地图能显示各州疫情数据,因其官方性质,具有权威性。但董恩盛表示,与他们的地图相比,CDC地图有两个明显缺点,更新不及时,且精度有限。
“可能今天更新的是还前一天的数据,而我们基本是实时更新。他们的数据只能精确到州一级,我们可以精确到州下面的郡县。”
事实上,也正是由于发现CDC数据精度不足,董恩盛和杜鸿儒才起意对自己地图的美国部分进行了精度“升级”。
哈佛和牛津和合作设计的疫情地图,更新速度和数据详尽程度也不如约翰·霍普金斯大学。有一个明显的区别是,前者用颜色深浅来体现疫情的严重程度,后者是用点的大小。杜鸿儒介绍,哈佛、牛津的地图有动画显示新冠疫情发生以来全球发展过程的功能,这是他们没有的。
董恩盛对微软Bing设计的疫情地图称赞有加。
记者发现,Bing的地图在某些方面可以提供比约翰·霍普金斯大学更精确的数据,例如俄罗斯、印度、印尼等国的地方疫情数据,而约翰·霍普金斯大学的地图在这几个国家还只显示全国数据。不过,后者能用曲线、柱状图等形式体现疫情发生以来每个国家的疫情发展趋势,功能更丰富,而且数据公开,为学术研究提供了便利。
数据的更新、功能的完善都须耗费大量时间和精力。对新冠疫情在全球范围的发展进程,作为团队的第一个“援兵”,杜鸿儒坦言出乎意料。
“加德纳教授和恩盛开始只是想追踪一下疫情在中国的发展,没想到后来需要的人力越来越多,也没想到两个月以后美国的情况会比中国严重得多。”
两个多月下来,约翰·霍普金斯大学全球新冠疫情数据地图早已成为全球最权威的疫情数据平台。
起初,在团队只有七八个人的情况下,连续工作一周,每人每天要承担15小时到20小时的工作量,压力巨大。这在3月23日地图数据更新模式升级为全自动后得到了改观。团队现在已有三四十名成员,来自美国各地和其他一些国家,通过网络共同对地图进行维护和相互沟通。董恩盛说,自己的角色也发生了转变,“现在有点像个产品经理了。”
虽然师生三人并不属于公共卫生院系,但约翰·霍普金斯大学从各方面给予他们很大支持。和导师加德纳教授一起,董恩盛和杜鸿儒可以经常参与传染病学院的讨论,获得学术建议;学校已停课并封闭半个多月,但专门给他们办了出入证,以便他们进校继续必要的科研活动;校长办公室更直接给他们安排了一名行政助理。这些都成为疫情地图得以发展至今的坚强后盾。
疫情数据有真伪?他们这么看编辑本段
董恩盛赴美学习已有七八年,杜鸿儒有三年。自疫情在湖北暴发以来,大洋彼岸的他们经历了从担心到被担心的过程。截至当地时间4月8日,约翰·霍普金斯大学所在的巴尔的摩已有571个确诊病例,这对200多万人口的巴尔的摩来说不是个小数。同时,巴尔的摩出了名的混乱治安也加重了两人和家人的担忧。
董恩盛告诉记者,从1月到现在,自己出门买菜的次数不超过5次,更多情况下通过外卖购入物资。“巴尔的摩挺不安全的,经常发生枪击。当地人对病毒的防护意识也还是不强,我们出门基本上只去防护比较好的亚洲超市。”
中国成功的疫情防控令世界瞩目,出自中国留学生之手的约翰·霍普金斯大学全球新冠疫情数据地图,自然也带有了中国元素。杜鸿儒直言:“地图能这么快做出来,跟我和恩盛来自中国有一定关系。相较其他人来说,我们对疫情的重视程度更高,在地图建设起始阶段的投入也更大。”
丁香园网站是地图最初的主要数据来源。“丁香园只有中文,语言的先天优势让我们可以最快地转换丁香园的数据,并把资料翻译成英文给导师参考。”杜鸿儒说。
对近来国际上围绕中国疫情数据产生的“质疑”,董恩盛也有自己的见解。在他看来,中国疫情数据的增长曲线在达到一定水平后就很和缓,可以证明疫情得到了控制。想要进一步证明数据的真伪,很多国家都很难做到这一点,特别是在疫情蔓延全球之后。
2月13日,湖北突然通报新增了13000多例临床诊断病例。董恩盛觉得这是一个比较合理的统计方式的变化,但国际上却因此对中国疫情数据有很多批评。
“其实美国也有类似问题,还有像意大利有段时间只报重症病例。美国有的州县不报外地的病例,比如缅因州挨着波士顿和纽约,如果有一个在大城市注册了身份的感染者回到当地被确诊,可能不会被纳入当地确诊病例进行通报。但他本来所在的大城市也可能不把他列入确诊当中,因为他已经离开了。这就给数据的精确统计造成干扰。”
作为全球疫情数据“中心”的制造者,对美国日益严重的疫情状况,两人都表示“不容乐观”。
杜鸿儒说,虽然从确诊病例所占人口比例来说,意大利和西班牙的情况比美国严重,但美国确诊病例的确已呈现为指数型增长。
“自从美国颁布居家隔离政策后,已经能看出个别地区出现好转,但能否迎来‘拐点’还不太清楚。目前我们能做的分析只有判断哪些地区风险比较高,未来的确诊、死亡增长趋势没法预测,如果预测只能预测3天到5天的。”
董恩盛则说,最让他担心的还是美国普通民众对疫情的重视程度,因为只有每一个人都真正关心自己和身边人的安全,“全民战疫”,才能真的把病毒控制住,而不是政府说你要怎么做,才去应付。
两人告诉记者,接下来,地图的功能还要做进一步的优化和升级,他们可能将加入美国各州的病毒检测数据,以及确诊病例在人口中的比例,“都是很关键的数据。”