据悉,这些数据存储库和相关数据包括了“人类基因型-表型数据库”平台dbGaP、用于大规模基因数据分析的云平台AnVIL等关键数据平台,这些平台拥有全球最核心的人类基因组、表型信息和疾病研究数据,是全球的研究人员长期以来高度依赖的数据库。
此前,美国司法部已经发布了一项最终规则,以实施2024年2月28日第14117号行政命令,该行政命令涉及“防止受关注国家访问美国人的大量敏感个人数据和美国政府相关数据”、以及“禁止和限制与某些国家或个人的某些数据交易”。美国司法部的最终规则将于2025年4月8日起正式生效。
对于美国突然针对中国等受关注国家和地区关闭核心生物信息数据库平台的做法,中国多位从事基因或肿瘤研究相关领域专家对第一财经记者表示,过去这些平台的数据库对全球的研究人员都免费开放,能促进前沿医学等领域的国际合作。现在美国单方面向中国等国家关闭了数据开放的大门,将对一些重要的前沿领域国际合作项目产生不利影响。
“这意味着中国的很多医学研究要拿到全球核心的数据库难度加大了,这会对科学的发展产生一定的负面影响。”一位生命科学领域从业者对第一财经记者表示。他进一步称,NIH是全球最大的生物医学研究机构,旗下平台数据的覆盖面非常广泛全面。
上述人士进一步称,中国的临床医生已经预料到美国可能会采取此类封锁行动,因此一些肿瘤领域的临床专家早在三五年前就呼吁要建立中国自己的数据库,但这一过程也面临挑战。“一个是经费方面的问题,另一个是管理方面的问题。”他表示,“国内现在很多数据仍然相当分散,一些医院拥有自己的小样本生物数据库,但没有一个共享的机制,国内迄今为止也没有建立诸如肿瘤生物样本的大数据库平台。”
一位美国高校神经科学研究员对第一财经记者表示:“对于今后还想用NIH数据库的中国项目而言,比如个别涉及人类遗传学方面的研究,美国最新的封锁措施会有一定的影响,但也并不是所有的医学研究都需要用到这些数据,因此整体而言的影响也有限。”
“这一做法非常 Stupid!不过,从美国政府对华为实施技术限制措施的时候,我们团队的研究就已经预料到会发展到这一步。”对于美国禁止中国用户访问科研数据库的做法,一名 C9 院校的资深教授告诉 DeepTech。
当地时间 4 月 4 日,由美国国家癌症研究所(NCI,National Cancer Institute)维护的、全球最大、最权威的公开癌症数据库之一 SEER(Surveillance, Epidemiology, and End Results)数据库,已经禁止中国用户使用,此前已经注册过的用户再也无法登录。另据悉,很快英国方面的相关数据库也将禁止中国用户使用。

SEER 在一封回复给用户的邮件中表示:“如果您最近失去了对 SEER*Stat 账户的访问权限,并且无法再登录,请留意最近的政策变化,该变化要求美国国家癌症研究所删除对 SEER 数据的访问权限。目前,我们无法恢复您的账户访问权限。为了支持最近的安全指令,国家卫生研究院正在实施技术更新,以加强安全措施,重点是保护国家卫生研究院受控访问数据存储库(CADRS,Controlled Access Data Repository System)提供的数据。具体而言,自 2025 年 4 月 4 日起,国家卫生研究院将禁止特定国家的研究人员和机构访问任何涉及国家卫生研究院 CADRS 和相关数据的正在进行中的项目,并将会终止这些项目。这些特定国家包括中国(含香港和澳门)、俄罗斯、伊朗、朝鲜、古巴和委内瑞拉,这符合行政令 14,117 和 28 CFR Part 202 规定的‘防止受关注国家或受关注人员访问美国敏感个人数据和政府相关数据。’请参见 Guide Notice NOT-OD-25-083 以获取更多信息。”

上述邮件所说的行政命令指的是,2024 年美国政府曾推出一项名为《关于防止关注国家获取美国公民大量敏感个人数据和美国政府相关数据的行政命令》。这一行政命令禁止或限制包括中国、俄罗斯、伊朗等六个“受关注国家”及相关个人获取美国人敏感数据的交易。其中,个人健康数据与人类基因组数据是重点受限领域。有些讽刺的是,美国政府还在这一行政命令中强调“美国致力于推动开放、全球、可互操作、可靠和安全的互联网”。

那么,此次禁止中国用户使用的 SEER 数据库为何如此备受关注?据了解,SEER 数据库建立于 1973 年,数据范围覆盖大约 34.6% 的美国人口,数据内容包含癌症发病率、患病率、死亡率、治疗和生存率等数据。此前,SEER 数据库每年都会发布新数据,研究人员可以免费申请使用。通过使用 SEER 数据库的数据,科研人员通常将其用于癌症流行病学研究、癌症预后因素分析、医疗政策制定和评估、癌症生存率趋势研究等。
一位业内人士告诉 DeepTech:“国内科技人员对于这一限制是有一些心理准备的,知道早晚会有这么一天,只是不知道什么时候会来而已。美国作为‘领头羊’挑起关税贸易壁垒之后,又开始在科研合作方面更进一步采取保护主义。以前科研人员还有渠道能够进行沟通,从当前形势来看,未来的渠道会越来越少。当前这种限制访问肯定会影响到美国科研人员与中国科研人员的合作。这也再次说明,科学无国界,但是科学家是有祖国的。”
广州大学关跃峰教授告诉 DeepTech,本次事件对于医学数据的对比研究来说,可能会因为数据不足导致研究结论的片面性。国际合作通常要数据共享,在双方脱钩的趋势下,建立合作将越开越难。考虑中国医学领域研究应用 SEER 的比例很高,预计短期内对医学研究的冲击会很大,比如癌症流行病学研究通常对数据库非常依赖。但是,中国也已经建设本土数据库,所以冲击不是致命的。
浙江湘湖实验室李果对全球性高影响力数据库的建设提出了自己的看法,他建议中国应该加快基础数据库的建设,在该领域具备足够的话语权与国际地位。
他说:“作为一名从事基因编辑技术开发与应用研究的科研人员,数据库就是我们最日常打交道的平台。没有数据信息共享,实际具体的科研工作很难开展。2023 年的数据显示,中国 75% 的癌症机制研究依赖美国数据库。原来可以通过生物信息学筛选靶点的研究现在被迫回归实验室试错,湿实验成本飙升,单课题成本预计增加 2-3 倍。如果这些公共数据库对我们都实施关停,那我们将不得不去寻找替代数据库,而使用替代数据库的研究可能会被质疑‘数据代表性不足’,如仅用中国生物银行(China Kadoorie Biobank)数据发表的成果,在 SCI 期刊接收率将会下降。无法获取 GTEx 正常组织表达谱,就会导致肿瘤特异性突变研究难以完成同行评审要求的对照实验,而这些都会严重影响我们的学术产出。”
李果表示,早在自己的学生时代,他就产生了一个疑问:中国为什么没有自己的具有全球性代表的数据库?他说:“说到这里就不得不聊聊国内科研圈面临的建设数据库具备高成本、低回报率的问题。虽然我们有每年发文量占世界第一的中国科学院,但仅仅以 2024 年的 CNS 三大刊发文数据来看,即便年年攀升占比却仍然低得可怜。这揭示出我们的原创性工作太少、引领性地位太低。我们现在在军事、半导体、芯片等领域已经有一席之地,但是在生命科学领域美国关停一个数据库,就会让我们的生命科研圈‘伤筋动骨’,这不得不让我们反思。什么时候我们能有堪比 NCBI 的数据库?什么时候我们能有比肩 CNS 的期刊?可能我们需要从现在就要做破局者,而不是在经历这次风波这后还在担心下一次的到来。”
但是,作为一名 60 后的科研老人,上述 C9 院校资深教授认为所谓的国际合作或许反而能够得到加强。在本次禁令以后,假如中国学者翻墙使用国外数据库,那么对于相关论文国外杂志将会不予发表。“但是,国内生物研究做得好的哪个不是和国外有联系的?”他表示,“所以,一方面确实中国学者的确会变得不太方便,很多本来能够采集到的数据还得去翻墙获取;另一方面,可能反而会迫使我们和国外学者开展更加紧密的合作,大家会一起从各个方面绕开这一次所谓的‘非常 Stupid’ 的限制。”
他表示:“就像欧盟一样,对于咱们国家它也是时不时地跟美国保持同一步调,要制裁这个要制裁那个。但是这次特朗普针对全世界开征关税之后,法国总统马克龙反而和中国站在同一立场,而在学术领域这也是同样的道理。”
同时,据这位 C9 院校资深教授预计这些数据库后面还有可能会重新开放。他分析称:“将来咱们也有自己的数据库,他们卖不出去了不还得再重新开放吗?”他继续说道,中国的生物技术和医药研究 99% 依然是在追随欧美的研究。等到中国也发展起来,国外还要反过来追随中国。“到时他们不开放数据给我们,我们说不定还要像他们当初这样卡他们的脖子呢。”而谈及国内数据库的现状,他表示:“这就不能跟你说了,国内的数据库有它的特点……”
作为一名即将满六十岁的资深学者,对于发论文的态度已经相对“佛系”。他表示:“将论文发到国外的期刊对我以及我们整个组来说,已经不是特别重要。当然,能发 CNS 还是挺好的,发不了 CNS 在国内的期刊发表,大家一起共同成长也可以。但是,在 CNS 发表论文对于 80 年代出生的那批 40 岁上下的人有着很大影响。因为他们在评各种头衔的时候,一说起来就会问你,有没有在 CNS 正刊上发表论文?因此,本次数据库禁用事件对于他们影响比较大。”
然而,宏观来看,上述 C9 院校资深教授并不认为美国方面禁用数据库会带来过于重大的影响。他指出,在药物大部分研究以及治疗方式的研究方面,很多国内研究都是跟着国外做。所以,美国卡生物数据库只是一种意识形态上的姿态,实际上没有太大的用处。“国内有几家生物技术和医药企业有可能会走在国际前列,但是他们还没有意识到。而到将来这些企业的‘海盗基因’就会暴露出来,到时就不会按所谓的国际法则行事了。所以,美国卡我们数据库这件事虽然不好,但也不必看得太严重。”
与此同时,其指出中国并非没有这方面的数据库,只是没有国外那么全。“我们团队做了一些调研,发现美国有一两千号人专门维持数据库。之前国内没有太重视这个事,现在国内的已有数据库要拿出来用也不是不行。只不过就像国产芯片一样,我们在制程上 7 纳米以下可能还有点问题,但是我们使用别的方法也能达到 5 纳米的水平。别看这次被卡脖子了,没准今年下半年咱们自己的某些数据库就会出来。总之,卡是卡不住的。比如,曾经被美国卡脖子的华为有海思这样的备胎,一备就是 10 年多甚至 20 年,而我们生物数据库也有类似的‘备胎’。”
上述 C9 院校资深教授还表示:“其实对咱们最狠的是拜登,他对待中国就像温水煮青蛙一样。拜登太阴了,短期内好像没有看到拜登有什么明显动作,但是从整个长期来看拜登针对咱们的措施比特朗普更强。”
在这种情况之下,国内的中小课题组恐将面临生存危机,但他认为这未必是一件坏事。“这反而可以让中小课题组重新反思自己该做什么。不仅是中小课题组,我认为 95% 以上的国内生物医药方面的所谓研究都存在一定问题。最近一两年我一直在说,生物医药在国内好像发展得烈火烹油、繁花似锦,但是如果把依赖国外数据这个‘拐棍’给掐掉了,还能做什么呢?如果做不了,又说明了什么呢?”
上述 C9 院校资深教授还指出:“中国做生物医药研究只是在发表论文方面排在前列,最近几年,我们只是把中国基础研究的水平提升到了国际上过去二三十年来所谓的主流分子医学的水平。但是,这个分子医学在分子生物学方面是否一定程度上需要重新审视?如果把中国生物医学‘前几名’的地位给打下来,如果真能这样也挺好,就像刺破房地产泡沫一样。”
那么,面对如今的局面,中国学者除了让国外合作者帮忙找数据之外,是否还有别的破局之法?前文提到的业内人士认为:“数据库是美国建的,这等于是人家自己的东西,我们能做的其实不多。不过,应对这种数据库限制访问的问题,我认为可能有几点值得去尝试。首先是中国学者可以集体呼吁,和美方展开一些磋商,看看有没有一些可行的解决方案,比如将本次被限制访问的数据库改为付费制。其次,可以和其它不受限的第三方国家合作。最后,最重要的一点就是中国需要快速建立属于我们自己的数据库。当我们建好自己的数据库后,再去和美国人谈判磋商的时候筹码就多一些,比如就可以讨论双方是否相互开放数据库,实现双方的互相共享。不过,眼下可能需要一些有识之士或者有影响力的人站出来呼吁。学术原本是一件纯粹的事情,非常希望这件事可以尽早结束,从而减少对于科学家的干扰,有利于持续推动科学发展,为人类社会发展创造新增量空间。”
关跃峰指出,这一变化只是开始,未来一定有更多脱钩政策出现。中国多年前就在未雨绸缪地建设本土数据库。加大本土数据库建设和使用,是中国科研圈的必然趋势。此外,加强美国以外的学术合作,也是重点方向。特朗普政府不只针对中国,也是在针对整个科研领域。因此,唯有抱团取暖,才能对抗风险。
参考资料:
https://bidenwhitehouse.archives.gov/briefing-room/presidential-actions/2024/02/28/executive-order-on-preventing-access-to-americans-bulk-sensitive-personal-data-and-united-states-government-related-data-by-countries-of-concern/