《基因大数据智能生产及分析》笔记

简佐义/2020-11-11

基因慧的行业报告整体上不错,这次《基因大数据智能生产及分析》也不例外,一口气读完,感受是智能化是行业趋势,打工人的日子更难了。文章有点长,没时间看的话你可以拉到文后看我的一点感想。

序言

陈润生院士:基于基因大数据的精准医疗时代已经来临

2019年,《国务院关于实施健康中国行动的意见》明确提出,预防为主,从以治病为中心转变为以人民健康为中心。

疾病,还是重在预防,真得病了,医生也没什么办法,医学界不是流行一句话么:

To cure sometimes,to relieve often, to comfort always.

有时治愈,时常帮助,总是安慰。

因此,管住嘴,甩开腿,才是长久的健康之道。你一天整两包烟,哪天得肺癌了,医生也无能为力。

如何落实以以人民健康为中心的任务?最核心的任务是维护全生命周期健康和防控重大疾病,这与基因大数据革新传统医疗健康的模式息息相关。

精准医疗与传统医疗有何不同?传统医学往往是同类疾病给予相同的药物,这存在缺陷,因为症状相同,并不意味着病因相同。

如何实现”同病异治“?——答案就是生命健康大数据,其中最核心的是组学数据,而组学数据中最基础的是基因组数据,组学数据结合临床表型形成生命大数据。

如何更好将基因大数据转化为科研和产业的价值呢?

首先,需建立百万数量级的生物样本库,这是建立各种标准的基础;其次,针对生物样本库,要进行多组学测量,所以我们看到基因组是最先兴趣的产业;而编码蛋白质的传统基因只占3%,另外97%非编码的重大信息仍需进一步挖掘,大数据技术会得到空前发展;第三,有了数据和样本后,需要从大数据中挖掘信息,这需要生物信息学和AI在内的数字技术融合,包括新兴的分子诊断和生物创新药会兴趣;第四,基于以上的组学大数据及带来的新兴产品,精准预防和精准医疗的理念将得以实现。

方向东:基因大数据及智能化重构现代医学

重点:

“国家基因组科学数据中心”和”国家生物信息中心“已经正式提供服务。

《中华人民共和国人类遗传资源管理条例》自2019年7月1日起施行。

云计算、人工智能、区块链、5G等前沿技术,结合生命组学大数据,将会更加有效地支撑个性化精准医疗、智能临床决策支持、全民健康管理和公共卫生风险防控等。

行业代表寄语

基因科技守护生命健康。

​ ——李瑞强(北京诺禾致源科技股份有限公司董事长 & CEO)

过去十余年里,测序技术快速发展。针对基因大数据的生产、计算、存储和管理,华大智造提供贯穿全流程的自动化和信息化解决方案。

​ ——单日强(深圳华大智造科技股份有限公司CIO)

目前,我们已经走到了第四次工业革命的起点和风口上,人工智能和知识计算在基因领域的突破和应用会促进医疗健康行业的再次蓬勃发展,在基因诊断、临床研究和药物研发等领域带来巨大的机遇。

​ ——贾永利(华为云人工智能领域总裁)

随着测序成本的下降,测序不再是难题,而基因数据解读成为世界性难题,解决这一难题的终极途径就是构建基因 - 表型大数据。

​ ——谷为岳(北京智因东方转化医学研究中心有限公司CEO)

第一部分 行业概况

一、生命健康新基建

(一) 新基建

新型基础设施(简称“新基建”)的概念第一次出现是在2015年《国务院关于积极推进“互联网+”行动的指导意见》中,此后从2018年起被频繁提及,并于2020年4月的国务院常务会议中被正式定义,新基建主要包括三个方面:

一是信息基础设施:信息基础设施主要指基于新一代信息技术演化生成的基础设施,包括以5G、物联网、工业互联网、卫星互联网为代表的通信网络基础设施;以人工智能、云计算、区块链等为代表的新技术基础设施;以数据中心、智能计算中心为代表的算力基础设施等。

二是融合基础设施:主要指深度应用互联网、大数据、人工智能等技术,支撑传统基础设施转型升级,进而形成的融合基础设施,例如,智能交通基础设施、智慧能源基础设施等。

三是创新基础设施:主要是指支撑科学研究、技术开发、产品研制的具有公益属性的基础设施。例如,重大科技基础设施、科教基础设施、产业技术创新基础设施等。

(二) 生命健康新基建

生命健康新基建的内涵,主要围绕着生命的中心法则:

遗传信息由DNA传向RNA或由RNA传向DNA,mRNA作为指导蛋白质合成的直接模板,将DNA/RNA上储存的遗传信息传递给蛋白质,蛋白质进而发挥功能并影响人体系统机能。

生命的中心法则:

DNA -> RNA ->蛋白质 -> 细胞 -> 组织 -> 系统 -> 个体

DNA形成基因组、RNA形成转录组,结合蛋白组、代谢组、微生物组等构成生命组学。

一方面,基因大数据自身具备生命健康新基建的属性。

另一方面,基因大数据是新基建中针对众多数字技术(云计算、人工智能、5G、区块链等)最具价值的输入之一。

(三) 基因大数据

基因大数据指的是基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等获得的大规模、具有数据挖掘应用价值的多样本基因数据信息。

基因大数据本质是生命数字化的基础信息,包括核心的先天遗传信息以及后天随环境改变的基因变异信息,是生物个体及群体的身份识别、疾病健康生物标记以及生命组装等方面的基本要素。

关于pan-genome:

对于基因数据结构,除了目前的参考基因组组装及数据库、人口级基因队列和区域数据中心建设,2015年,泛基因组学联盟提出基于更丰富的数据结构代替传统的线性参考基因组,即泛基因组(pan-genome),丰富基因数据中隐含的变异、相似性、频率和功能性内容的信息等。

基因数据的生产,目前还是主要基于测序技术,由实验技术人员完成,具体过程包括样本采集、文库制备和测序,属于湿实验过程。

基因数据的分析,通常称之为“生物信息分析”,是在计算机或计算集群上完成,一般称之为“干实验”(相对于湿实验而言)。

二、发展现状

(一) 市场规模

根据BCC Research数据,全球基因测序市场总体规模从2012年的35亿美元增长至2019年约为130亿美元。基因慧预测,2020年全球基因市场规模为180亿美元。预计新冠疫情刺激的全球基因市场会至少持续增长两年,2022进入相对稳定增长状态,预计到2025年全球基因市场规模可达360亿美元。

基因慧预计2020年国内基因行业市场规模可达149亿元。未来几年国内基因测序市场的普及率与渗透率会逐步提高,市场规模增势稳健,复合增长率预计将超过35%,到2025年市场规模预计约为727亿元。

(二) 转化应用

Tab1.3

1. 医疗健康领域

(1) 科研服务

科研服务主要内容包括基础研究、临床研究、新药发现等,用户主体为科研机构、医院和制药公司。基础科研和临床科研作为医学可持续发展的充分必要条件,为医学的发展提供了强大的支撑。国内药企新药研发正处于起步阶段,在生物药研发热潮下,新药研发将成为科研应用市场新的增长点。

(2) 临床服务

基因大数据应用方面,临床服务市场增速最快,应用场景已经涵盖了生命全周期:孕前、产前、新生儿、儿童、中青年、老年人,包括生育健康、肿瘤基因检测以及遗传病筛查。

生育健康方面,主要包括孕前携带者筛查、产前基因论断和辅助生殖的胚胎移植前诊断/筛查(PGD/PGS)。目前国内最成熟的应用是无创产前诊断与筛查(NIPT/NIPS),市场格局较稳定,70%市场份额由华硕基因和贝瑞基因占领,但目前国内的渗透率不足5%,预计五年内市场规模可达百亿元级。

除了生育健康,肿瘤临床基因检测是当前发展最快的方向之一,包括:

1)用药指导(基于疾病分子分型,对患者用药进行伴随诊断)

2)病情监测(确诊癌症患者的治疗预后、复发监控)

3)早期诊断(疑似癌症患者的辅助诊断、高危人群早期筛查)

4)易感基因检测(健康人群的患癌风险评估)

肿瘤基因检测目前价格还是较贵,难以普惠于民。结合肿瘤患病人数的增长趋势以及基因检测渗透率,基因慧预计肿瘤应用市场2025年能达到300亿元。

遗传病的筛查诊断方面最成熟的应用是单基因遗传病诊断,主要针对的是一些罕见病的辅助诊断。此外,新生儿遗传代谢病以及其他复杂遗传性疾病的基因检测由于疾病类型众多,单种疾病患者人群数量较少,临床诊断应用市场相对分散。基因慧预计遗传病筛查与诊断市场规模五年内达到80亿元。

(3) 健康管理

健康管理方向的应用主要面向个人消费者,包括易感基因筛查、药物代谢、营养代谢以及其他。易感基因筛查主要针对神经系统疾病、代谢相关疾病等具有明确分子生物标记的疾病;消费级基因检测包括祖源分析、运动表现、营养代谢、皮肤特质等。目前健康管理领域应用产品比较繁杂,市场相对分散,大多数为初创公司,产品处于探索阶段,带有互联网属性。目前发展较快的国外相关企业包括23andMe、Ancestry、Helix、Human Longeity(HLI)、Counsyl、Arivale等;国内相关企业起步较快,但大规模企业较少,主要市场份额集中在WeGene、23魔方、水母基因、圆基因等企业。

健康管理赛道的基因企业的核心价值是基因大数据,而不可或缺的互补数据是对应的表型信息,包括家谱信息、个体特征、疾病表型、生活方式等数据,而这方面受限于数据安全机制、采集困难以及共享机制等局限。目前,这方面的代表企业是美国族谱企业Ancestry。

(4) 公共卫生

传感染性疾病是全球发病和死亡的主要原因之一,早年的公共卫生受到忽视。截至2020年8月28日,新型冠状病毒肺炎的爆发给全球带来累计超过2457万人感染,超83万人死亡。我国基于核酸检测等技术的新冠排查覆盖超过2000万人,显示了核酸检测在传感染防控的技术优势。根据华大基因2020年年度业绩预告,由于市场上半年对新冠病毒检测试剂盒的需求大幅增长,感染防控业务和精准医学综合解决方案在报告期内实现了大幅增长,整体营收较上年同期增长超过200%。

2 其他

随着测序成本不断下降以及大数据的规模效应,基因技术应用范围从医疗健康领域逐渐扩展到其他领域,包括植物育种、动物器官移植、司法鉴定、基因合成、DNA存储等领域。目前除了司法鉴定外,其他大部分领域相对还处在早期服务阶段,尚未形成成熟的产品,但前景可观。

(三) 行业重难点

1 业务整合难度高,探索高附加值服务

目前行业的价值仍依赖于测序设备、试剂盒产品,而基因数据分析流程依赖于灵活可扩展的基础计算设施、高效准确的分析软件以及数据整合和挖掘能力。

以上每一个环节技术研发壁垒高,整合起来难度大,尚未有完全打通从采样到报告生成全流程的业务。市场上各企业都是在各自的优势领域提供高附加值的服务,但提供完整解决方案的屈指可数。

华大智造联合国内一些企业搞产业联盟,试图打造一个完整的生态系统,值得关注。

2. 大数据行业相关标准不完整

基因行业目前亟需要系统的、公认的数据标准,并以此建立通用的数据库,如此才能有效地将基因大数据转化为价值。

3. 基因大数据易形成“信息孤岛”

基因大数据是生命健康大数据的组成部分,除了自身发挥分子生物标记、遗传资源等作用之外,与其他生命组学数据更多维信息整合时,将发挥更大的价值。这里的更多维信息,包括但不限于个体及家系临床医疗信息、个体表征信息、生活方式信息、环境信息、群体信息等。但由于政策风险、医疗信息化兼容、标准不统一、权责不清等诸多因素,数字生命健康大数据实现互通还需要很长的一段时间。

因此,2017年,诞生了三大健康医疗大数据“国家队”:

中国健康医疗大数据产业发展有限公司

中国健康医疗大数据科技发展集团公司

中国健康医疗大数据股份有限公司

4. 数据隐私和数据安全

这方面美国有一系列法案:隐私权法、HIPAA(医疗保险携带和责任法)、COPPA(儿童在线隐私保护法案)、HITECH(经济与临床健康信息技术法案)。在我国,基因数据相关的安全性逐步受到重视和监管,特别是人类遗传资源管理和生物安全方面,近年加大管控力度。同时,基因大数据只有在共享机制下才能协同形成数据中心,服务区域发展及整体战略。如何平衡可控共享及数据安全是亟待政策引导及产业实践探索。

第二部分 行业背景

三、政策及监管背景

基因行业具备强监管性,尤其是基因大数据的高敏感性,与人类遗传资源管理、生物安全相关法规相关。

美国双通路监管机制:

美国主要由两个联邦机构对基因行业实施监管:食品药品管理局(FDA,Food and Drug Administration)与医疗保险和医疗补助服务中心(CMS, The Centers for Medicare & Medicaid Services)。

在美国,基因测序设备在进入临床应用之前,有不同路径的审核方式:

第一种是通过FDA认证。

另一种是通过获得CMS的CLIA认证,然后开发LDTs。

国内基因测序政策及准入机制:

我国基因行业的监管机构主要由发改委、卫健委和药品监督管理局(NMPA)等机构构成。发改委负责整个基因检测产业的发展规划及指导定价,卫健委负责对基因测序技术的临床应用管理、以及基因检测机构的资质进行审查和规范,NMPA负责对基因检测设备、试剂以及生信分析软件的审批。

四、市场背景

(一) 数字化与卫生经济

党的十八大以来,政府高度重视发展数字经济,推动数字经济逐渐上升为国家战略。在数字经济时代,数据作为关键要素,将成为新经济下的“石油和矿产”。

2018年国务院机构改革,新设国家卫健委、国家医保局、国家药品监督管理局,明确划分“医疗、医保、医药”各自权责,加快医改步伐。医疗服务的主要支付方(医保局)与医疗服务提供方(卫健委)分离的管理体制,将在一定程度上强化购买方对医疗服务体系的治理作用。

随着新设医保局工作的展开,医保改革加速由被动支付向主动支付的转变,医保将进入精细化管理时代。

(二) 人群队列研究及全生命周期管理

基因大数据离不开大规模样本研究。人类基因组计划(Human Genome Project,简称HGP)建立了首个人类的参考基因组,在基因组学和生物信息学等领域中有着开创性意义。基于HGP的成果,全球各国科学家通力协作,展开了一系列群体基因组计划,完善参考基因组在人种信息、完整度、基因型与表型对应关系等方面信息。

HapMap——时间:2002-2007,完成人类常见遗传多态位点(SNP)目录

1000 Genome(千人基因组计划)——时间:2008-2015,完成详尽的人类基因组遗传变异目录

gnomAD(基因组聚合数据库)——时间:2012-至今,从12万余个外显子组和1.5万多个全基因组测序数据中鉴定出超44万个功能改变相关的基因变异

ENCODE DNA元素百科全局计划——时间:2003-2012,鉴定和分析人类基因组序列中完整的功能元件

人群队列研究和群体基因组计划的本质是建立基因数据图谱,进而形成基线数据,即干预前的群体及个体背景基因数据。有了基线数据,全生命周期的健康管理技术体系的迭代正逐步加快。

(三) 大数据重构基因及数字生命健康产业

1. 转化应用市场变革

临床研究方面:

基因大数据正逐步革新对疾病的认识和研究方法。例如:改变传统的以发病生理系统来定义疾病的规则,以致病基因来重新对疾病进行分类、诊断和治疗;基于遗传标记和生物标志物研发新的靶向疗法;识别患者亚群之间的不良事件反应等。

临床诊断方面:

基因大数据应用于临床诊断的技术逻辑是作为生物标志物进行分子诊断,是传统临床诊断的补充甚至部分情况下的替代。主要包括三种情况:类似NIPT在部分情况下减少穿刺机会的替代技术;针对同一类疾病的异质性,基于分子标志物对同一疾病的分子分型;从临床表型以及传统检测方法难以确诊的疑难杂症采用基因检测技术进行辅助诊断。

合理用药方面:

伴随诊断的技术逻辑和临床试验入组的逻辑类似,即针对基于分子标志物开发的靶向药或免疫治疗药物,筛选药物适用人群或进行预后监测。重构的点是,随着靶向药及伴随诊断产品越来越多样化,疾病诊断的分组将发生改变,打破此前按照解剖/生理系统来划分的原则。

疾病筛查方面:

基于基因突变、甲基化对疾病(目前重点围绕癌症)进行早期筛查,本质是区分健康人群和患者的模式识别,由于癌种的多基因关联或驱动的特性,相比单基因遗传病的诊断复杂度高了很多。

因此,方法从GWAS(全基因组关联分析)、PheWAS(全表型组关联分析)为代表的相关性研究趋向以PRS(多基因风险评分)为代表的预测性研究;从数据上,以SNP为代表的位点研究趋向以Haplotype等为代表的强调序列信息的分析研究。

2. 产业模式变革

首先,基于基因大数据发展起来的相关技术,将逐渐改变未来公共卫生监测、疾病靶点发现、健康筛查以及临床诊疗的模式,改变“假设驱动”到“数据验证”的传统范式,逐步发展“数据驱动”到“科学发现”的创新范式。

其次,基因大数据对高性能计算、存储、传输等需求,带来基因云平台的需求和建设,不仅通过按需使用来提高计算资源的有效利用,也建立了数据多中心远程协作、开放式开发、数据共享等平台,整体提高基因数据分析和利用效益。

最后,产业智能化和数字化将改变基因行业的上游和中游生产关系。例如诺禾致源的柔性智能生产平台,以及华大的全自动文库制备生产线MGIGLab-L。

(四) 智能生产趋势

智能生产体系的解决方案是必然趋势:

1)通过系统调度和24小时生产提升生产效率,保障更快的交付周期;

2)通过无人化、智能化质控,保障更稳定的交付质量;

3)突破NGS测序过程中的协作孤岛,完成从样本提取、样本质控、建库、文库质控、文库pooling、上机测序及生物信息分析的全流程智能化。

智能化改变生产关系,说白了就是低端的打工人就业更难了。

五、技术背景

(一) 基因检测技术

基因数据的生产环节主要依赖于测序仪、PCR、光学图谱、基因芯片阅读仪等生产设备及样品处理、建库等配套和试剂耗材,处于整个基因检测行业的上游位置,是技术门槛最高、厂商最少、利润率最高的环节。从技术上包括测序、PCR、DNA微阵列、NanoString、光学图谱等技术。

测序技术:

测序技术的变革:Sanger测序 > NGS > 单分子测序。

PCR技术:

PCR由Kary Mullis于1985年发明并因此获得诺贝尔化学奖。PCR本质是将微量的DNA扩增,用于NGS等很多技术环节,经过后续发展成实时荧光定量PCR(qPCR)、数字PCR(dPCR)等,也可独立用于DNA检测等。

DNA microarray(或称“DNA微阵列”、“基因芯片”等):

在DNA微阵列中,单链DNA(ssDNA)探针固定在不连续位置的基底上,其斑点小至50μm。靶DNA用荧光团标记并与阵列杂交,信号强度用于确定结合分子的数量。DNA微阵列可用于检测SNP或CNV等。

NanoString:

与微阵列类似,可用于基因表达分析、CNV和SNP检测以及整合基因检测。

Optical mapping(光学图谱):

光学图谱技术是快速生成高分辨率、有序的全基因组限制性内切酶图谱的方法,能够有效地将长读长技术与低分辨率测序技术互补结合。

(二) 数据分析及解读

1. 数据分析

基因数据分析,一般称为生物信息分析,核心工具是软件和数据库。其中,软件主要基于特定的分析需求而实现的完整功能的算法代码包;数据库是为特定功能分析建立的参考数据集。

三大生物信息中心:

  • Broad Institute

  • Wellcome Sanger Institute

  • BGI Research Institute

两大生物信息工具开放平台:

  • Galaxy

  • GenePattern

2. 数据解读

基因数据解读对应临床上核心环节是遗传咨询,尚没有相关的学术及职业教育,仍需进一步规范。

基因数据生产 -> 生物信息分析 -> 基因数据解读是三个紧密配合的环节,每一个环节对从业人员的能力都有特殊的要求,通常对应三种不同的工作岗位,即实验技术人员,生物信息人员及报告解读人员。

3. 基因数据的规模和挖掘需求对生物信息分析的挑战

基因大数据对算力、存储、传输都形成了巨大挑战,尤其是存储成本,往往大于计算成本。

除了对计算资源需求,数据共享和数据挖掘是将基因大数据价值最大化的重要环节:

1)只有推动数据共享和开放才能建立人口级、队列级基因数据库,为分析及解读标准提供基线,为数学模型及分析工具提供必要的训练集,但是由于基因数据的特殊性,在共享的时候,要保障数据端到端的安全和隐私合规,构建全方位的安全体系。区块链关于这方面的加密技术正在研发应用中,有望解决数据共享与隐私保护的两难问题。

2)随着基因数据量级剧增,生物信息分析环节除了常规分析挖掘手段,以人工智能等机器学习方法对百万级基因大数据进行数据挖掘,不但有前沿研究的必要性,而且具有巨大的市场化潜力。尤其是疾病风险评估、大规模人口健康管理及公共卫生监测等领域。

(三) 云计算 / 人工智能 / 区块链 / 5G

目前,人工智能和区块链在基因组大数据应用方面尚处于早期阶段,云计算的应用已经初见成效,特别是弹性运算及存储,对基因行业的中小企业帮助很大。比如我曾经工作过的一家创业公司,常会将大样本的计算任务放到亚马逊或天河2的集群上去执行。阿里云的OSS存储系统,也为中心企业的数据存储与交付提供了便利。

而5G在基因行业的应用,我最看好其速度,基因数据传输速度快了,也更方便企业将数据的分析与存储放到云端,而不是像现在一样,大量数据的传输还得靠快递或卡车。

1. 云计算

从框架上,云平台一般分为IaaS、PaaS和SaaS三层结构。

IaaS基础设施即服务:通过网络向用户提供计算机、存储空间、网络连接、负载均衡和防火墙等基本计算资源。如阿里云的弹性计算,OSS存储等。

PaaS平台即服务:大众熟悉的云平台,就是提供一个网站,用户可以上传数据并完成分析,也可以对分析流程进行定制,如华大基因的BGI online平台。目前云平台多数都是企业内部使用,很少对外提供服务。

SaaS软件即服务:用户通过轻量的客户端接口(如web浏览器)或程序接口从各种客户端设备访问云服务提供商的应用程序。用户无需购买软件,而是按照自己的需求向提供商租用基于Web的软件。

2. 人工智能

人工智能是一个意义丰富的概念,主要基于脑科学和认知科学、计算机科学和算法,内涵包括机器感知、机器思维、机器学习和机器行为等。

人工智能技术的发展主要包括两个方面:

1)语音识别、图像识别、自然语言处理和生物识别等感知智能;

机器学习 / 深度学习、预测分析等认识智能。

深度学习在基因组学数据领域的应用仍处于初期阶段。华为云医疗智能体(EIHeallth),值得关注。

3. 区块链

区块链本质上是一个网络数据库,通过去中心化的方式、自身分布式节点进行网络数据的存储、验证传递和交流的一种技术方案。区块链本质是构建去中心化的经济系统,任何人任何时间可基于相同的标准加入信息、共同使用和维护。

在基因数据价值化过程中,数据所有权、共享和使用安全问题尤为重要,区块链有望用于将个人生命数据确权并将数据资源资产化,形成可定价、可流通、可交换的全新生态体系。

值得关注的基因组数据的区块链应用案例:

Illumina:Luna DNA

Zenome:Zenome

华大:BGI.CHAIN

基云惠康:HGBC

4. 5G

5G是第五代移动通信技术的简称,是对现有无线接入技术(包括2G、3G、4G和WiFi)的技术演进,以及一些新增的补充性无线接入 技术集成后解决方案的总称。相对于4G,5G提升的指标体现在峰值速率、用户体验速率、频谱效率、移动性、时延、连接密度、网络能效、流量密度等方面。

5G在基因大数据方面的应用,将切实解决数据传输的核心瓶颈,将赋能人口级别的数据中心建设、多中心协作、队列数据整合及挖掘等方面。

第三部分 基因大数据价值链分析

六、基因大数据价值链及商业模式分析

(一) 数据生产

以测序为例,基因数据生产流程包括从DNA/RNA采样、核酸提取、文库构建、上机测序等环节。

从价值链分析的角度,根据承担任务的主体不同,基本活动的划分也不同。一般来说,采样是在医疗机构完成;核酸提取、文库构建和上机检测在医疗机构或者独立医学实验室(ICL)的湿实验室完成,基因检测机构参与该流程的主要方式包括与医院共建实验室或者自建独立医学实验室。

目前,基因数据生产环节的商业模式,以“仪器 + 试剂耗材”配套模式为主。

仪器方面,基因测序仪的技术壁垒比较高,国内量产企业只有华大智造,其他厂商主要和Illumina、Thermo Fisher以及华大智造联合开发。NGS是目前市场的主流测序平台。

试剂方面,国产化程序正逐步提高,主要有IVD或LDT模式。

IVD模式下,需要在NMPA注册,例如诺禾致源基于半导体测序法的人EGFR、KRAS、BRAF、PIK3CA、ALK、ROS1基因突变检测试剂盒在2018年获批。

LDT属于医学实验室自建项目,仅能在研发的实验室使用;可使用购买或自制的试剂,但不能销售给其他实验室、医院或医生。

(二) 生物信息分析

面对大规模基因数据处理以及转化应用场景的需求,目前围绕生物信息分析的布局主要有三种方式,包括生物信息软件开发、基因大数据平台解决方案、软硬件加速 / 数据加密 / 高速传输等增值服务。

1. 基于特定场景的生物信息软件开发

根据8号文件规定,如果软件仅使用通用函数计算,不按照医疗器械管理;如果使用企业特有算法,则作为II类医疗器械管理。在临床、公共卫生等特定场景的生信分析需要的特有分析软件,需要在NMPA注册,如上述诺禾的6基因突变检测试剂盒配套软件。

2. 基因大数据平台服务

基因大数据平台服务,即包括数据存储、计算、分析、解读和可视化等服务。产品形式包括基于云平台、一体机等方式。

一体机针对的是小规模数据的本地化整体解决方案,主要服务于医生或科室单位,最大程度确保了数据基于本地的存储安全,但对于平台功能扩展、数据管理及可控共享增加了阻力。

基因云平台则是云端提供基因大数据分析整体解决方案,商业探索已有十年之久。比起传统的解决方案,基因云平台服务在可拓展性、协作管理、成本控制等方面有着明显的优势。

目前主要有两种类型企业在布局该领域。一方面,Google、阿里巴巴等互联网巨头基于其技术优势的横向拓展基因云服务;另一方面,诺禾致源、华大基因等基因领域龙头企业基于其原有业务的纵向延伸。目前国内的基因云平台主要用于改善客户交付,尚没有完全公开、成熟的基因云服务。不过基因云平台服务是行业发展所需和业态演化的趋势。

3. 基因大数据的增值服务

基因大数据增值服务及代表企业:

  • 人工智能及硬件加速:NVIDIA、Intel、华为
  • 软件加速:Sentieon、Edico、华大智造、华为
  • 区块链:Nebula Genomics、华大
  • 知识图谱:Ingenuity
  • 5G新一代网络:华为
  • 流程自动化智能化:诺禾致源

(三) 数据解读

数据解读是连接基因数据生产与医学科研及临床的重要环节,通过结合基因组数据与表型数据,挖掘基因与表型、疾病之间的关系,从而指导临床决策和科研发现。随时测序生产成本和生物信息基于云计算平台的分析成本越来越低,基因数据解读在基因检测服务中的成本 比例将逐渐提高。

临床基因检测服务中,数据解读一般由遗传咨询师承担。目前国内遗传咨询服务还未形成独立的业务模式,主要是作为基因检测的一个环节,由第三方检测机构或者医疗机制的临床医生提供。

目前这一块主要还是由人工来解决,而各家公司的解读规则又不一样,导致同样的样本同样的变异,解读结果不一致。

(四) 一站式解决方案

交付周期和交付质量是基因大数据生产与分析的两个关键业务指标。

一站式解决方案主要有三个核心特点:自动化、智能化和一站式。

1)自动化

自动化主要体现在基因数据生产环节,包括样本前处理系统、自动化分装 / 提取 / 建库解决方案。好处是能减少由于人工参与带来的污染和误差,同时提高效率,减少交付周期。

2)智能化

智能化主要体现在基因数据分析环节,通过整合各种生物信息分析流程所需的基础设施、分析软件和数据库,同时引进人工智能技术,实现自动化分析和智能决策系统。目前该领域主要的交付产品为结合GPU、FPGA等生物信息分析流程的一体机。

3)一站式

一站式解决方案把样品制备、文库制备、测序、生信分析、报告发放等原本分离的流程整合起来,实现全流程的解决方案或者系统。目前主要应用场景在科研端和临床端。

科研端,如诺禾致源的Falcon柔性智能生产系统。

临床端,如华大智造的ZLIMS实验室生产管理系统。

七、投融次分析

(一) 国内外企业投融资状况分析

国外基因大数据企业起步较早,投资事件主要集中在基因数据分析环节,且多数已进入后期阶段。

国内企业起步较晚一些,发展不太均衡,多数企业处于早期阶段。国内企业多数成立在2014年以后,大部分位于北京、上海和深圳等一线城市。

(二) 投资机会及风险分析

1.投资机会分析

通过对基因大数据生产及分析价值链及相应企业的投融资分析,基因慧从技术、渠道、场景三方面探讨投资机会。

(1)技术

从价值链和技术角度,包括四个方面:基因数据生产、基因数据分析、数据平台和增值服务。

基因数据生产环节的技术可关注新一代测序技术研发和试剂盒研发。短期看,临床试剂盒的商业化空间大。长期来看,新一代测序技术存在机会。

基因数据分析环节,可重点关注数据挖掘和遗传解读细分领域的企业,目前国内几乎没有专注该领域的企业;初创企业可考虑进入该领域,并借助人工智能技术实现该环节非标准化服务的突破。目前海外对标企业已取得初步进展。同时,传统的生物信息软件和数据库商业化值得投入,在基因慧的调研中临床端表现出较大需求,将带来的产业生态加速。

数据平台方面,强烈建议关注基因云平台。一方面头部企业缺失数据共享的公认性和中立性;另一方面,基因云平台需配套相关硬件加速、软件研发及大数据平台协同开发合作。因此未来国内外有望出现类似DNAnexus或更优的平台。在目前政策及技术局限下,国内类似平台几乎空白,但这将成为除了科研服务之外绝大多数市场应用基因数据的平台形式。

增值服务方面,可以关注半导体和IT产业在基因大数据等数字化生命健康的解决方案。

(2)渠道

基因大数据的渠道主要包括To B、To C以及To G三种模式。

To C 主要通过互联网直接获客。

To B主要是科研机构、医疗机构和药企

To G是一类特殊的渠道模式,主要存在于头部企业,包括以区域为中心的民生筛查(无创产前基因检测、耳聋基因筛查、传染病病毒核酸排查等)。这部分业务因产品资质的垄断性和样品规模存在较大的利润空间,但无法构成稳定的商业模式。

(3)场景

基因大数据场景的投资方向包括:基因大数据应用扩展和数据维度的扩展。

基因数据应用的扩展,主要指满足更广泛的、潜在应用场景的需求,例如从肿瘤基伴随诊断到早疹早筛,从产前NIPT、NIPT Plus到孕前的携带者筛查等。

从基因大数据的维度扩展上,主要基于基因组维度,结合蛋白组、代谢组、微生物组 等整合成为生命多组学数据及产品,同时进一步地将多组学数据与医疗信息化、表型、可穿戴设备和IoT(物联网)采集的生活环境数据整合,并综合考虑空间和时间等多个尺度的动态变化,构建生命与环境协同的大数据资源、产品和平台。

2. 风险分析

主要有:研发风险、监管风险和知识产权纠纷风险。

第四部分 创新案例分析

八、创新案例

(一)智能生产平台:诺禾致源

(二)全流程数字化平台:华大智造

(三)华为云医疗智能体:EIHealth

(四)生物信息分析:Ingenuity Systems和BIOBASE

(五)数据分析与挖掘:智因(Chigene)东方

(六)基因云:DNAnexus

(七)基因 + 人工智能及硬件加速:NVIDIA和Intel

(八)基因软件加速:Edico和Sentieon

(九)基因 + 知识图谱

(十)其他

第五部分 未满足需求及发展趋势简析

九、未满足需求调研简析

(一)应用端

1)药物基因组学,目前缺少中国人的药物基因组学大数据积累。

2)临床遗传病及生命健康应用上,多基因遗传、表观遗传、线粒体遗传等防控问题;产前胎儿表型的深入挖掘;产前蛋白水平的检测等。

3)宏基因组下一代测序(mNGS)当前尚不能完全指导耐药菌抗感染药物的选择,一是目前耐药基因型与耐药表型的关联程序还存在一些差距;二是现有检测方法因成本考虑导致耐药相关基因覆盖度较低,难以高灵敏度地检测出相关耐药基因。

4)单细胞与多组学的检测价格仍然很高;单基因NIPT有待继续突破与扩大;基因治疗与基因修饰的细胞治疗需要加速发展。

(二) 产业端

1)大型临床研究以及产品开发,需要研发者综合考虑产品的临床需求和社会价值、开发难度、产品价格;产业也需要更多资源的整合、联合开发。

2)微生物组领域将有较大突破。

3)临床一线反馈,NGS目前的缺点:实验流程复杂、结果解读对人员要求高、检测成本高和报告周期长等。因此,更自动化、便于推广的实验体系,以及临床应用监管模式的创新。

4)产业结构方面,目前下游在拓宽应用,上游在向制造及原料延伸;对于传统应用市场来说,成本控制是关键;对于新应用场景来说,与其他检测技术的竞争是关键。

(三)研发端

1)高质量“表型组 - 基因组”数据库缺乏。

2)新药发现方面,目前管线重复、靶点扎堆,更多癌种和其他疾病需要受到更多关注。

3)数据分析的效率和发现致病变异的能力是影响临床对该技术信息的重要因素,二者的提升取决于数据共享和工具优化。

(四)监管层面

由于基因行业发展迅速,相关法律法规往往跟不上,目前肿瘤靶向用药以及无创产前诊断方面的法律法规相对完善,而其他基因技术的配套法律法规亟需尽快出台。

十、发展趋势简析

(一)行业层面

  1. 基因大数据联合多组学和医疗健康大数据,促进转化医学和精准医学发展

  2. 基因检测行业标准和共识体系将逐步完善

  3. 转化应用和并购整合井喷

(二)企业层面

1. 加快自主研发、谋求生态合作

一方面要打破垄断,另一方面要防止形成新的垄断。

2. 智能化生产,打造平台、数据、服务的一体化管理体系

所谓智能化,还是概念居多。

3. 加速共享数据库和知识库提升数据挖掘和解读能力,强化数据治理

目前企业的数据库都是自建自用,合法合规地进行共享,充分利用数据的价值是非常重要的。

(三)技术及产品层面

1. 创新技术

基因检测技术近年来得到极大关注,但仅仅有无创产前诊断、司法鉴定等基因技术应该相对成熟,大部分仍在不断迭代和研发当中。如单细胞测序、宏基因组测序、表观遗传等。

临床基因诊断方面,携带者筛查和NIPT Plus有望落地;对高危人群的肿瘤早诊早筛产品在进一步优化后有望应用于健康管理中心;基因治疗未来有望形成创新产品和新的业态。

基因合成在核苷酸和捕获平台基础上扩展至基因组合成、染色体合成及未来的生命合成。将为工业微生物发酵、环境保护等方面提供新型工具和思路。DNA存储,甚至DNA计算机,未来有望得到发展。分子育种已经进入基因组育种时代。

2. 便携式检测设备

便携式、无需“凑样”的核酸检测仪器,将有一波新的市场增量。

3. 深化场景应用

(1)肿瘤伴随诊断和早诊的应用热潮

从我国人口结构、健康医疗消费及医保控费等需求看,肿瘤等重大慢性疾病的精准预防和早诊存在巨大的市场空间。

在肿瘤领域,目前国内的肿瘤伴随诊断和液体活检产品研发存在严重同质化,这一现状亟需改变。

(2)感染防控和公共卫生领域监测

在新冠疫情期间,我国推行的“早发现、早报告、早隔离、早治疗”原则相对而言取得了抗击病情的重大进展,进行新冠核酸检测的人数达到数千万级别。

目前基于核酸检测新冠诊断试剂盒包括荧光定量PCR、数字PCR、NGS、基因芯片等方法。考虑成本和周期,仍以PCR技术为主;NGS在大规模、快速检测的应用场景下仍需进一步降低成本和周期。这将极大地推进国产化设备和试剂耗材的发展,同时健全从诊断、筛查到监测的长期公共卫生管理体系。

一点感想

随着生产力的发展,生产关系必然发生改变,不仅是基因行业,许多行业智能化都是大势所趋,有的已经到来,比如智能停车场,高速ETC,这为人们的生活带来便利的同时,也会使很多人失业。

就基因行业来说,上游的湿实验部分,开始逐步自动化了,这提高了生效率,同时也消灭了许多基础的实验岗位。中间的生物信息分析,自动化,云平台也是必然,基础的生信人员,将逐步被淘汰,或者变得不那么重要。目前来说,数据解读这一块,尚无法被智能化取代,曾经被寄予厚望的IBM沃森智能医疗系统,发展得也并不那么顺利,原因是数

据解读目前还没有统一的标准,遗传咨询师这一职业在我们国家还是一片空白,从业人员都是从其他行业转岗而来,也难以看到自己的职业前景,很多工作一段时间后又选择再次转行。

总之,打工人越来越难了,唯有不断进步,才能勉强能够生活这个样子。