300 万张图片+1.5 万个斑马鱼胚胎的数据集,系统生物学家 Patrick Müller 成功实现基于 AI 的胚胎识别。
作者|加零
编辑|三羊
在动物发育过程中,胚胎随着时间的推移会发生复杂的形态变化,研究者们希望能够客观地量化发育时间和速度,并提供标准化的方法以分析早期胚胎所处阶段,更好地认知进化与发育流程。
之前,学者们对于胚胎发育阶段和胚胎发育形态转化的认知来源于显微观察。但胚胎发育的阶段转化并不是理想化、稳定化的,存在非常多的影响因素,以至于研究人员很难观察到某一特定发育状态。观察胚胎形态推定所处的发育时间和发育阶段这一过程,目前仍是偏向主观的。
为了客观建立发育时间与发育速度的关系,系统生物学家 Patrick Müller 领导康斯坦茨大学研究人员,开发了一套基于孪生网络的深度学习方法,通过图像对比,它能够自动捕捉胚胎发育过程,并在没有人为干预的情况下识别胚胎发育特征阶段点。目前,相关成果已发表于「Nature Methods」。
论文发表于「Nature Methods」
获取论文:
01 实验过程
数据集:整合大量胚胎图像
利用高通量成像 Pipeline 和基于 ResNet101 的图像分割,研究者们构建了一个包含 300 万张图片和 1.5 万个斑马鱼胚胎的数据集,以产生单个胚胎的发育轨迹。每个胚胎被单独跟踪,输入模型时以不同颜色的边界框划分。开展每个实验时创建一个单独的 JSON 文件,其中包含属于各个类别的胚胎信息。
图像处理图示
模型架构:孪生网络模型
孪生网络结构由两个相同结构的并行神经网络构成,可以同时接收两个图片作为输入,并且两个神经网络之间权值共享,通过基于特征嵌入的相似度计算,对图像进行比较。
以下是孪生网络的结构图示:
孪生网络结构
构成孪生网络的神经网络结构如下:
基于 ResNet50 的神经网络
主干网络:基于 ImageNet 数据集,带有预训练权重的 ResNet50 架构作为主干网络;
嵌入模型头部 (model head):主干网络的输出被压平传递至嵌入模型头部,其由三个密集层组成,每层之间有批量归一化层,产生一个 size 为 (1, 256) 的输出/嵌入;
迁移学习:除了卷积块5和模型头层之外,ResNet50 骨干网络的所有层都被冻结。将 ResNet50 生成的特征嵌入结合在一个距离层中,计算训练过程中不同输入的网络生成嵌入之间的欧几里得度量。
算法训练:三联体损失训练
算法训练过程如下:
构建图像三联体 :图像三联体由三张胚胎图像组成,分别为锚定图像 (anchor image) ,处于随机发育阶段 t1 的胚胎图像;正向图像 (positive image) ,类似发育阶段 t1 的图像(输入神经网络 1)或者经过图像增强处理的锚定图像(输入神经网络 2);负向图像 (negative image),发育阶段 t2 ≠ t1 的胚胎图像。
图像三联体图示
三联体损失训练:将构建完成的图像三联体传递给孪生网络,基于下方公式计算三联体损失 (Triplet loss),以最小化锚定图像和正向图像的相似性,并最大化锚定图像和负向图像的相似性。
三联体损失计算公式
A 表示锚定图像,P 表示正向图像,N 表示负向图像
迭代训练:神经网络 1 使用了 30 万个斑马鱼胚胎图像三联体进行了 10 个 epoch 的训练;神经网络 2 使用了 100 万个图像三联体进行了 2 个 epoch 的训练,并对锚定图像进行了增强处理,使用 NVIDIA GeForce RTX3070 (ASUS) 进行 GPU 加速训练。
分任务训练:对图像相似性、胚胎分期、发育速度和温度、药物诱导导致的胚胎发育变化分别进行了对应训练。
02 实验结果
结果 1:利用相似性图对胚胎自动分期
将测试图像与一组胚胎图像比较,计算它们之间的余弦相似度,获得相似性评分以分类胚胎图像。
测试胚胎与参考图像的相似性图
比较测试图像与时间序列的发育胚胎图像,得到相似性随时间变化的曲线,从中提取出两个主要特征:
· 曲线的峰值指示了测试图像胚胎位于哪个发育阶段。
· 曲线的非峰值区域包含了额外信息,如峰宽度和与远程胚胎阶段的相似性,反映了不同时间点的形态相似性。
胚胎年龄预测示意图
孪生网络可以对一个胚胎的一组时间序列图像进行识别预测,构建基于预测发育阶段的轨迹,实现准确的胚胎分期。
结果 2:探究发育速度与温度的函数关系
以前,量化胚胎发育的温度依赖性需要手动或半自动注释发育时间,这大大限制了可以在合理的时间跨度内分析的实验数量。
利用构建的孪生网络自动分析发育速度的温度依赖性变化,实验方案为:23.5 ℃ 和 35.5 ℃ 之间的斑马鱼胚胎和 18 ℃ 到 36 ℃ 的青鱼胚胎,每个温度条件下分析 100 至 200 个斑马鱼胚胎或 20 至 100 个青鱼胚胎。
实验结果如图所示:
不同温度下斑马鱼和青鱼胚胎发育分析图
a,d:斑马鱼和青鱼的年龄估计示意图;
b,e:斑马鱼和青鱼在不同温度的发育情况;
c,f:斑马鱼和青鱼在不同温度下估计生长率的自然对数。
· **温度变化对两种胚胎的发育速率产生了显著影响。**较低温度下,胚胎发育速率较慢,而较高温度则导致发育速率显著加快。面对 10℃ 的温度变化时,发育速率大致变化了两倍。
· 使用孪生网络量化分析温度依赖的发育速率,利用 Arrhenius 方程拟合数据。在物种特定的温度范围内,线性拟合的斜率给出斑马鱼和米达卡的表观活化能分别为 65 kJ/mol 和 77 kJ/mol。这些表观活化能与其他变温动物(如青蛙、果蝇或酵母)相似,明显不同于恒温动物(如小鼠或人类)。
· 与理想化猜测不同,在较高温度区域,两种胚胎的发育速率均不再加速,而是趋于稳定。在较低温度区域:斑马鱼的发育线性减缓,温度低于 23℃ 胚胎停止发育;青鱼胚胎则表现出非线性发育的特征,长时间停滞在发育的原始囊阶段。
结果 3:量化胚胎进化过程中的自然变异性
研究发现,尽管胚胎受到基因变异、外部干扰以及基因表达中的噪音和随机性影响导致生长速率和发育阶段的偏差,但总会完成进化过程。
胚胎的进化差异图示
利用孪生网络评估同龄胚胎中个体表型的差异,实验结果如图所示:
胚胎发育图
左图表示不同时间后预测的胚胎发育阶段百分比,0 分钟(绿色)、400 分钟(蓝色)、800 分钟(紫色);
右图表示胚胎的平均相似值随时间下降。
在早期胚胎发育阶段,预测的胚胎发育阶段具有较窄的分布,而随着分段期的开始,预测的胚胎发育阶段的分布宽度增加。这表明,在胚胎发育过程中,个体之间的差异逐渐增加,但平均相似性值却随着时间降低。
在 300 多万多张斑马鱼胚胎图像数据中,约有 1% 的胚胎发育异常,常见原因是自发性崩解或背腹极性缺陷。使用孪生网络,研究人员能够在早期阶段就检测出发育异常的胚胎。这些异常胚胎在预测的正常发育范围之外表现出较低的平均相似性值。
发育异常胚胎图示
结果 4:鉴定药物处理的胚胎表型
胚胎发育受到多种信号分子的协调作用,而调节它们的活性可能导致胚胎表型变化。在斑马鱼发育过程中,有七个主要的信号通路,在这些通路中,骨形成蛋白 (BMP)、视黄酸 (RA)、Wnt、成纤维细胞生长因子 (FGF) 和 Nodal 信号通路主要调控生殖层定向和前后背腹轴的形成,Sonic Hedgehog (Shh) 和平面细胞极性 (PCP) 信号通路则控制身体轴的延伸和形态发生。
研究人员对孪生网络在检测异常胚胎方面的效用层面展开测试,结果如下图所示:
未经处理的胚胎与药物处理后胚胎的表型对比
a:未经处理的胚胎作为药物处理的胚胎表型参考;
b - i:不同药物处理胚胎与未处理胚胎相似性变化;
j:胚胎数目对异常检测准确性的依赖性。
比较未经处理的胚胎与经过 BMP、Nodal、FGF、Shh、PCP 和 Wnt 抑制剂处理以及 RA 暴露的胚胎的表型,发现未经处理的胚胎之间存在高相似性值,而受小分子药物处理的胚胎与未经处理的胚胎之间的相似性值通常较低。
对时间点进行统计分析,确定胚胎群体与参考群体显著偏离的时间点,从而检测到具有表型缺陷的胚胎群体,检测的准确性取决于分析的胚胎数量和干扰类型。
此外,**研究还探究了该方法在识别不同穿透率和严重程度表型时的准确性。**使用不同水平 BMP 通路抑制导致的斑马鱼胚胎的已知表型范围,结果如图所示:孪生网络能够准确检测到发育偏差,对于具有高穿透性的表型或使用高剂量小分子 BMP 信号通路抑制剂引起的明显表型,仅需要少量胚胎即可进行准确检测,而轻微的表型则需要约 30 个胚胎。
不同水平 BMP 通路抑制下斑马鱼胚胎表型变化
这些分析表明,仅使用正常发育胚胎图像训练的孪生网络,能够以无偏见的方式检测胚胎表型变化。
结果 5:自动推导胚胎发育时期
通常情况下,可以使用参考胚胎图像来评估测试胚胎的发育时间,但是对于新发现或未经表征的物种,可能无法获得这样的参考图像。
研究者提出,可以利用孪生网络计算测试图像与同一胚胎在早期时间点的其他图像的相似性判断发育阶段。
对斑马鱼胚胎进行相似性分析的结果如图所示:
胚胎发育时期推导
a:计算测试胚胎与来自同一胚胎的以前采集时间点的图像之间的相似性;
b:代表性相似矩阵。
在不同的发育时期,相似性呈现出独特的分布特征。他们观察到了一个共同的模式:高相似性值在局部聚集,而在更远的时间点,相似性值较低且呈现平稳状态。
有趣的是,孪生网络评估的图像对之间的局部和全局统计相似性,与发育过程中关键阶段的顺序是一致的。落入平稳阶段的胚胎具有稳定的形态,突显了发育中的主要时期,如经典的分裂、囊胚、胚胎盘、器官发生和分段阶段。与此相反,落入平稳阶段之间的边界的胚胎代表着发育形态发生主要变化的短暂时期。
接下来,研究者尝试将这种方法推广到其他物种,包括青鱼(medaka)和三棘刺魚(three-spined stickleback)。结果显示,孪生网络对这些形态多样的胚胎序列生成了信息丰富的图谱。
自动检测青鱼和三刺鱼胚胎的发育时期和转变
进一步研究中,他们将这种方法应用到亲缘关系更远的线虫(Caenorhabditis elegans),研究者们利用来自不同独立来源的开放数据,如已发表的论文和YouTube视频,训练和评估网络,成功自动识别出C. elegans的第一次分裂周期,形成前四个原胚细胞。
这些结果表明,Twin Network 方法能够用于针对不同生物体系,以及广泛范围的图像数据集,自动生成不同物种的发育图谱,而无需先前针对此目的专门训练的模型。
03 孪生网络vs.数字孪生网络
5G 时代,数字孪生网络屡被提及。同时,和他名称相仿的「孪生技术」------ 孪生网络也在图像识别领域崭露头角。二者虽然概念不同,但在某些领域却展现出了合力。
首先注意,这是两个完全不同的概念。
Twin Network:一种深度学习架构,主要应用于图像检索、图像匹配、图像分类等领域,通过学习图像的嵌入表征,实现图像相似性的比较和分析。
Digital Twin Network:物理实体的虚拟模型,它通过实时数据更新和仿真技术,与其对应的物理实体进行交互,并可以模拟物理实体在不同条件下的行为和性能,主要应用于工业制造、物联网、城市规划、航空航天等领域。
作为一种 AI 算法,Twin Network 可从自身优势为数字孪生网络赋能增效。
比如工业设备的数字孪生中,孪生网络可以比较不同时间点的设备图像,以了解设备状态的变化和差异;数字孪生城市规划中,孪生网络可以处理监控探头拍摄图像数据,对交通流量和路况进行实时监测和模拟等等。
综合来看,Twin Network 通过结合图像数据和深度学习技术,为 Digital Twin Network 提供图像相关的支持和应用,提高数字孪生的信息获取、监测和决策能力。
不只是 Twin Network,其他的 AI 工具也将进一步为数字孪生赋能。