大规模平行报告基因检测 (MPRA)

玻尔百科

定义

大规模平行报告基因检测 (MPRA) 指一种功能基因组学高通量技术，通过使用唯一的 DNA 条形码在单次实验中同时测量数百万个 DNA 序列的调节活性。该技术通过计算 RNA 输出与初始 DNA 输入库中特定条形码数量的比率来定量评估序列功能。大规模平行报告基因检测 (MPRA) 是验证全基因组关联分析（GWAS）中非编码遗传变异的关键工具，有助于研究人员破解基因控制的序列规则。

核心要点

大规模平行报告基因检测 (MPRA) 使用独特的DNA条形码，在单次实验中同时测量数百万个DNA序列的调控活性。
该技术通过计算一个序列对应条形码在RNA产出中的计数与其在初始DNA输入文库中计数的比率来量化其功能。
MPRA是功能性验证全基因组关联研究 (GWAS) 中发现的非编码遗传变异以及分类意义不明确变异 (VUS) 的关键工具。
该检测主要测试一个序列在人工环境中调控基因表达的充分性，这可能与其在天然基因组位置的活性不同。
通过将MPRA与合成DNA文库相结合，研究人员可以破译基因控制的“语法”，例如转录因子结合位点的间距和方向规则。

引言

人类基因组包含了我们身体每个细胞的蓝图，但我们绝大多数的DNA并不编码蛋白质。相反，这些非编码区域充满了数百万个调控开关，即顺式调控元件，它们精心调控着基因在何时何地被开启和关闭。理解这种复杂的调控语法是现代生物学的核心挑战之一。几十年来，科学家们一次只能测试一个这些元件的功能，这个过程太慢，无法破译基因组复杂的控制系统。这造成了巨大的知识鸿沟，尤其是在将非编码遗传变异与人类疾病联系起来方面。

本文探讨了大规模平行报告基因检测 (MPRA)，一项旨在克服这一障碍的革命性技术。通过实现对数百万个DNA序列的同时功能性测试，MPRA为我们观察基因组的调控景观提供了一个强有力的视角。首先，我们将深入探讨“原理与机制”，解构MPRA的工作原理，从其核心组件（如DNA条形码和报告基因）到分析其海量数据集所需的统计模型。然后，在“应用与跨学科联系”部分，我们将探讨如何利用这一工具来精确定位致病变异、破译调控进化的规则，并为临床诊断提供关键证据，从而架起从基础科学到临床应用的桥梁。

原理与机制

为了理解单个基因组如何能书写出肌肉细胞、神经元和肝细胞的故事，我们必须学会解读基因调控的语法。我们DNA中广阔的非编码区域并非垃圾；它们是控制面板，充满了被称为顺式调控元件的开关、拨盘和滑块。这些短DNA片段决定了基因何时、何地以及以多强的强度被开启。但是，我们如何系统地测试成千上万甚至数百万个这些潜在开关的功能呢？想象一下，试图通过逐个拨动来测试摩天大楼里的每一个电灯开关，这需要一生的时间。这正是大规模平行报告基因检测 (MPRA) 发明出来要解决的挑战。

遗传报告基因的剖析

任何报告基因检测的核心都是一个极其简单的想法。它将基因激活过程分解为两部分：一个开关和一个信号。“开关”是我们想要测试的候选DNA序列——一个推定的增强子或启动子。“信号”则由一个报告基因产生，该基因的产物易于测量。

几十年来，金标准是荧光素酶检测。科学家们会取一个候选增强子，将其克隆到一个称为质粒的环状DNA中，并将其放置在一个最小启动子旁边——这是一个本身功能不强的基本“开启”按钮。这个启动子又连接到荧光素酶的基因上，荧光素酶是使萤火虫发光的酶。当这个合成构建体被引入细胞时，如果候选DNA是一个功能性增强子，它会招募细胞的机制到启动子上，拨动开关，并驱动荧光素酶蛋白的产生。细胞发光越亮，增强子就越强。

这是一个测试单一假设的优雅方法。但是人类基因组包含数十万个候选增强子。逐一测试它们将是徒劳的。为了解读调控基因组，我们需要学会不是一次测试一个开关，而是在同一盘细胞中一次性测试数百万个。我们需要实现大规模平行化。

实现大规模平行化：条形码革命

MPRA背后的神来之笔是DNA条形码。可以把它想象成一个附加在每个候选调控序列上的独特的微观“名牌”。科学家们不再是使用一个带有一个增强子的质粒，而是创建一个包含数百万个质粒的巨大文库。文库中的每个质粒都含有一个不同的候选增强子序列，但它们都共享相同的基本架构：候选增强子被放置在最小启动子的上游，该启动子驱动一个报告基因。关键的创新在于，一段独特的、随机的DNA片段——即条形码——被嵌入到报告基因中被转录成RNA的部分。

这个文库，一个代表着成千上万个不同DNA“问题”的复杂质粒混合物，随后被引入细胞群体中。在细胞内部，每个质粒都作为一个独立的实验。如果一个候选序列是强增强子，它将有力地驱动其报告基因的转录，产生许多RNA拷贝，每个拷贝都带有该增强子特有的条形码。而一个弱的或无活性的序列将产生很少甚至不产生带有条形码的RNA分子。

最后一步是读出。我们不是测量光，而是从细胞中收获所有的RNA，并使用高通量测序来简单地计数条形码。每个条形码在RNA池中出现的次数，是其相关增强子驱动的转录活性的直接度量。

当然，这里有一个关键问题。如果我们最初的质粒文库不均匀怎么办？如果偶然地，我们开始时有1000个增强子A的质粒拷贝，但只有10个增强子B的拷贝呢？单凭RNA计数会产生误导。为了解决这个问题，我们还对输入DNA文库中的条形码进行测序。调控活性的真正度量是这个比率：RNA池中每个条形码的丰度除以其在初始DNA池中的丰度。这种校正是MPRA的定量基石，为我们提供了每个序列转录产出的精确测量。

我们在测量什么和在哪里测量？

MPRA功能强大，但必须精确理解它测量的是什么——以及不测量什么。MPRA实验将一段DNA从其在染色体中的天然家园中取出，并将其放入一个合成的附加性质粒中。然后它提出一个具体问题：当这个序列被放置在一个通用启动子旁边时，它能否作为调控元件发挥功能？这是一个对调控充分性的测试。

这与询问该序列在其原始染色体位置对其天然基因的功能是否必要，有着深刻的不同。要回答这个问题，我们需要像CRISPR这样的工具，它可以在内源环境中编辑或沉默一个元件。通常，一个在MPRA中表现为强效激活子的序列，当从基因组中删除时可能没有任何效果。为什么会有这种差异？原因在于基因组架构的美妙复杂性。

首先，大多数MPRA是附加体的，意味着报告基因构建体以自由漂浮的质粒形式存在于细胞核中。这种人工环境对转录因子高度可及，不受覆盖我们大部分DNA的紧密包装的抑制性染色质的影响。这可能导致检测“夸大”增强子的强度，相较于其在更具限制性的基因组环境中的活性。更先进的整合型MPRA将报告基因构建体插入到宿主基因组中，这有助于恢复一些染色质特征，但失去了天然的基因组地址，并会受到新整合位点的影响。

其次，报告基因本身的设计决定了所要回答的问题。标准的MPRA将待测序列置于启动子上游，非常适合测试增强子和启动子变异。一种相关技术STARR-seq，将待测序列置于启动子下游，即在转录区域内部。它专门询问一个序列是否能通过环回激活上游启动子来发挥增强子功能，从而导致其自身的转录。这使得STARR-seq成为一个专门的增强子发现工具，而MPRA在解析不同类型调控元件的功能方面则更为通用。

调控的物理学：为何细胞类型很重要

增强子的DNA序列就像一份乐谱。在音乐家——即转录因子——组成的管弦乐队到来演奏之前，它只是纸上的墨水。不同的管弦乐队会产生不同的声音。这就是细胞身份的本质。肝细胞和脑细胞共享相同的基因组（乐谱），但它们含有不同组合的转录因子（管弦乐队）。

这意味着增强子的活性并非其序列本身固有的属性；它是序列与特定细胞环境相互作用所产生的涌现特性。我们可以用一个简单的物理模型来描述这一点。转录因子 (TF) 与其靶位点结合的概率 ( $p$ ) 取决于其浓度 ( $c$ ) 及其对该位点的结合亲和力，后者由解离常数 ( $K_d$ ) 描述。这种关系的简单模型是：

$p = \frac{c}{c + K_d}$

现在，想象我们正在测试一个削弱结合的遗传变异，它使 $K_d$ 从 $1\,\mathrm{nM}$ 增加到 $10\,\mathrm{nM}$ 。为了检测这种差异，我们必须在TF浓度 $c$ 处于合适范围的条件下进行实验。

如果 $c$ 非常低（例如， $0.01\,\mathrm{nM}$ ），两种等位基因几乎都不发生结合 ( $p \approx 0$ )，我们看不到差异。
如果 $c$ 非常高（例如， $1000\,\mathrm{nM}$ ），高亲和力和低亲和力位点都达到饱和 ( $p \approx 1$ )，我们同样看不到差异。

结合上最大的差异，也即对基因表达影响最大的效应，出现在中间浓度，即接近 $K_d$ 值本身的浓度。这个简单的原理具有深远的意义：要理解一个与髓系细胞炎症性疾病相关的变异，你必须在髓系细胞（如巨噬细胞）中进行MPRA，并提供正确的炎症刺激（如LPS），以确保关键的转录因子（如NF-κB）以合适的浓度存在，从而揭示该变异的效应。背景环境不是一个混杂因素；它本身就是全部的意义所在。

发现的统计学：从原始读数到生物学洞见

MPRA中的“大规模”绝非夸张。一个旨在测试 $10^5$ 个增强子，每个增强子使用100个条形码以确保统计稳健性的实验，需要创建一个包含 $10^7$ 个独特DNA分子的文库。为确保每个条形码都被可靠计数，我们可能需要对超过5亿个RNA片段进行测序。

然而，分子的真实世界并非如此整洁。初始文库不会完全均匀。有些序列更容易合成和克隆。更重要的是，在将文库引入细胞时，我们可能只成功转染了文库复杂性的一小部分——这是一个“转化瓶颈”。最后，测序是一个随机抽样过程。所有这些因素都会产生噪音和偏差。

这种噪音不同于抛硬币（二项分布）或放射性衰变（泊松分布）那种简单、行为良好的噪音。在那些情况下，方差等于或小于均值。而在测序数据中，我们几乎总是观察到过度离散，即方差远大于均值。这是因为转录速率不是一个固定的单一数值，而是由于无数在重复实验间波动的生物和技术因素而本身可变。计数数据更适合用负二项 (NB) 分布来描述，该分布包含一个离散参数 ( $\phi$ ) 来捕捉这种超出泊松分布的变异性。

为了提取真实的生物学信号，我们必须使用复杂的统计模型，通常是广义线性模型 (GLM)，来解释这种过度离散。这些模型可以同时估计一个等位基因的效应，同时校正诸如DNA输入差异（作为偏移量）、文库制备批次和测序泳道等无关变量。通过正确地为噪音建模，我们可以确信我们测量的等位基因差异是真实的。

最终，MPRA并不能为基因调控提供最终答案。其力量在于能够大规模地生成假说。通过测量成千上万个序列的内在调控潜能，它创建了一张功能图谱，当这张图谱与染色质可及性、组蛋白修饰和三维基因组接触的数据整合时，使我们能够建立预测模型，来解释基因组在活细胞复杂环境中究竟是如何工作的。从一个简单的发光蛋白开始，我们发展出一种工具，能与我们自己的DNA进行名副其实的焦点小组讨论，逐个序列地询问它，它生来是做什么的。

应用与跨学科联系

既然我们已经拆解了大规模平行报告基因检测 (MPRA) 精美的时钟装置并理解了其原理，我们可以提出最令人兴奋的问题：我们能用它来做什么？拥有一台能一次性读取成千上万个DNA序列功能意义的机器，就像从能够拼读基因组的字母毕业到能够阅读其句子、段落和故事。事实证明，其应用与生物学本身一样广阔而深刻，从最深奥的进化之谜延伸到现代医学中最个人化的决策。我们即将踏上一段旅程，去看看这个卓越的工具如何改变我们对生命世界的看法。

从相关性到因果性：精确定位我们基因组中的“罪魁祸首”

几十年来，遗传学家一直是出色的侦探。通过使用全基因组关联研究 (GWAS)，他们可以调查成千上万人的基因组，并识别出我们DNA中的一些区域——遗传“邻里”——这些区域在统计上与糖尿病、心脏病或精神分裂症等疾病的更高风险相关。问题在于，一个GWAS的发现就像一份警方的报告，指出了一个犯罪猖獗的街区，却没有点明真正的罪犯。这些区域通常包含数十个遗传变异，它们以一种称为连锁不平衡的模式一起遗传，而且大多数位于广阔的基因组非编码区。它们都是嫌疑对象，但哪一个是触发器，哪些又仅仅是无辜的旁观者？

这就是MPRA作为一名审讯大师登场的地方。它让我们能够从GWAS的“邻里”中提取每一个可疑的变异，将每一个都克隆到我们的报告基因系统中，并直接提问：“单凭你自己，是否有能力改变基因调控？”我们可以将“风险”版本的序列与“非风险”版本进行对比，并定量测量它们作为基因调光开关能力的差异。其他方法，如ATAC-seq，可以告诉我们开关在墙上是否可及；ChIP-seq可以告诉我们是否有特定蛋白质倾向于在那里结合；但只有MPRA直接测试拨动开关是否真的改变了光亮。

当然，一个好侦探从不依赖单一证据。现代基因组学的真正力量在于整合多个独立研究路线以建立确凿证据的艺术。一个MPRA可能显示变异 $V_1$ 在心脏细胞中显著增加了报告基因的表达。这是一个有力的线索。但当我们将它与其他数据结合时，案件才变得真正令人信服：ATAC-seq显示 $V_1$ 周围的染色质在心脏细胞中特异性地开放和活跃；启动子捕获Hi-C（一种绘制基因组三维折叠图谱的技术）显示这段DNA与附近基因 $G_1$ 的启动子物理接触；而来自表达数量性状位点 (eQTL) 研究的数据表明，携带 $V_1$ 风险版本的人其心脏组织中 $G_1$ RNA的水平确实更高。当所有这些故事都吻合时，我们就可以自信地从一个松散的相关性转向一个优美、连贯的因果机制：该变异改变了一个增强子的功能，这又改变了其靶基因的表达，进而导致了疾病。

精确的艺术：解读调控乐谱

MPRA最深刻的方面之一不仅仅在于它能够测量功能，还在于它能多么精确地做到这一点。这并非简单的“开”或“关”的读数，而是一种对活性的定量测量。这种精确性并非来自魔法，而是巧妙的实验设计与严谨的统计模型的美妙结合。

附加在每个DNA序列上的独特条形码是关键。通过计算每个条形码在初始DNA文库与表达的RNA池中出现的次数，我们得到了一个原始的产出与输入比率。但这个原始数字是嘈杂的。为了提炼出真实信号，我们求助于统计学的语言。我们可以建立一个数学模型，通常是线性混合模型，它将每个条形码观察到的活性视为不同效应的总和。该模型包括“固定效应”——我们最关心的部分，如参考序列的内在活性和由变异引起的特定变化。它还包括“随机效应”——我们希望解释并移除的技术变异来源，例如每个独立条形码的特异行为或实验的批次间差异。通过将这个模型拟合到来自测序仪的数百万个数据点，我们可以求解出我们变异的固定效应，从而得到一个关于其对基因调控影响的干净、定量的估计，并附有统计置信区间。

这种精确的力量在一种称为饱和诱变的方法中达到了顶峰。在这里，其雄心是惊人的：我们不再只测试少数几个变异，而是创建一个文库，包含整个调控元件上所有可能的单字母替换。如果一个增强子长150个碱基对，我们合成并测试所有 $150 \times 3 = 450$ 个可能的变异。结果是一张完整的、核苷酸分辨率的“活性图谱”。这张图谱向我们展示了在每一个位置，通过改变字母会获得或失去多少调控活性。呈现出来的是一幅令人惊叹的功能图景。我们看到一些位置高度敏感——任何改变都会显著削弱增强子。这些区域通常对应于必需转录因子的核心结合位点。其他位置则对变化更为容忍。通过解读这张图谱，我们不仅仅是在测试变异；我们正在学习增强子功能的基本序列要求，就像确定一个句子中哪些词对其意义最为关键一样。

破译生命语法

有了创造和测试任何我们能想象的序列的能力，我们可以超越研究天然增强子，开始成为调控的设计师。我们可以问，是否存在普适的规则来支配调控元件的工作方式？基因控制的语言中是否存在一种“语法”？

使用MPRA，我们可以从头设计合成增强子来破解这个密码。想象一下，我们想了解两种不同的信号通路，如Notch和Wnt，是如何协同调控一个基因的。我们知道它们使用不同的转录因子，这些转录因子结合于不同的DNA基序（我们称之为TCF基序和CSL基序）。我们可以构建一个包含TCF位点和CSL位点的序列文库，并系统地改变它们之间的间距，一次一个碱基对。我们可以翻转它们的方向。我们可以使用每个基序的强版本或弱版本。通过测试这个完整的“因子”文库，我们可以学习它们合作的规则。它们需要靠得很近才能协同工作吗？它们的方向重要吗？

更美妙的是，我们可以测试深层的生物物理学假说。因为DNA是一个每 $\approx 10.5$ 个碱基对扭转一次的双螺旋，相隔5个碱基对的两个蛋白质将位于螺旋的相对两侧，而相隔10或11个碱基对的两个蛋白质将位于同一侧。通过以单个碱基对的精度改变间距，我们可以观察活性是否以 $\approx 10.5$ bp的周期性达到峰值。一个阳性结果将是惊人的证据，表明这两个转录因子需要物理接触，因此必须位于DNA分子的同一侧才能实现。这是MPRA作为基础发现工具的应用，是遗传学家的“粒子加速器”，用于探测维系调控复合物的力。

这种调控语法不仅仅是我们自身生物学的一个特征；它是一个在数亿年进化中回响的主题。进化生物学中一个引人入胜的谜题是，由一套保守的“工具包”基因（如Pax6，眼发育的主控调节因子）控制的发育程序，如何在截然不同的动物中产生相似的结果，即使控制这些基因的增强子序列已经显著分化。MPRA让我们能够直面这个问题。我们可以从人类和鱼类中提取直系同源的增强子，并在人类细胞和鱼类细胞中并排测试它们。我们还可以创建合成的“打乱”版本，这些版本保留了基序及其间距，但随机化了周围的序列。如果人类和鱼类的增强子在两种物种中都能起作用，并且保留基序的打乱版本也能起作用，这表明进化保留了底层的语法——即存在哪些基序以及它们如何排列的组合密码——同时允许中间的“填充”DNA随时间漂变。这揭示了一个深刻的进化设计原则：即使形式改变，功能也可以被保守。

从实验室到病床：MPRA在临床中的应用

最终，理解我们基因组的目标是为了改善人类健康。MPRA正迅速成为这项事业中不可或缺的工具，构成了从基础科学到临床诊断的关键桥梁。

以先天性无虹膜症的悲剧性案例为例，这是一种严重的眼部疾病，由仅有一个功能性Pax6基因拷贝引起。对于一些患者来说，突变不在基因本身，而是在一个遥远的增强子中的一个单一、细微的改变。这个微小的变化可以轻微降低增强子的活性，导致在胚胎眼发育的关键窗口期产生的Pax6蛋白量略有下降。剂量的这一点点下降就足以扰乱整个过程。利用MPRA，我们可以提取在患者身上发现的特定变异，合成它，并在相关细胞类型中测试其活性——例如，在由诱导性多能干细胞培养出的视网膜祖细胞中——以确定其功能是否确实受损。

这种能力对临床决策有直接影响。基因检测常常发现“意义不明确的变异” (VUS)，使患者和医生陷入一种痛苦的不确定状态。美国医学遗传学与基因组学学会 (ACMG) 已经建立了一个用于分类变异的正式框架。一个控制良好的MPRA实验，若能证明一个变异对功能具有破坏性影响，可以提供“强功能证据”（编码为PS3）。这一证据可能是决定性因素，使临床医生能够将一个VUS重新分类为“致病性”，从而提供明确的诊断，为家庭提供遗传咨询，并结束漫长而艰难的“诊断漫长过程”。

当我们站在前沿时，我们也必须承认其前沿与局限。一个MPRA是在质粒上测试序列，这是一个染色体外的人工环境。其效应在其天然基因组家园中，被包裹在复杂染色质里时，是否相同？为了解决这个问题，科学家们现在正巧妙地将MPRA与基于CRISPR的饱和基因组编辑 (SGE) 相结合，后者在其内源位点上扰动序列。通过比较两种检测的结果，我们可以开始根据变异的效应是“环境非依赖性”（变异在质粒上和基因组中本质上都是破坏性的）还是“环境依赖性”（变异的效应被局部染色质环境缓冲或改变）来对变异进行分类。这种技术的整合使我们更接近于一个变异功能的完整真相。

从识别导致疾病的单个字母到破译构建眼睛的古老语法规则，大规模平行报告基因检测为我们提供了一种强大而通用的新语言，用以与我们的基因组对话。这是一种关于功能、数量和因果关系的语言，通过学习说这种语言，我们正开始以一种曾经无法想象的方式阅读生命之书。