[latexpage]
最小描述长度：一个美丽的想法，它将统计学、信息论和哲学的概念结合在一起，为机器学习奠定了基础。

最小描述长度（MDL）的概念

最小描述长度（Minimum Description Length, MDL）原理是一种基于信息论的方法，用于解决模型选择和数据压缩问题。它是由Jorma Rissanen在1978年开始的⼀系列论⽂中提出的。

MDL基于这样⼀种直觉：数据是可以压缩的。

比如文本压缩：考虑一个文本文件，其中包含重复的短语或单词。使用直接字面描述，每个单词都会被重复记录下来。但是，如果我们定义一个简短的符号来代表常见的短语或单词，并在文本中使用这个符号来替代原来的短语，那么整个文本的描述长度就会减少。

再比如预测模型：假设有一组天气数据，包括每日的温度。直接描述这些数据可能需要列出每一天的具体温度值。但是，如果我们发现这些温度值随季节变化呈现出一定的周期性模式，我们就可以用一个数学模型来描述整个数据集，而不是列出每天的温度。这样，整个数据集的描述就变得更加简洁。

这些例子展示了MDL原理的核心思想：通过寻找数据中的模式或规律，用更简洁的方式来描述这些模式，就可用更少的信息量来完整地描述数据。这不仅仅节省了存储空间，更反映出对数据结构的深入理解。

那么“最小描述”可以这样来理解："描述"在MDL可以理解为将给定数据（如：观测数据或待压缩的文本文件）映射成为二进制序列的过程。“最小描述”，即以最节省信息（比如说，最少的比特数）的方式来完整表达给定数据的过程。

可以这样理解：MDL重新定义了“简单”这个词——使用二进制位最少的”就是最“简单”的。

以下是MDL的核心概念：

描述长度：

这是MDL原理的核心。描述长度包括两部分：

模型的描述长度（模型的复杂性）
用模型编码数据的长度（模型对数据的拟合程度）

总的描述长度越短，模型就越受青睐。

压缩与规律性：

MDL原理是基于这样一个概念，即数据中的任何规律性都可以用来压缩数据。如果一个模型能够捕捉到这些规律性，它就能更简洁地描述数据。

让我们通过一个例子来理解这一点。假设有两个由字符序列组成的文本文件：

文件A：包含重复的同一字符长序列，如“BBBBBB…”（一个非常规律的模式）。

文件B：包含没有可辨识模式的随机字符混合，如“dCIxeCSE…”。

应用最小描述长度原理：

简单模型：一种基础的压缩算法，用于查找并压缩重复字符。
复杂模型：一种更高级的算法，旨在发现并编码更复杂的模式。

MDL分析：

文件A：简单模型可以通过标记重复的‘A’字符（例如，“B重复10次”）来有效压缩它。复杂模型不会提供太多优势，并且会增加不必要的复杂性。
文件B：由于没有简单的重复，简单模型无法有效压缩它。由于缺乏模式，复杂模型可能也会遇到困难。

MDL决策：

对于文件A，简单模型的“描述长度”较短，因为它在降低复杂性的同时提供了足够的压缩。
对于文件B，两种模型可能都表现不佳，但由于简单模型的复杂性较低，可能仍然更受青睐，除非复杂模型能够发现一些不那么明显的模式来进行压缩。

模型复杂度与拟合之间的权衡：

简单模型可能无法很好地拟合数据，需要更长的描述来解释残差（模型未能解释的数据部分）。
复杂模型可能更好地拟合数据，但自身需要更长的描述。

最小描述长度原则（MDL）寻求这两者之间的平衡。

这意味着，如果一个模型能够更简洁地描述数据，那么它通常被认为是更优的。从本质上讲，MDL是一种实现奥卡姆剃刀原则（即在满足同等解释力的前提下，应选择假设最简的理论）的形式化方法。在MDL中，奥卡姆剃刀原则中的“简单”，就是最短的二进制串长度。

MDL的基本假设分析

MDL选择最简单的描述模型，那是不是意味着MDL认为自然界必然简单的信念？

相反，它更关注于提供一种有效的学习策略，尤其是在面对有限的样本数据时。MDL原理的核心在于通过优化模型描述长度来防止过拟合，即在尽可能少的信息量下对数据进行准确描述。

在样本量较小的情况下，较复杂的模型容易捕捉到样本中的随机噪声，而不是真实的、潜在的数据生成过程。这种过拟合现象会降低模型在新数据上的预测精度和泛化能力。因此，MDL原理通过偏好简单的假设来提高模型的泛化性能，这是一种基于模型选择和统计学习理论的实用策略，而非基于对自然界本质的假设。

MDL原理强调的是在模型选择时找到描述长度和模型复杂度之间的最佳平衡点，以实现在给定数据上的最佳泛化性能，而不是试图对自然界的真实复杂性做出先验的评价。

MDL的计算方法

MDL原理认为，最优模型是能最小化以下总描述长度（Total Description Length, TDL）的模型：

$$\text{TDL} = L(M) + L(D|M) $$

其中:

L(M)是模型[M]的描述长度，即描述模型本身所需的比特数
$L(D|M)$是给定模型$M$下，数据$D$的描述长度，即用模型$M$来描述数据$D$所需的比特数

MDL原理的具体实现依赖于所选择的编码方案。有两种编码方案：单阶段通用编码（one stage universal codes 或 refined MDL），另一种为两阶段编码（two-stage codes 或 crude MDL）。其中两阶段编码较为常用。两阶段编码的方式为：

模型编码：首先，需要选择一种编码方案来描述模型。这包括模型的类型、参数等。模型越复杂，L(M)通常越大。
数据给定模型的编码：其次，给定模型后，使用该模型来编码数据。如果模型与数据的匹配度高，L(D|M)将较小，因为模型可以有效地“解释”数据。

$L(D|M)$ 的进一步解释 :

$L(D|M)$指的是在已经选择了一个特定模型$M$的情况下，用这个模型来描述观测到的数据$D$所需要的编码长度。这里的编码长度可以被理解为用来量化模型$M$对数据$D$拟合程度的一种方式。

如果一个模型$M$与数据$D$的匹配度很高，意味着模型能够很好地捕捉到数据中的规律和结构，那么我们需要的额外信息量来描述数据中未被模型捕捉到的部分就会很小。换句话说，模型$M$可以用较少的信息量来“解释”数据$D$，因此$L(D|M)$就会较小。

相反，如果模型$M$与数据$D$的匹配度不高，模型无法准确地捕捉数据的特性，那么我们就需要更多的信息来描述数据中的那些未被模型所解释的部分。这意味着$L(D|M)$会较大，因为模型$M$需要更多的信息量来补充那些它未能描述的数据细节。

因此，$L(D|M)$实际上反映了模型$M$对数据$D$的拟合程度。

最小描述长度（MDL）的历史背景

它是在信息论和编码理论深刻影响下发展起来的，特别是克劳德·香农在信息论领域的开创性工作为MDL提供了理论基础，尤其是关于数据压缩和信息量度量的概念。

MDL原理的提出，起源于Kolmogorov复杂性理论，这是一套描述数据复杂度的理论框架，由Solomonoff、Kolmogorov和Chaitin在1960年代发展。特别是Solomonoff在1964年的工作，为后来的MDL研究奠定了基础，虽然Rissanen最初并不了解Solomonoff的工作，但他的MDL原理受到了Kolmogorov在1965年工作的启发。

此外，Rissanen的MDL原理还受到了Akaike的赤池信息准则（AIC）的影响，AIC是基于信息论思想的模型选择方法。尽管MDL与AIC在实际方法和基本理念上有很大不同，但AIC对于Rissanen开发MDL的启示作用不容忽视。

MDL原理与最小消息长度（MML）原则密切相关，MML由Wallace及其同事在1968年开始提出。虽然Rissanen的MDL思想大多是独立发展的，但它与Wallace的MML在实践中非常相似，尽管基本理念大不相同。

自Rissanen在1978年首次提出MDL原理以来，这个概念经历了多次发展和完善。早期的MDL应用主要集中在数据压缩和简单模型选择问题上。1984年，Rissanen引入前验码，1987年又引入贝叶斯混合码，这些工作对MDL理论的发展产生了重要影响。1996年，Rissanen与Shtarkov的工作进一步完善了MDL理论，尤其是在参数复杂性概念的全面发展方面。

MDL原理不仅挑战了传统的统计学方法，也为处理过度拟合问题提供了一种全新的视角。通过最小化描述数据和模型的总长度来自然地惩罚过于复杂的模型，MDL形式化地量化了模型的泛化能力。随着时间的推移，研究者们将MDL原理扩展到了更广泛的应用领域，包括机器学习、统计推断、信号处理等，成为模型选择和统计学习中的一种重要方法论。

以下是一些知名的MDL变体，这些也是除上述介绍的两步部之外的MDL的具体计算方式。

规范化最大似然编码（NML）: 一种通过调整模型复杂度来惩罚过于复杂模型的方法，并且在数据编码上最大化似然函数。
贝叶斯信息准则（BIC）: 虽然BIC最初并非为MDL设计，但它在形式上与MDL相似，包括了一个惩罚项用来考虑模型复杂度，通常与模型中参数的数量成正比。
最小消息长度（MML）: 这是与MDL非常相关的原则，它在实施时同时考虑了参数估计的不确定性。
预测最小描述长度（PMDL）: 这种方法专注于数据的未来值的预测，而不是仅仅对已知数据进行建模。

随着MDL原理在不同领域的应用日益广泛，已经开发了多种软件工具和库来辅助实现MDL原理。这些工具通常提供了一系列的功能和接口，使得用户可以更容易地应用MDL原理来进行数据分析和模型选择。某些统计软件包和机器学习库包含了MDL相关的功能或算法实现：

最小描述长度（MDL）的应用场景

最小描述长度（MDL）原理因其独特的理论框架和应用灵活性，在多个领域内有着广泛的应用场景。以下是MDL原理的一些主要应用场景：

1. 数据压缩

数据压缩是MDL原理最直接的应用之一。在这个场景中，MDL被用来寻找最能有效压缩数据的编码方案，即寻求在给定数据集上实现最小编码长度的模型。这种方法不仅能够减少存储空间的需求，而且还能在不损失信息的前提下有效传输数据。

2. 模型选择

在统计学和机器学习领域，MDL原理被广泛应用于模型选择问题。通过比较不同模型描述数据所需的总长度，MDL帮助选择既能够良好拟合数据又不过度复杂的模型。这种方法特别适用于处理过拟合问题，确保选出的模型具有良好的泛化能力。

3. 参数估计

MDL原理也可用于参数估计，特别是在存在大量参数时寻找最佳参数设置的情况。通过最小化描述参数和数据的总长度，MDL提供了一种量化的方式来评估不同参数设置的效果，从而找到最合适的参数值。

4. 信号处理

在信号处理领域，MDL原理被用于识别信号中的模式和结构，例如在噪声数据中检测信号的存在或估计信号的参数。通过最小化描述信号和噪声的模型所需的长度，MDL可以帮助从复杂的数据中提取有价值的信息。

5. 生物信息学

MDL原理在生物信息学中的应用包括基因表达数据分析、蛋白质结构预测等。通过最小化描述生物数据的模型长度，MDL有助于识别生物学过程中的关键模式和结构，为生物学研究提供新的洞察。

6. 文本分析和自然语言处理

MDL原理在文本分析和自然语言处理领域中的应用包括话题识别、文本分类和语言模型选择等。MDL通过最小化描述文本数据的模型长度，帮助提取文本中的主要话题和模式，以及优化语言模型的性能。

通过这些应用场景可以看出，最小描述长度原理提供了一种通用的方法框架，适用于多种数据分析、模型选择和信息处理的问题。MDL原理的灵活性和广泛适用性使其成为了数据科学和相关领域中一个重要的工具。

最小描述长度（MDL）的优势与局限

最小描述长度（MDL）原理作为一种信息理论基础上的模型选择和数据分析方法，具有一系列的优势，但也存在一些局限。下面分别对这些优势和局限进行概述：

优势

奥卡姆剃刀原则的形式化实现：MDL原理提供了一种量化的方式来实现奥卡姆剃刀原则，即在满足数据拟合的同时尽量选择简单的模型，有助于避免过拟合问题。
统一的模型评价标准：MDL为模型选择提供了一个统一的标准，即总描述长度，这个标准同时考虑了模型的复杂度和对数据的拟合程度。
广泛的应用范围：MDL原理适用于多种类型的数据和模型，包括连续和离散数据，以及参数化和非参数化模型，因此在不同领域都有广泛的应用。
自然的复杂度惩罚：MDL通过最小化描述长度自然地惩罚过于复杂的模型，这种方式无需预设复杂度惩罚项，简化了模型选择过程。

局限

计算复杂度：在实际应用中，精确计算模型的描述长度往往是计算密集型的，特别是对于具有大量参数的复杂模型，这可能限制了MDL在大规模数据集上的应用。
模型和数据编码的选择：MDL的实施依赖于对模型和数据的编码方案，不同的编码方案可能会导致不同的结果，这需要用户具有一定的专业知识来合理选择。
理论与实践之间的差距：尽管MDL原理在理论上是优雅的，但在实际应用中可能需要近似和简化才能实现，这可能会影响其效果和准确性。
参数估计的困难：对于某些模型，特别是那些参数空间非常大或模型结构复杂的情况，使用MDL进行参数估计可能变得非常困难。
对初学者的挑战：由于MDL原理涉及到信息理论和统计学的复杂概念，对于非专业人士或初学者来说，理解和应用MDL可能存在一定的门槛。

总体而言，最小描述长度原理是一种强大的工具，可以帮助研究者和实践者在模型选择和数据分析中做出更加理性的决策。然而，为了充分利用MDL的优势，同时克服其局限，需要深入理解其理论基础，并在实践中不断探索和优化其应用方法。

如果您有兴趣更深入地阅读该领域：

“机器之心”翻译的：《贝叶斯、香农和奥卡姆开会讨论「机器学习是什么」》
Steven de Rooij, Peter D. Grünwald, Luckiness and Regret in Minimum Description Length Inference, 2011, 7, Pages 865-900.

浏览量: 2,179

水波粼粼

最小描述长度原理｜机器学习的基础

最小描述长度（MDL）的概念

MDL的基本假设分析

MDL的计算方法

最小描述长度（MDL）的历史背景

最小描述长度（MDL）的应用场景

最小描述长度（MDL）的优势与局限

关注公众号

最小描述长度（MDL）的概念

MDL的基本假设分析

MDL的计算方法

最小描述长度（MDL）的历史背景

最小描述长度（MDL）的应用场景

最小描述长度（MDL）的优势与局限

相关文章

决策树如何有效处理分类变量 | 理论、实践与建议

scikit-learn的CART树——寻找分裂点的两种模式｜使用技巧

scikit-learn中的树算法 不能直接使用分类变量

关注公众号

scikit-learn中的树算法不能直接使用分类变量