一文彻底搞懂大模型 - 统计语言模型 - 文章 - 开发者社区

picture.image

统计语言模型

统计语言模型通过概率分布的形式来描述任意语句（字符串）s属于某种语言集合的可能性。 给定一个句子W（由多个单词w1, w2, w3,...组成），统计语言模型的目标是计算该句子在文本中出现的概率P(W) ，即P(W) = P(w1, w2, w3,..., wn)。这一概率的计算通常基于统计学方法，如最大熵模型、N-gram模型等。

picture.image

统计语言模型

一、 语言模型发展历程

语言模型（LM，Language Model ）的发展历程可以清晰地划分为三个主要阶段： 统计语言模型、神经网络语言模型以及基于Transformer的大语言模型 。每个阶段的模型都在前一个阶段的基础上进行了改进和优化，使得语言模型的性能得到了显著提升。

语言模型的发展历程

一文彻底搞懂大模型 - 语言模型的发展历程

二、 最大熵模型

图灵奖 vs 香农奖： 图灵奖和香农奖都是计算机科学和信息论领域的重要奖项，它们各自在不同的领域和方向上表彰了杰出的科学家和他们的贡献。 图灵奖更侧重于计算机事业的广泛贡献，而香农奖则专注于信息理论领域的深入探索。

picture.image

图灵奖 vs 香农奖

什么是信息熵？ 信息熵是由香农在1948年提出的，用于描述信源输出符号的不确定度，也就是信源所含信息量的多少。 信息熵越大，说明信源发出的信息越难以预测，即信息的随机性越大。

picture.image

什么是信息熵？

对于离散型随机变量X， 其信息熵H(X)定义为X所有可能取值的概率与其对应自信息的期望值 。自信息是指某个事件发生时所带来的信息量，通常表示为事件发生的概率的负对数。

picture.image

信息熵数学公式

什么是最大熵原理？ 最大熵原理（Maximum Entropy Principle，MEP） 是指在 没有额外信息的情况下，我们应该选择使得 概率分布最均匀（即熵最大）的模型 。这种模型对未知情况不做任何主观假设，从而保留了最大的不确定性，使得预测的风险最小。

picture.image

什么是最大熵原理？

“不要把鸡蛋放在一个篮子里” 是投资领域的经典原则，旨在通过资金分散降低风险。 最大熵原理在信息领域也强调避免单一依赖 ，与前者理念相通，即在不确定情况下选择最大化不确定性的策略，以应对潜在风险。

picture.image

不要把鸡蛋放在一个篮子里

最大熵原理数学上的解释是什么？ p（x）相等时，H（x）最大。

最大熵原理指出，对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。 在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大。 也就是说，学习概率模型时， 在所有的概率模型分布中，熵最大的模型是最好的模型。

最大熵原理

什么是最大熵模型（MEM）？ 最大熵模型（Maximum Entropy Model，MEM）是一种基于信息论原理的统计模型， 它通过最大化模型的熵来求解模型参数 。熵在信息论中代表不确定性的度量，熵越大，表示模型的不确定性越高，对未知数据的预测能力也越强。

拼音转汉字：在输入法中，当输入拼音时，最大熵模型可以根据上下文和主题信息，综合考虑多种可能性 ，给出最合理的汉字转换结果。
词性标注和句法分析：最大熵模型可以将多种信息整合到一个模型中 ，进行词性标注和句法分析，提高自然语言处理的准确性。
信息检索与排序：在网络搜索中，最大熵模型可以综合上百种信息 ，如网页内容、用户行为等，对搜索结果进行排序，使得用户更容易找到所需信息。

picture.image

什么是最大熵模型？

一文彻底搞懂大模型 - 最大熵模型

三、N-gram模型

什么是贝叶斯定理&贝叶斯网络** ？贝叶斯定理是更新假设概率的方法，而贝叶斯网络则是利用有向无环图表示随机变量间条件依赖关系的概率图模型。**

picture.image

什么是贝叶斯定理&贝叶斯网络？

贝叶斯定理（Bayes' Theorem）是 一种描述两个条件概率之间关系的定理 ，它允许我们根据新的证据或数据来更新我们对某一事件或参数的信念。

Bayes' Theorem

贝叶斯定理公式是一种计算条件概率的方法，它根据新的证据和先前的概率来更新某个假设的可信度。 P(A|B) = [P(B|A) * P(A)] / P(B)

picture.image

Bayes' Theorem

P(A|B) 是后验概率，即在事件B发生的条件下，事件A发生的概率。
P(B|A) 是条件概率，表示在事件A发生的条件下，事件B发生的概率。
P(A) 是先验概率，即在没有事件B发生的条件下，我们对事件A的信念或概率估计。
P(B) 是事件B的边缘概率，它是所有可能情况下事件B发生的概率总和，通常作为归一化常数 ，确保后验概率的总和为1。

picture.image

Bayes' Theorem

贝叶斯网络（Bayesian Network，简称BN）是一种 基于概率推理的图形模型 ，用于 表示变量之间的依赖关系 。它由一个有向无环图（Directed Acyclic Graph，DAG）和条件概率表（Conditional Probability Table，CPT）组成。

Bayesian Network

有向无环图（DAG）：用于表示变量之间的依赖关系。图中的节点代表变量，有向边（或称为弧）则表示变量之间的依赖关系。如果两个节点之间存在有向边，则意味着一个节点的状态会影响另一个节点的状态。
条件概率表（CPT）：与DAG中的每个节点相关联，用于描述节点与其父节点之间的概率关系。条件概率表详细列出了在给定父节点状态下，当前节点取各个可能值的概率。

picture.image