最大似然估计（MLE）和MAP（最大后验概率）

伯努利分布（Bernoulli Distribution）是概率论中一种离散概率分布，描述只有两种可能结果的单次随机试验。MLE的核心思想是找到使观测数据出现概率最大的参数值。的先验分布是均匀分布时，即先验分布为常数时，最大后验估计与最大似然估计重合，因为此时。优化时需同时考虑似然和先验的权重（如L2正则对应高斯先验）。通过优化算法（如梯度下降）求解使对数似然最大的参数。MAP在MLE的基础上引入

bulingg

892人浏览 · 2025-12-07 19:14:01

bulingg · 2025-12-07 19:14:01 发布

MLE和MAP

MLE（最大似然估计）原理
- 交叉熵损失
MAP（最大后验估计）原理
对比与选择建议

MLE（最大似然估计）原理

MLE的核心思想是找到使观测数据出现概率最大的参数值。假设数据独立同分布（i.i.d.），似然函数定义为：
$L(\theta) = \prod_{i=1}^n P(x_i \mid \theta)$
取对数后转化为对数似然函数：
$\log L(\theta) = \sum_{i=1}^n \log P(x_i \mid \theta)$
通过优化算法（如梯度下降）求解使对数似然最大的参数 $\theta$ 。

适用场景：

数据量充足时，MLE能收敛到真实参数。
模型简单且无需考虑先验知识（如频率学派框架下的参数估计）。
典型应用包括线性回归、逻辑回归的参数估计。

交叉熵损失

在逻辑回归（伯努利分布）的极大似然估计中，损失函数（负对数似然）的数学形式为：

伯努利分布（Bernoulli Distribution）是概率论中一种离散概率分布，描述只有两种可能结果的单次随机试验。这两种结果通常称为“成功”和“失败”，分别用数值 1 和 0 表示。
$max\quad \log L(\theta) = \sum_{i=1}^n \log P(x_i \mid \theta)\\=\sum_{i=1}^{n}log\big(p(x_{i})^{y_{i}}(1-p(x_{i}))^{1-y_{i}}\big)\\=\sum_{i}^{n}\big(y_{i}log(p_{i})+(1-y_{i})log(1-p_{i})\big)$
等价于交叉熵损失函数：
$\quad L(w) = -\sum_{i=1}^n \left[ y_i \log(p_{i}) + (1-y_i)\log(1-p_{i}) \right]$

其中： $p_{i}=\sigma(z) = \frac{1}{1+e^{-z}},z=wx+b$ 是sigmoid函数， $X_i$ 是第 $i$ 个样本的特征向量， $y_i$ 是第i个样本的标签（0或1）， $w$ 是待求参数（包含偏置项）。

对损失函数求w的导数：( $\frac{\partial\sigma(z)}{\partial z}=\frac{e^{-z}}{(1+e^{-z})^{2}}=\frac{(1+e^{-z})-1}{(1+e^{-z})^{2}}=\sigma(z)(1-\sigma(z)$ )
, $\frac{\partial\sigma(z)}{\partial w}=\frac{\partial\sigma(z)}{\partial z}*x,\frac{\partial\sigma(z)}{\partial b}=\frac{\partial\sigma(z)}{\partial z}$
$\frac{\partial L(w)}{\partial w}=-\sum_{i=1}^{n}x_{i}*[y_{i}\frac{\sigma'(z)}{\sigma(z)}+(1-y_{i})\frac{-\sigma'(z)}{1-\sigma(z)}]\\=-\sum_{i=1}^{n}x_{i}*[y_{i}(1-\sigma(z))-(1-y_{i})\sigma(z)]\\=-\sum_{i=1}^{n}x_{i}*[y_{i}-\sigma(z)]$
即：（当存在多个参数时， $w$ 表示向量）
$\frac{\partial L}{\partial w} = X^T(\sigma(Xw) - y)$

逻辑回归梯度下降：

import numpy as np
np.random.seed(0)
# Sigmoid 函数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))
# 交叉熵损失函数
def cross_entropy_loss(y_true, y_pred):
    return -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
# 梯度计算
def compute_gradients(X, y_true, y_pred):
    m = len(y_true)
    dw = np.dot(X.T,(y_pred-y_true))
    return dw / m
# 梯度下降算法
def gradient_descent(X, y, learning_rate=0.001, epochs=50000):
    m, n = X.shape
    weights = np.ones((n,1))  # 初始化权重
    losses = []  # 存储损失值
    for epoch in range(epochs):
        logits = np.dot(X, weights)
        y_pred = sigmoid(logits)
        accurate_rate = (((y_pred>0.5).astype(int) == y).sum())/m
        loss = cross_entropy_loss(y, y_pred)
        losses.append(loss)
        gradients = compute_gradients(X, y, y_pred)
        weights -= learning_rate * gradients
        if epoch % 5000 == 0:
            print(f'Epoch {epoch}, Loss: {loss:.4f},accurate:{accurate_rate*100:.2f}%')
    return weights, losses

# 修正后的数据生成
X = np.random.randn(100, 2)
X_with_bias = np.column_stack([X, np.ones(X.shape[0])])
true_weights = np.array([[2], [-1], [0.5]]) 
logits = np.dot(X_with_bias, true_weights)
probabilities = sigmoid(logits)
y = (probabilities > 0.5).astype(int)
# print(X_with_bias.shape,true_weights.shape,y.shape)

learned_weights, losses = gradient_descent(X_with_bias, y)

print("True weights:", true_weights)
print("Learned weights:", learned_weights)

线性回归：

import numpy as np
def cost_func(X,y,w,bias):
    y_pred = np.dot(X,w)+bias
    return np.mean((y_pred-y)**2)
def gradient_func(X,y,w,bias):
    n = X.shape[0]
    y_pred = np.dot(X,w)+bias
    dw = 2/n*np.dot(X.T,(y_pred-y))
    db = 2/n*np.sum(y_pred-y)
    return dw,db 
def gradient_descent(X,y,lr = 1e-3,max_iter = 10000,tolerance = 1e-6):
    w = np.zeros((X.shape[1],1))
    b = np.zeros((1,1))

    for _ in range(max_iter):
        loss = cost_func(X,y,w,b)
        if loss < tolerance:
            return w,b 
        dw, db = gradient_func(X,y,w,b)
        
        w -= lr*dw
        b -= lr*db 
    return w,b 
np.random.seed(0)
X = np.random.randn(100,2)
true_w = np.array([[3.0],[-2.0]])
true_b = 5.0
y = np.dot(X,true_w)+true_b + 0.1*np.random.rand(100,1)
w_learned, b_learned = gradient_descent(X,y)
print(f'预测值w:\n{w_learned}')
print(f'预测值b:{b_learned}')

MAP（最大后验估计）原理

MAP在MLE的基础上引入参数的先验分布 $P(\theta)$ ，目标是最大化后验概率：
$P(\theta \mid X) \propto P(X \mid \theta) P(\theta)$
对数后验概率为：
$\log P(\theta \mid X) = \log P(X \mid \theta) + \log P(\theta) + \text{constant}$
优化时需同时考虑似然和先验的权重（如L2正则对应高斯先验）。

适用场景：

数据稀疏时，利用先验知识避免过拟合。
需平衡经验数据与领域知识（如贝叶斯网络、文本分类中的平滑处理）。
典型应用包括贝叶斯线性回归、主题模型中的超参数调整。

对比与选择建议

极大似然估计： $\theta$ 的最大似然估计是似然函数 $f(x|\theta)$ 取最大值时 $\theta$ 的值。
最大后验估计：假设 $\theta$ 存在先验分布 $g$ ，并且由于后验分布的分母与 $\theta$ 无关，所以最大后验估计方法通过最大化 $f(x|\theta)g(\theta)$ 求得，即为其后验分布的众数。

值得注意的是，当 $\theta$ 的先验分布是均匀分布时，即先验分布为常数时，最大后验估计与最大似然估计重合，因为此时 $g(\theta)$ 的值与 $\theta$ 取值无关。

区别：

数据量：大数据下MLE与MAP结果趋近；小数据时MAP更鲁棒。
先验信息：若有可靠先验（如物理模型约束），优先选择MAP。
计算成本：MLE通常更高效，MAP需设计合理的先验分布。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter for OpenHarmony 三方库实战：使用 dayjs 构建校园日程助手页面

在校园类应用中，时间相关功能非常常见，例如课程表、考试倒计时、活动提醒、会议安排等。这些功能看起来只是展示几行文字，但实际开发时会涉及时间格式转换、时间差计算、状态判断等逻辑。如果直接使用原生Date对象处理这些内容，代码会比较繁琐，可读性也不够好。因此本篇文章选择使用三方库dayjs来完成时间格式化和日程状态判断。本篇文章以“校园日程助手”为场景，使用 OpenHarmony 项目中的 ArkT

开源鸿蒙跨平台开发者社区

#基于Flutter+三方库+鸿蒙开发的高考题目设计系统全流程实战

欢迎加入开源鸿蒙跨平台社区： https://openharmonycrossplatform.csdn.net本项目是一套跨平台高考题目设计、管理、预览系统，核心采用Flutter搭建跨端主应用，集成优质Flutter三方库实现高效开发，同时适配鸿蒙（HarmonyOS）平台，实现一套逻辑多端运行。项目包含题目录入、题型编辑、题库管理、预览导出、鸿蒙端适配发布等完整功能，全程提供可落地的详细步骤