(块坐标下降法) 坐标下降和块坐标下降法 - 坐标下降法： Coordinate Descent and Block Coordinate Descent 全网首发(图文详解1)

(块坐标下降法) 坐标下降和块坐标下降法 – 坐标下降法： Coordinate Descent and Block Coordinate Descent 全网首发(图文详解1)

(块坐标下降法) 坐标下降和块坐标下降法 –

坐标下降法(Coordinate Descent)和块坐标下降法(Block Coordinate Descent)是优化算法中的一类，用于求解大规模优化问题。它们通过每次只优化目标函数的一个或一组参数，而固定其他参数，逐步逼近全局最优解或局部最优解。下面将分别介绍这两种方法以及它们的实现流程。

坐标下降法

定义: 坐标下降法是一种迭代优化算法，其基本思想是将多变量优化问题分解为多个单变量优化问题来求解。每一次迭代中，它固定除了一个外的所有变量，仅对选定的一个变量进行优化。

实现流程:

初始化: 选择一个初始点作为起始点。
迭代: 对于每一个迭代，选择一个坐标轴或变量，固定其他坐标轴上的变量，然后在选定的坐标轴上进行一维优化。
更新: 计算得到的最优值用于更新该变量的值。
检查停止准则: 如果满足停止条件（如变量更新量小于某个阈值，或达到最大迭代次数），则停止迭代；否则，返回步骤2继续迭代。

块坐标下降法

定义: 块坐标下降法是坐标下降法的一个变种，它将变量分为几个块，每次迭代时选择一个或多个块进行优化，而固定其他块。

实现流程:

初始化: 选择一个初始点作为起始点。
迭代: 对于每一个迭代，选择一组变量（即一个块），固定其他块的变量，然后对选定的块中的变量进行优化。
更新: 根据优化结果更新块中的变量值。
检查停止准则: 类似于坐标下降法，检查是否满足停止条件，不满足则返回步骤2继续迭代。

代码示例

以最简单的线性回归问题为例，我们使用坐标下降法来优化线性回归的参数。

import numpy as np

# 线性回归模型的损失函数及其对一个参数的偏导数
def loss(X, y, theta):
    return np.sum((X.dot(theta) - y) ** 2) / (2 * len(y))

def partial_derivative(X, y, theta, j):
    return np.sum((X.dot(theta) - y) * X[:, j]) / len(y)

# 坐标下降法实现
def coordinate_descent(X, y, tol=1e-4, max_iter=1000):
    m, n = X.shape
    theta = np.zeros(n)  # 初始化参数
    for it in range(max_iter):
        for j in range(n):
            pd = partial_derivative(X, y, theta, j)  # 计算偏导数
            theta[j] -= pd * 0.01  # 更新参数
        if np.linalg.norm(X.dot(theta) - y, ord=2) ** 2 / len(y) < tol:
            break
    return theta

# 示例数据
X = np.array([[1, 2], [1, 3], [1, 4], [1, 5]])
y = np.array([5, 6, 7, 8])
theta = coordinate_descent(X, y)

print("参数:", theta)

这个简单的示例仅用于说明坐标下降法的基本思想和实现方式。在具体的应用中，针对不同问题的优化目标和约束条件，坐标下降法的具体实现和优化部分可能会有所不同。
(linux安装vscode) Linux安装VSCode – VSCode Linux 安装指南全网首发(图文详解1)
(零均值) 什么是零均值？什么是零均值化？ – 零均值化：将数据中心移到零全网首发(图文详解1)