当前位置：首页 > news >正文

从房价预测到猫图识别：用Python手把手复现吴恩达第二周逻辑回归实战

news 2026/6/3 3:54:57

从房价预测到猫图识别：用Python手把手复现吴恩达第二周逻辑回归实战

在人工智能的入门旅程中，逻辑回归就像是一把打开机器学习大门的金钥匙。这门看似简单的算法，却蕴含着神经网络最基础的思想精髓。今天，我们将摆脱枯燥的理论推导，用Python从零实现一个能识别猫图的逻辑回归模型，让你亲身体验AI模型的完整构建过程。

1. 逻辑回归的本质与猫图识别场景

逻辑回归虽然名字里带着"回归"，实则是解决二分类问题的利器。想象一下，你正在开发一个智能相册应用，需要自动筛选出包含猫咪的照片——这正是典型的二分类任务：输入一张图片，输出"是猫"(1)或"不是猫"(0)。

为什么选择猫图识别作为实践项目？

视觉识别比房价预测更直观有趣
64x64的小尺寸图片处理计算量适中
结果可视化容易理解（能直接看到识别效果）
与吴恩达课程中的教学案例完美契合

在技术实现层面，我们需要解决三个核心问题：

如何将图片转换为数学模型可处理的数据？
怎样构建能够学习特征的逻辑回归模型？
如何评估模型性能并持续优化？

2. 数据预处理：从像素到特征向量

处理图像数据的第一步是将其转换为数值矩阵。对于64x64像素的RGB图片，实际上由三个64×64的矩阵组成，分别对应红、绿、蓝三个颜色通道。

import numpy as np from PIL import Image def image_to_feature(image_path): img = Image.open(image_path) img = img.resize((64, 64)) # 统一尺寸 rgb_array = np.array(img) / 255.0 # 归一化像素值 return rgb_array.reshape(-1, 1) # 展平为特征向量

关键预处理步骤：

步骤	操作	目的	注意事项
尺寸统一	调整为64x64	保证输入维度一致	保持宽高比或直接拉伸
颜色分离	拆分为RGB通道	获取完整色彩信息	通道顺序要一致
数值归一化	除以255	将像素值缩放到[0,1]区间	避免数值溢出
向量展平	reshape操作	转换为单列特征向量	保持样本间维度一致

提示：在实际项目中，建议使用OpenCV代替PIL进行图像处理，性能更优且功能更丰富。

3. 构建逻辑回归模型的核心组件

逻辑回归模型由三个关键部分组成：线性变换、Sigmoid激活函数和损失函数。让我们用NumPy逐一实现：

3.1 Sigmoid函数实现

Sigmoid函数将线性输出压缩到(0,1)区间，完美适配概率预测：

def sigmoid(z): """ 计算Sigmoid函数值 参数: z -- 线性变换结果 返回: a -- 激活值(概率) """ return 1 / (1 + np.exp(-z)) # 测试Sigmoid函数 test_z = np.array([-1, 0, 1]) print("Sigmoid输出:", sigmoid(test_z))

3.2 初始化模型参数

正确的参数初始化对模型训练至关重要：

def initialize_parameters(dim): """ 初始化权重和偏置 参数: dim -- 特征向量的维度 返回: params -- 包含w和b的字典 """ w = np.zeros((dim, 1)) # 权重初始化为0 b = 0.0 # 偏置初始化为0 return {"w": w, "b": b} # 示例：初始化12288维参数(64*64*3) parameters = initialize_parameters(12288)

3.3 前向传播计算

整合线性变换和Sigmoid激活：

def forward_propagation(X, params): """ 前向传播计算预测值 参数: X -- 输入特征矩阵 (n_x, m) params -- 包含w和b的字典 返回: A -- 预测概率值 cache -- 包含Z的缓存(用于反向传播) """ w = params["w"] b = params["b"] Z = np.dot(w.T, X) + b # 线性变换 A = sigmoid(Z) # 激活输出 return A, {"Z": Z}

4. 损失函数与梯度下降实现

4.1 交叉熵损失计算

逻辑回归使用交叉熵损失函数，能有效衡量预测概率与实际标签的差异：

def compute_cost(A, Y): """ 计算交叉熵损失 参数: A -- 预测概率 (1, m) Y -- 真实标签 (1, m) 返回: cost -- 平均交叉熵损失 """ m = Y.shape[1] cost = -np.mean(Y * np.log(A) + (1-Y) * np.log(1-A)) return np.squeeze(cost) # 去除多余的维度

4.2 反向传播梯度计算

通过微积分链式法则计算梯度：

def backward_propagation(X, Y, A, cache): """ 计算梯度 参数: X -- 输入特征 (n_x, m) Y -- 真实标签 (1, m) A -- 预测概率 (1, m) cache -- 包含Z的缓存 返回: grads -- 包含dw和db的字典 """ m = X.shape[1] dZ = A - Y # 关键梯度项 dw = np.dot(X, dZ.T) / m db = np.sum(dZ) / m return {"dw": dw, "db": db}

4.3 参数更新

使用梯度下降算法迭代优化参数：

def update_parameters(params, grads, learning_rate=0.01): """ 更新模型参数 参数: params -- 包含w和b的字典 grads -- 包含dw和db的字典 learning_rate -- 学习率 返回: params -- 更新后的参数 """ w = params["w"] - learning_rate * grads["dw"] b = params["b"] - learning_rate * grads["db"] return {"w": w, "b": b}

5. 向量化实现与性能优化

原始实现中使用for循环逐个样本计算效率低下，向量化技术能大幅提升运行速度：

5.1 向量化vs循环实现对比

import time # 生成随机数据 np.random.seed(1) X = np.random.rand(12288, 1000) # 1000个样本 Y = np.random.randint(0, 2, (1, 1000)) params = initialize_parameters(12288) # for循环实现 tic = time.time() A_for = np.zeros((1, 1000)) for i in range(1000): z = np.dot(params["w"].T, X[:, i]) + params["b"] A_for[0, i] = sigmoid(z) toc = time.time() print(f"循环实现耗时: {1000*(toc-tic):.2f}ms") # 向量化实现 tic = time.time() Z_vec = np.dot(params["w"].T, X) + params["b"] A_vec = sigmoid(Z_vec) toc = time.time() print(f"向量化实现耗时: {1000*(toc-tic):.2f}ms") # 验证结果一致性 print("结果差异:", np.sum(np.abs(A_for - A_vec)))

典型输出结果：

循环实现耗时: 185.42ms 向量化实现耗时: 1.97ms 结果差异: 0.0

5.2 完整训练流程整合

将各个组件整合为完整的训练流程：

def model(X, Y, num_iterations=2000, learning_rate=0.5, print_cost=False): """ 完整训练流程 参数: X -- 输入特征 (n_x, m) Y -- 真实标签 (1, m) num_iterations -- 迭代次数 learning_rate -- 学习率 print_cost -- 是否打印损失 返回: params -- 训练好的参数 costs -- 损失记录 """ costs = [] params = initialize_parameters(X.shape[0]) for i in range(num_iterations): # 前向传播 A, cache = forward_propagation(X, params) # 计算损失 cost = compute_cost(A, Y) costs.append(cost) # 反向传播 grads = backward_propagation(X, Y, A, cache) # 参数更新 params = update_parameters(params, grads, learning_rate) # 每100次打印损失 if print_cost and i % 100 == 0: print(f"迭代次数 {i}: 损失 {cost:.4f}") return params, costs

6. 模型评估与实战技巧

训练完成后，我们需要评估模型性能并优化：

6.1 预测函数实现

def predict(X, params, threshold=0.5): """ 使用训练好的模型进行预测 参数: X -- 输入特征 (n_x, m) params -- 包含w和b的字典 threshold -- 分类阈值 返回: Y_prediction -- 预测标签 (1, m) """ A, _ = forward_propagation(X, params) Y_prediction = (A > threshold).astype(int) return Y_prediction

6.2 性能评估指标

def evaluate(Y_pred, Y_true): """ 计算模型评估指标 参数: Y_pred -- 预测标签 (1, m) Y_true -- 真实标签 (1, m) 返回: metrics -- 包含各项指标的字典 """ m = Y_true.shape[1] accuracy = np.mean(Y_pred == Y_true) precision = np.sum(Y_pred * Y_true) / np.sum(Y_pred) recall = np.sum(Y_pred * Y_true) / np.sum(Y_true) return { "accuracy": accuracy, "precision": precision, "recall": recall }

6.3 学习率选择策略

不同学习率对训练过程的影响：

学习率	收敛速度	最终性能	风险
0.1-1.0	快	可能最优	容易震荡
0.01-0.1	适中	稳定最优	较安全
<0.01	慢	可能欠拟合	耗时

注意：实际项目中建议使用学习率衰减策略，初期用较大学习率快速下降，后期逐步减小以精细调优。

7. 项目扩展与进阶方向

掌握了基础逻辑回归后，可以考虑以下进阶方向：

性能优化技巧：

添加L2正则化防止过拟合
实现mini-batch梯度下降
加入学习率衰减策略
使用更高级的优化器(如Adam)

工程实践建议：

构建图像预处理流水线
实现模型保存与加载功能
开发简单的Web演示界面
使用GPU加速训练过程

# 示例：添加L2正则化 def compute_cost_with_regularization(A, Y, params, lambda_=0.1): m = Y.shape[1] cross_entropy_cost = compute_cost(A, Y) L2_cost = (lambda_/(2*m)) * np.sum(np.square(params["w"])) return cross_entropy_cost + L2_cost

从房价预测到猫图识别，逻辑回归向我们展示了机器学习最基础也最强大的思想。当你亲手实现这个项目后，会发现神经网络不再神秘——它们不过是这些基础组件的巧妙组合。建议尝试用不同的图片集测试你的模型，比如识别狗狗、花朵或者手写数字，观察模型表现的变化。

查看全文

http://www.cnnetsun.cn/news/2588716.html