CNN 图像识别实战：PyTorch 2.0 训练 CIFAR-10 模型，准确率 85% 以上

发布时间：2026/7/5 12:03:01

CNN 图像识别实战PyTorch 2.0 训练 CIFAR-10 模型准确率 85% 以上1. 环境准备与数据加载在开始构建 CNN 模型之前我们需要准备好开发环境并加载 CIFAR-10 数据集。PyTorch 2.0 提供了更加高效的计算图和优化的 GPU 加速让我们能够更快地训练模型。首先安装必要的依赖库pip install torch torchvision matplotlib numpyCIFAR-10 数据集包含 60,000 张 32x32 彩色图像分为 10 个类别每个类别 6,000 张图像。PyTorch 的 torchvision 模块提供了方便的接口来加载和预处理这些数据import torch import torchvision import torchvision.transforms as transforms # 定义数据预处理 transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 加载训练集和测试集 trainset torchvision.datasets.CIFAR10(root./data, trainTrue, downloadTrue, transformtransform) trainloader torch.utils.data.DataLoader(trainset, batch_size64, shuffleTrue, num_workers2) testset torchvision.datasets.CIFAR10(root./data, trainFalse, downloadTrue, transformtransform) testloader torch.utils.data.DataLoader(testset, batch_size64, shuffleFalse, num_workers2) # 定义类别名称 classes (plane, car, bird, cat, deer, dog, frog, horse, ship, truck)提示数据预处理中的 Normalize 操作将像素值从 [0,1] 范围转换到 [-1,1] 范围这有助于模型更快收敛。2. CNN 模型架构设计我们将构建一个中等深度的 CNN 模型包含多个卷积层、池化层和全连接层。PyTorch 2.0 的torch.nn模块提供了构建神经网络所需的所有组件。import torch.nn as nn import torch.nn.functional as F class CIFAR10CNN(nn.Module): def __init__(self): super().__init__() # 第一组卷积层 self.conv1 nn.Conv2d(3, 32, 3, padding1) self.bn1 nn.BatchNorm2d(32) self.conv2 nn.Conv2d(32, 32, 3, padding1) self.bn2 nn.BatchNorm2d(32) self.pool1 nn.MaxPool2d(2, 2) self.dropout1 nn.Dropout(0.25) # 第二组卷积层 self.conv3 nn.Conv2d(32, 64, 3, padding1) self.bn3 nn.BatchNorm2d(64) self.conv4 nn.Conv2d(64, 64, 3, padding1) self.bn4 nn.BatchNorm2d(64) self.pool2 nn.MaxPool2d(2, 2) self.dropout2 nn.Dropout(0.25) # 第三组卷积层 self.conv5 nn.Conv2d(64, 128, 3, padding1) self.bn5 nn.BatchNorm2d(128) self.conv6 nn.Conv2d(128, 128, 3, padding1) self.bn6 nn.BatchNorm2d(128) self.pool3 nn.MaxPool2d(2, 2) self.dropout3 nn.Dropout(0.25) # 全连接层 self.fc1 nn.Linear(128 * 4 * 4, 512) self.dropout4 nn.Dropout(0.5) self.fc2 nn.Linear(512, 10) def forward(self, x): # 第一组卷积层的前向传播 x F.relu(self.bn1(self.conv1(x))) x F.relu(self.bn2(self.conv2(x))) x self.pool1(x) x self.dropout1(x) # 第二组卷积层的前向传播 x F.relu(self.bn3(self.conv3(x))) x F.relu(self.bn4(self.conv4(x))) x self.pool2(x) x self.dropout2(x) # 第三组卷积层的前向传播 x F.relu(self.bn5(self.conv5(x))) x F.relu(self.bn6(self.conv6(x))) x self.pool3(x) x self.dropout3(x) # 全连接层的前向传播 x x.view(-1, 128 * 4 * 4) x F.relu(self.fc1(x)) x self.dropout4(x) x self.fc2(x) return x # 实例化模型并移动到GPU如果可用 device torch.device(cuda:0 if torch.cuda.is_available() else cpu) model CIFAR10CNN().to(device)这个 CNN 架构包含以下关键组件卷积层使用 3x3 卷积核提取特征每组卷积层后接批量归一化和 ReLU 激活池化层最大池化层用于降维减少计算量Dropout防止过拟合在训练过程中随机丢弃部分神经元全连接层将提取的特征映射到 10 个输出类别3. 模型训练与优化策略训练 CNN 模型需要选择合适的损失函数和优化器并设置适当的学习率调度策略。PyTorch 2.0 提供了多种优化器和学习率调度器我们可以根据需求进行选择。import torch.optim as optim # 定义损失函数和优化器 criterion nn.CrossEntropyLoss() optimizer optim.Adam(model.parameters(), lr0.001, weight_decay1e-4) # 学习率调度器 scheduler optim.lr_scheduler.ReduceLROnPlateau(optimizer, max, patience3, factor0.5, verboseTrue) # 训练函数 def train_model(model, trainloader, testloader, criterion, optimizer, scheduler, epochs50): best_acc 0.0 for epoch in range(epochs): model.train() running_loss 0.0 for i, data in enumerate(trainloader, 0): inputs, labels data[0].to(device), data[1].to(device) optimizer.zero_grad() outputs model(inputs) loss criterion(outputs, labels) loss.backward() optimizer.step() running_loss loss.item() if i % 200 199: print(f[{epoch 1}, {i 1:5d}] loss: {running_loss / 200:.3f}) running_loss 0.0 # 每个epoch结束后评估模型 model.eval() correct 0 total 0 with torch.no_grad(): for data in testloader: images, labels data[0].to(device), data[1].to(device) outputs model(images) _, predicted torch.max(outputs.data, 1) total labels.size(0) correct (predicted labels).sum().item() accuracy 100 * correct / total print(fEpoch {epoch 1} Accuracy: {accuracy:.2f}%) # 调整学习率 scheduler.step(accuracy) # 保存最佳模型 if accuracy best_acc: best_acc accuracy torch.save(model.state_dict(), best_model.pth) print(Finished Training) print(fBest Accuracy: {best_acc:.2f}%) # 开始训练 train_model(model, trainloader, testloader, criterion, optimizer, scheduler, epochs50)训练过程中采用了以下优化策略Adam 优化器结合了动量法和自适应学习率的优点学习率调度当验证集准确率不再提升时自动降低学习率权重衰减L2 正则化防止模型过拟合早停机制保存验证集上表现最好的模型4. 模型评估与性能提升训练完成后我们需要全面评估模型性能并探索进一步提升准确率的方法。以下是几种有效的策略4.1 数据增强通过在训练过程中随机变换输入图像可以增加数据多样性提高模型泛化能力# 增强的数据预处理 transform_train transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.RandomCrop(32, padding4), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) transform_test transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 重新加载数据 trainset torchvision.datasets.CIFAR10(root./data, trainTrue, downloadTrue, transformtransform_train) trainloader torch.utils.data.DataLoader(trainset, batch_size64, shuffleTrue, num_workers2) testset torchvision.datasets.CIFAR10(root./data, trainFalse, downloadTrue, transformtransform_test) testloader torch.utils.data.DataLoader(testset, batch_size64, shuffleFalse, num_workers2)4.2 模型集成结合多个模型的预测结果可以进一步提升性能# 加载多个训练好的模型 model1 CIFAR10CNN().to(device) model1.load_state_dict(torch.load(model1.pth)) model1.eval() model2 CIFAR10CNN().to(device) model2.load_state_dict(torch.load(model2.pth)) model2.eval() # 集成预测 def ensemble_predict(models, inputs): outputs [] for model in models: output model(inputs) outputs.append(F.softmax(output, dim1)) avg_output torch.mean(torch.stack(outputs), dim0) _, predicted torch.max(avg_output, 1) return predicted # 测试集成模型 correct 0 total 0 with torch.no_grad(): for data in testloader: images, labels data[0].to(device), data[1].to(device) predicted ensemble_predict([model1, model2], images) total labels.size(0) correct (predicted labels).sum().item() print(fEnsemble Accuracy: {100 * correct / total:.2f}%)4.3 高级优化技巧标签平滑防止模型对训练数据过度自信混合精度训练使用 FP16 减少内存占用加快训练速度知识蒸馏使用大模型指导小模型训练# 标签平滑交叉熵损失 class LabelSmoothingCrossEntropy(nn.Module): def __init__(self, epsilon0.1): super().__init__() self.epsilon epsilon def forward(self, outputs, targets): num_classes outputs.size()[-1] log_preds F.log_softmax(outputs, dim-1) loss -log_preds.mean() if self.epsilon 0: smooth_loss -log_preds.mean(dim-1) loss (1 - self.epsilon) * loss self.epsilon * smooth_loss return loss # 混合精度训练 from torch.cuda.amp import GradScaler, autocast scaler GradScaler() for inputs, labels in trainloader: inputs, labels inputs.to(device), labels.to(device) optimizer.zero_grad() with autocast(): outputs model(inputs) loss criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()5. 结果分析与可视化理解模型的行为和决策过程对于改进模型至关重要。我们可以通过多种方式可视化模型的性能和内部工作机制。5.1 混淆矩阵混淆矩阵展示了模型在各个类别上的表现from sklearn.metrics import confusion_matrix import seaborn as sns import matplotlib.pyplot as plt import numpy as np # 计算混淆矩阵 model.eval() all_preds [] all_labels [] with torch.no_grad(): for data in testloader: images, labels data[0].to(device), data[1].to(device) outputs model(images) _, preds torch.max(outputs, 1) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) cm confusion_matrix(all_labels, all_preds) # 绘制混淆矩阵 plt.figure(figsize(10, 8)) sns.heatmap(cm, annotTrue, fmtd, cmapBlues, xticklabelsclasses, yticklabelsclasses) plt.xlabel(Predicted) plt.ylabel(True) plt.title(Confusion Matrix) plt.show()5.2 特征可视化通过可视化卷积层的特征图我们可以理解模型是如何看图像的# 获取第一层卷积核 weights model.conv1.weight.data.cpu().numpy() plt.figure(figsize(12, 8)) for i in range(32): plt.subplot(4, 8, i1) plt.imshow(weights[i, 0], cmapviridis) plt.axis(off) plt.suptitle(First Layer Filters) plt.show() # 可视化特征图 def visualize_feature_maps(model, image): model.eval() activations [] def hook_fn(module, input, output): activations.append(output) hooks [] layers [model.conv1, model.conv3, model.conv5] for layer in layers: hooks.append(layer.register_forward_hook(hook_fn)) with torch.no_grad(): output model(image.unsqueeze(0).to(device)) for hook in hooks: hook.remove() return activations # 随机选择一张测试图像 sample_image, _ testset[0] activations visualize_feature_maps(model, sample_image) # 绘制特征图 plt.figure(figsize(12, 8)) plt.subplot(1, 2, 1) plt.imshow(np.transpose(sample_image.numpy(), (1, 2, 0)) * 0.5 0.5) plt.axis(off) plt.title(Original Image) plt.subplot(1, 2, 2) plt.imshow(activations[0][0, 0].cpu().numpy(), cmapviridis) plt.axis(off) plt.title(First Layer Feature Map) plt.show()5.3 训练曲线分析绘制训练过程中的损失和准确率曲线帮助我们理解模型的学习动态def plot_training_history(train_losses, val_accuracies): fig, ax1 plt.subplots(figsize(10, 6)) color tab:red ax1.set_xlabel(Epoch) ax1.set_ylabel(Training Loss, colorcolor) ax1.plot(train_losses, colorcolor) ax1.tick_params(axisy, labelcolorcolor) ax2 ax1.twinx() color tab:blue ax2.set_ylabel(Validation Accuracy, colorcolor) ax2.plot(val_accuracies, colorcolor) ax2.tick_params(axisy, labelcolorcolor) plt.title(Training Loss and Validation Accuracy) fig.tight_layout() plt.show() # 假设我们已经记录了训练过程中的损失和准确率 train_losses [...] # 填充实际训练损失 val_accuracies [...] # 填充实际验证准确率 plot_training_history(train_losses, val_accuracies)通过以上分析和可视化我们可以深入了解模型的性能瓶颈并针对性地改进模型架构或训练策略。

文章详情

CNN 图像识别实战：PyTorch 2.0 训练 CIFAR-10 模型，准确率 85% 以上

相关新闻

最新新闻

日新闻

周新闻

月新闻