使用 Scikit-learn 和 SVM 实现验证码识别系统

ttocr.com

812人浏览 · 2025-02-22 21:17:28

ttocr.com · 2025-02-22 21:17:28 发布

在这篇文章中，我们将使用 Scikit-learn 中的支持向量机（SVM）来实现一个验证码识别系统。虽然支持向量机（SVM）通常用于二分类问题，但我们可以通过调整其多类分类支持来解决验证码识别问题。本示例通过简单的图像预处理和特征提取，使用 SVM 来识别图像中的字符。

1. 环境准备
首先，我们需要安装以下必要的库：

bash

pip install scikit-learn opencv-python numpy matplotlib pillow
scikit-learn：一个广泛使用的机器学习库，用于实现 SVM 和其他分类算法。
opencv-python：用于图像处理。
numpy：用于数值计算。
matplotlib：用于结果可视化。
pillow：用于图像加载和预处理。
2. 数据集准备与图像预处理
我们假设数据集中的验证码图像已经准备好了，且每个图像的标签是包含的字符。我们将对图像进行一些预处理操作，包括：将图像转为灰度图、应用二值化、调整图像大小以及将图像展平为一维特征向量。

(1) 图像预处理
python

import cv2
import numpy as np
import os
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

def preprocess_image(img_path, img_size=(64, 64)):
# 读取图像
img = cv2.imread(img_path)

# 转换为灰度图
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 使用 Otsu 的方法进行二值化
_, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)

# 调整图像大小
resized_img = cv2.resize(binary, img_size)

# 展平图像为一维数组
flattened_img = resized_img.flatten()

return flattened_img

# 加载图像数据
def load_data(image_dir):
images = []
labels = []

for filename in os.listdir(image_dir):
if filename.endswith('.png'):
img_path = os.path.join(image_dir, filename)
img = preprocess_image(img_path)

images.append(img)

# 提取标签（假设标签为文件名的前几个字符）
label = filename.split('.')[0]
labels.append(label)

images = np.array(images)
labels = np.array(labels)

return images, labels

# 加载数据集
image_dir = 'captcha_images'
images, labels = load_data(image_dir)
在上述代码中，我们读取图像并将其转换为灰度图，进行二值化处理，并将图像调整为统一的尺寸。最后，使用 flatten() 方法将每张图像展平为一维数组，这样可以直接用于 SVM 模型的训练。

3. 标签编码与数据拆分
因为 SVM 是一种分类算法，我们需要对标签进行编码。我们可以使用 LabelEncoder 来将标签（字符）转换为数值。此外，我们还会将数据集拆分为训练集和测试集，以便评估模型的性能。

(1) 标签编码与数据拆分
python

# 标签编码
label_encoder = LabelEncoder()
labels_encoded = label_encoder.fit_transform(labels)

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(images, labels_encoded, test_size=0.2, random_state=42)
在这段代码中，我们使用 LabelEncoder 将字符标签转换为数值标签。然后，使用 train_test_split 将数据集分为训练集和测试集，其中 80% 用于训练，20% 用于测试。

4. 构建 SVM 模型
接下来，我们使用 Scikit-learn 中的 SVC（支持向量分类器）来构建模型。由于验证码的字符识别是一个多分类问题，我们将使用 SVC 的多分类策略。

(1) 构建并训练 SVM 模型
python

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# 标准化数据
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 构建 SVM 模型
svm_model = SVC(kernel='linear', C=1.0, random_state=42, decision_function_shape='ovr')

# 训练模型
svm_model.fit(X_train_scaled, y_train)

# 预测并评估模型
y_pred = svm_model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)

print(f'测试集上的准确率: {accuracy * 100:.2f}%')
在这段代码中，我们使用 StandardScaler 对数据进行标准化，以便 SVM 更好地进行训练。然后，我们使用线性核函数（kernel='linear'）构建了一个 SVM 模型，并训练它。最后，我们使用测试集评估模型的准确率。

5. 模型评估与可视化
通过训练完模型后，我们可以计算模型的性能并进行可视化。除了准确率，我们还可以绘制混淆矩阵来查看模型在每个类别上的表现。

(1) 混淆矩阵可视化
python

import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
import seaborn as sns

# 混淆矩阵
cm = confusion_matrix(y_test, y_pred)

# 可视化混淆矩阵
plt.figure(figsize=(10, 7))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=label_encoder.classes_, yticklabels=label_encoder.classes_)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Confusion Matrix')
plt.show()
在这里，我们使用 confusion_matrix 计算混淆矩阵，并通过 seaborn 库绘制热图。通过混淆矩阵，我们可以更直观地了解模型在哪些字符上做得好，在哪些字符上做得差。

6. 对新的验证码进行预测
训练完成后，我们可以用模型对新的验证码图像进行预测。以下是如何对一张新图像进行预测的代码。

(1) 对新验证码进行预测
python
更多内容访问ttocr.com或联系1436423940
def predict_captcha(model, scaler, img_path):
# 预处理图像
img = preprocess_image(img_path)

# 标准化图像数据
img_scaled = scaler.transform([img])

# 预测
predicted_label_encoded = model.predict(img_scaled)

# 解码标签
predicted_label = label_encoder.inverse_transform(predicted_label_encoded)

return predicted_label[0]

# 预测新的验证码
new_image_path = 'captcha_images/test1.png'
predicted_label = predict_captcha(svm_model, scaler, new_image_path)
print(f'预测结果: {predicted_label}')
这段代码首先会预处理图像，然后使用训练好的 SVM 模型进行预测，最后将预测的数值标签转换为原始的字符标签。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Expo SDK 54 下 React Native 新老架构选型与低配设备内存优化指南

首选新架构（实测表明，在消除了大图解压和 WebView 浪费后，新架构在低配设备上的内存表现（388.4 MB）甚至优于老架构！并且新架构的 Fabric 渲染引擎能带来更顺畅的滑动体验。第三方音视频 / 直播 SDK 对接规范接入复杂的第三方音视频/直播 SDK 时，建议采用“原生全屏 Activity / ViewController”的调用方式（并在 Android 端配置独立进程这种方式

开源鸿蒙跨平台开发者社区

《HarmonyOS 状态管理源码深度解析：从字节码到像素的完整链路》

本文深入剖析了HarmonyOS NEXT生态中ArkUI状态管理系统的底层机制。通过分析OpenHarmony SDK(API12+)和ArkCompiler源码，全面揭示了状态变量从声明到渲染更新的全生命周期过程。主要内容包括：编译器前端的装饰器转换与增量更新代码生成机制；运行时SynthesizedProperty的内存布局、依赖收集和脏标记传播原理；四大装饰器(@State/@Prop/@

开源鸿蒙跨平台开发者社区

OpenHarmony+6G查询助手创新实践

针对“开源鸿蒙社区月度优秀评选｜多方向有奖评优、高校开发者速冲！赛道一：系统与技术创新赛道腾讯元器信息技术6G查询助手”这一主题，核心是理解并参与该评选活动，特别是“系统与技术创新赛道”中与“腾讯元器信息技术6G查询助手”相关的项目。以下是如何基于开源鸿蒙（OpenHarmony）进行系统与技术创新的关键路径和示例。