NCU-机器学习-作业3:基于SVM的手写字识别

任务描述:

手写数字识别是生活中尤其常见的机器学习任务,给出一份手写数字训练数据集,训练一个SVM模型并对测试集进行手写数字识别。

输入数据:

在train/目录下包含多个txt文件,其中每个文件表示一个用01矩阵表示的手写数字,文件名中下划线前面的数字代表手写数字的值(如2_167.txt表示手写数字为2;3_13.txt表示手写数字为3,训练数据集可在教学资料中下载,文件名为svm_train.tar)。

在test/目录下也包含多个txt文件,只不过test文件夹下面的txt文件无法从文件名得知手写数字的值(文件名:0.txt~945.txt),需要根据训练好的模型进行预测。

输出数据:

程序需要生成一个result.csv文件,用于保存程序对test中各个txt文件中手写数字值的预测结果。第一行固定为num,之后每一行为一个数值,代表预测值,表示程序对test中对应txt文件的预测结果。

评价标准:

测试集上的准确率。

输入样例:

复制代码
00000000000000000011110000000000
00000000000000001111111100000000
00000000001000111111111100000000
00000000011111111111111110000000
00000000111111111111111110000000
00000000111111111111111110000000
00000000111111111111111110000000
00000000111111111111111111000000
00000001111111111101111111000000
00000000111111000000001111000000
00000001111110000000011111000000
00000001111100000000011111000000
00000001111100000000011111000000
00000001111100000000001111000000
00000001111100000000001111000000
00000001111100000000001111000000
00000001111100000000001111000000
00000001111100000000001111000000
00000001111100000000001111000000
00000001111100000000001111000000
00000001111100000000011111000000
00000000111100000000011111000000
00000000011110000000011111000000
00000000111100000001111110000000
00000000111110000111111000000000
00000000111111111111111000000000
00000000011111111111111000000000
00000000011111111111111000000000
00000000011111111111110000000000
00000000001111111111110000000000
00000000000111111111000000000000
00000000000000111100000000000000

输出样例:

复制代码
num
0
1
2
3
4

思路代码:

Tips:仅为样例代码,存在可优化部分。

python 复制代码
import os

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
import numpy as np


def get_dataset(path, need_label=True):
    dataset, labels = [], []
    filenames = os.listdir(path)

    for filename in filenames:
        if need_label:
            labels.append(filename[0])
        filepath = os.path.join(path, filename)
        dataset.append(np.fromfile(filepath, dtype=np.uint8))

    if need_label:
        return dataset, labels
    return dataset


if __name__ == '__main__':
    X_train, y_train = get_dataset("train")
    X_test = get_dataset("test", need_label=False)

    # 数据标准化
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)  # 使用同一个scaler的transform,避免误差
    y_train = list(y_train)

    model = SVC()
    model.fit(X_train, y_train)

    y_pred_test = model.predict(X_test)

    # 保存预测结果到result.csv
    results = pd.DataFrame({'num': y_pred_test})
    results.to_csv('result.csv', index=False)

答案提交:

提交.py文件即可。

相关推荐
KKKlucifer4 分钟前
数据分类分级产品排名解析:场景定制、规则联动、增量更新成核心能力
大数据·数据库·人工智能
王小王-1234 分钟前
深度学习赋能:基于机器学习的恶意 URL 检测系统
人工智能·机器学习·恶意网址检测·恶意url检测·异常网址检测·机器学习异常网址检测
2601_9557674210 分钟前
2026年iPhone17贴膜怎么选:偏振片缺失与磁控溅射AR镀膜技术解析及SGS认证观复盾方案
人工智能·智能手机·ar·护眼钢化膜·磁控溅射
金融RPA机器人丨实在智能11 分钟前
数据库运维Agent比价指南:国产自研产品适配国产数据库兼容性更好吗?
运维·数据库·人工智能·ai
2601_9557674213 分钟前
iPhone17偏振片缺失怎么补救:圆偏振光与磁控溅射AR技术解析及悟赫德观复盾方案
人工智能·ar·护眼钢化膜·圆偏振光·#观复盾护景贴
Black蜡笔小新16 分钟前
自动化AI算法训练服务器DLTM一体化训推平台构建企业专属AI能力中台
人工智能·算法·自动化
代码有点萌17 分钟前
CloudStudio 体验 ComfyUI:不用本地部署也能学习 AI 绘图
人工智能
前端小蜗22 分钟前
搞了个 vibecoding 时防摸鱼沉迷的提醒,震到手环上
人工智能·程序员
ZzT23 分钟前
瑞幸 skill 引发的一些思考
人工智能·ai编程·claude
道友可好24 分钟前
AI 测试全绿,代码却是错的
前端·人工智能·后端