利用svm进行模型训练

一、步骤

1、将文本数据转换为特征向量 : tf-idf

2、使用这些特征向量训练SVM模型

二、代码

python 复制代码
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

def preprocess_data(data):
    texts, labels = zip(*data)
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(texts).todense()
    return X, labels, vectorizer

def print_sorted_feature_weights(X, vectorizer):
    feature_name = vectorizer.get_feature_names_out()
    for i, doc in enumerate(X):
        nonzero_idx = doc.nonzero()[1]
        dic = {idx: doc[0, idx] for idx in nonzero_idx}
        sorted_dic = dict(sorted(dic.items(), key=lambda x: x[1], reverse=True))
        data_ = {feature_name[k]: v for k, v in sorted_dic.items()}
        print(data_)

def train_and_evaluate_model(X_train, X_test, y_train, y_test):
    svm_classifier = SVC(kernel='linear', random_state=42)
    svm_classifier.fit(X_train, y_train)
    y_pred = svm_classifier.predict(X_test)
    return y_test, y_pred

def main():
    # 示例数据集
    data = [
        ("I love this product!", 1),
        ("This is terrible.", 0),
        ("The movie was fantastic.", 1),
        ("I dislike this feature.", 0),
        ("Amazing experience!", 1),
        ("Not recommended.", 0)
    ]

    # 数据预处理
    X, labels, vectorizer = preprocess_data(data)

    # 打印排序后的特征权重
    print_sorted_feature_weights(X, vectorizer)

    # 将数据集拆分为训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

    # 训练和评估模型
    y_true, y_pred = train_and_evaluate_model(X_train, X_test, y_train, y_test)

    # 测试集是哪些
    print_sorted_feature_weights(X_test,vectorizer)

    # 评估模型性能
    accuracy = accuracy_score(y_true, y_pred)
    report = classification_report(y_true, y_pred)

    # 打印模型性能指标
    print(f"Accuracy: {accuracy}")
    print("Classification Report:\n", report)

if __name__ == "__main__":
    main()

三、结果

​​​​​​​
对应着:test_data= [("I love this product!", 1),("This is terrible.", 0)]

​​​​​​​

相关推荐
AlenTech15 分钟前
198. 打家劫舍 - 力扣(LeetCode)
算法·leetcode·职场和发展
Z1Jxxx18 分钟前
0和1的个数
数据结构·c++·算法
ldccorpora19 分钟前
Chinese News Translation Text Part 1数据集介绍,官网编号LDC2005T06
数据结构·人工智能·python·算法·语音识别
重生之后端学习19 分钟前
21. 合并两个有序链表
java·算法·leetcode·链表·职场和发展
源代码•宸20 分钟前
Leetcode—1266. 访问所有点的最小时间【简单】
开发语言·后端·算法·leetcode·职场和发展·golang
YuTaoShao42 分钟前
【LeetCode 每日一题】712. 两个字符串的最小ASCII删除和——(解法一)记忆化搜索
算法·leetcode·职场和发展
知乎的哥廷根数学学派1 小时前
基于物理信息嵌入与多维度约束的深度学习地基承载力智能预测与可解释性评估算法(以模拟信号为例,Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习
古城小栈1 小时前
Rust 丰富&好用的 格式化语法
前端·算法·rust
AuroraWanderll1 小时前
类和对象(六)--友元、内部类与再次理解类和对象
c语言·数据结构·c++·算法·stl