python 文本处理记录

1、移除常见的中文标点符号

python 复制代码
def remove_punc(text):
    # 定义需要去除的中文标点符号的正则表达式
    chinese_punctuation = r'[\u3000-\u303F\uFF01-\uFF0F\uFF1A-\uFF20\uFF3B-\uFF40\uFF5B-\uFF65\u2026]'
    # 使用re.sub函数替换这些标点符号为空字符
    text_without_punctuation = re.sub(chinese_punctuation, '', text)
    return text_without_punctuation

s = "!今天:?、,》。,《》,、天气不错。。。"
ret = remove_punc(s)
print(ret)

2、敏感词过滤

python 复制代码
import pandas as pd
import re

# 构建测试DataFrame数据
dct = {
    "content": [
        "您好,哎,先生您好,我这边是家装平台的客服,给您做个回访。",
        "你好,家长,你翻译给我听啊。",
    ],
    "label": [0, 1],
}
lst = ["先生", "您好", "家长", "天天"]
test_df = pd.DataFrame(dct)

def remove_sensitive_words(text, sensitive_word_list):
    pattern = "|".join(sensitive_word_list)
    return re.sub(pattern, "", text, flags=re.IGNORECASE)

test_df["content_new"] = test_df["content"].apply(remove_sensitive_words, args=(lst,))
# 作用在原始数据上
# test_df["content"] = test_df["content"].apply(remove_sensitive_words, args=(lst,))

test_df.head()

3、jieba分词加载停用词和自定义分词

python 复制代码
import jieba
from collections import Counter


def cut_words(text, stop_path, custom_path=None):
    """
    args:
        text: (str) 待分词的文本
        stop_path: (str) 停用词路径
        custom_path: (str) 自定义分词路径 default: None
    """
    with open(stop_path, "r", encoding="utf-8") as f:
        stopwords = set(f.read().splitlines())
    if custom_path:
        jieba.load_userdict(custom_path)

    words = jieba.lcut(text)

    # 去停用词
    filter_words = [word for word in words if word not in stopwords]
    return "".join(filter_words)

4、文本加载并且保存DataFrame格式

原始文本数据格式如:train.txt

复制代码
体验2D巅峰 倚天屠龙记十大创新概览	8
60年铁树开花形状似玉米芯(组图)	5
同步A股首秀:港股缩量回调	2
中青宝sg现场抓拍 兔子舞热辣表演	8
python 复制代码
from tqdm import tqdm
import pandas as pd

def load_dataset(path):
    contents = []
    labels = []
    with open(path, "r", encoding="UTF-8") as f:
        for line in tqdm(f):
            lin = line.strip()
            if not lin:
                continue
            content, label = lin.split("\t")
            contents.append(content)
            labels.append(label)

    df = pd.DataFrame({"content": contents, "label": labels})
    df.to_csv("./data.csv", index=False)

5、保存自定义文件

python 复制代码
s = "你好,stop_word1,stop_word2"
lst = s.split(",")
# "w" 写模式 "a" 追加模式
with open("b.txt", "w") as file:
    for item in lst:
        file.write(f"{item}\n")

保存结果

复制代码
你好
stop_word1
stop_word2
相关推荐
曲幽6 小时前
FastAPI 身份验证总踩坑?这份 FastAPI Users “避坑指南”请收好
python·fastapi·web·jwt·oauth2·user·authentication
xieliyu.6 小时前
Java算法精讲:双指针(二)
java·开发语言·算法
装不满的克莱因瓶6 小时前
掌握 RNN 与 LSTM 模型结构
人工智能·python·rnn·深度学习·神经网络·ai·lstm
何以解忧,唯有..7 小时前
Python包管理工具pip:从入门到精通
开发语言·python·pip
雪的季节7 小时前
RabbitMQ详解
开发语言
金銀銅鐵7 小时前
用 Tkinter 实现简单的猜数字游戏
后端·python
copyer_xyf7 小时前
Python 模块与包的导入导出
前端·后端·python
ice8130331818 小时前
【Python】Matplotlib折线图绘制
开发语言·python·matplotlib
三品吉他手会点灯8 小时前
C语言学习笔记 - 44.运算符和表达式 - 运算符2 - 除法与取余运算符
c语言·开发语言·笔记·算法
copyer_xyf8 小时前
Python venv 虚拟环境
前端·后端·python