python 文本处理记录

1、移除常见的中文标点符号

python 复制代码
def remove_punc(text):
    # 定义需要去除的中文标点符号的正则表达式
    chinese_punctuation = r'[\u3000-\u303F\uFF01-\uFF0F\uFF1A-\uFF20\uFF3B-\uFF40\uFF5B-\uFF65\u2026]'
    # 使用re.sub函数替换这些标点符号为空字符
    text_without_punctuation = re.sub(chinese_punctuation, '', text)
    return text_without_punctuation

s = "!今天:?、,》。,《》,、天气不错。。。"
ret = remove_punc(s)
print(ret)

2、敏感词过滤

python 复制代码
import pandas as pd
import re

# 构建测试DataFrame数据
dct = {
    "content": [
        "您好,哎,先生您好,我这边是家装平台的客服,给您做个回访。",
        "你好,家长,你翻译给我听啊。",
    ],
    "label": [0, 1],
}
lst = ["先生", "您好", "家长", "天天"]
test_df = pd.DataFrame(dct)

def remove_sensitive_words(text, sensitive_word_list):
    pattern = "|".join(sensitive_word_list)
    return re.sub(pattern, "", text, flags=re.IGNORECASE)

test_df["content_new"] = test_df["content"].apply(remove_sensitive_words, args=(lst,))
# 作用在原始数据上
# test_df["content"] = test_df["content"].apply(remove_sensitive_words, args=(lst,))

test_df.head()

3、jieba分词加载停用词和自定义分词

python 复制代码
import jieba
from collections import Counter


def cut_words(text, stop_path, custom_path=None):
    """
    args:
        text: (str) 待分词的文本
        stop_path: (str) 停用词路径
        custom_path: (str) 自定义分词路径 default: None
    """
    with open(stop_path, "r", encoding="utf-8") as f:
        stopwords = set(f.read().splitlines())
    if custom_path:
        jieba.load_userdict(custom_path)

    words = jieba.lcut(text)

    # 去停用词
    filter_words = [word for word in words if word not in stopwords]
    return "".join(filter_words)

4、文本加载并且保存DataFrame格式

原始文本数据格式如:train.txt

复制代码
体验2D巅峰 倚天屠龙记十大创新概览	8
60年铁树开花形状似玉米芯(组图)	5
同步A股首秀:港股缩量回调	2
中青宝sg现场抓拍 兔子舞热辣表演	8
python 复制代码
from tqdm import tqdm
import pandas as pd

def load_dataset(path):
    contents = []
    labels = []
    with open(path, "r", encoding="UTF-8") as f:
        for line in tqdm(f):
            lin = line.strip()
            if not lin:
                continue
            content, label = lin.split("\t")
            contents.append(content)
            labels.append(label)

    df = pd.DataFrame({"content": contents, "label": labels})
    df.to_csv("./data.csv", index=False)

5、保存自定义文件

python 复制代码
s = "你好,stop_word1,stop_word2"
lst = s.split(",")
# "w" 写模式 "a" 追加模式
with open("b.txt", "w") as file:
    for item in lst:
        file.write(f"{item}\n")

保存结果

复制代码
你好
stop_word1
stop_word2
相关推荐
Boilermaker19921 小时前
[Java 并发编程] Synchronized 锁升级
java·开发语言
沈浩(种子思维作者)1 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
MM_MS1 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
꧁Q༒ོγ꧂2 小时前
LaTeX 语法入门指南
开发语言·latex
njsgcs2 小时前
ue python二次开发启动教程+ 导入fbx到指定文件夹
开发语言·python·unreal engine·ue
alonewolf_992 小时前
JDK17新特性全面解析:从语法革新到模块化革命
java·开发语言·jvm·jdk
io_T_T2 小时前
迭代器 iteration、iter 与 多线程 concurrent 交叉实践(详细)
python
古城小栈2 小时前
Rust 迭代器产出的引用层数——分水岭
开发语言·rust
华研前沿标杆游学2 小时前
2026年走进洛阳格力工厂参观游学
python
Carl_奕然2 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析