Python拆分列中文和 字符

需求描述:我们日常实际的工作中经常需要把一列数据按中文和 数字或者字母单独拆分出来

导入所需的库:

复制代码
import pandas as pd

定义函数 extract_characters,该函数接受三个参数:file_path(Excel文件路径)、sheet_name(工作表名称)和 column_name(列名)。

复制代码
def extract_characters(file_path, sheet_name, column_name):

读取Excel文件并将其存储到DataFrame中:

复制代码
df = pd.read_excel(file_path, sheet_name=sheet_name)

创建两个新的列 '中文''其他字符',并将它们添加到DataFrame中:

复制代码
df['中文'] = ''
df['其他字符'] = ''

遍历DataFrame的每一行数据:

复制代码
for index, row in df.iterrows():

获取指定列的值,并将其转换为字符串:

复制代码
text = str(row[column_name])

初始化两个空字符串变量 chineseother,用于存储中文字符和其他字符:

复制代码
chinese = ''
other = ''

遍历每个字符:

复制代码
for char in text:

判断当前字符是否为中文字符(Unicode范围为\u4e00\u9fff):

复制代码
if '\u4e00' <= char <= '\u9fff':

如果是中文字符,则将其添加到 chinese 字符串中:

复制代码
chinese += char

如果不是中文字符,则将其添加到 other 字符串中:

复制代码
other += char

将中文字符集合添加到新的 '中文' 列中:

复制代码
df.at[index, '中文'] = chinese

将其他字符集合添加到新的 '其他字符' 列中:

复制代码
df.at[index, '其他字符'] = other

返回处理后的DataFrame对象:

复制代码
return df

定义测试示例的文件路径、工作表名称和列名:

复制代码
file_path = r'测试.xlsx'
sheet_name = 'Sheet1'
column_name = '店铺销售sku'

调用 extract_characters 函数,并将结果存储在 result_df 中:

复制代码
result_df = extract_characters(file_path, sheet_name, column_name)

将处理后的DataFrame保存为Excel文件:

复制代码
result_df.to_excel('result.xlsx', index=False)

完整代码:

相关推荐
qq_24218863326 分钟前
快速搭建跨环境检测服务的步骤
linux·开发语言·windows·python·macos
JaydenAI24 分钟前
[拆解LangChain执行引擎]三种持久化模式的差异
python·langchain
老赵全栈实战29 分钟前
《从零搭建RAG系统第4天:问题向量化+Milvus检索匹配+结果优化》
python·ai编程
Katecat9966333 分钟前
【葡萄病害检测】基于SABL-RetinaNet的葡萄叶片黑腐病、霜霉病、白粉病和锈病自动识别系统
python
FL162386312941 分钟前
windows从源码安装python版本paddleocr3.4.0
开发语言·windows·python
七夜zippoe41 分钟前
模型解释性实战:从黑盒到白盒的SHAP与LIME完全指南
人工智能·python·机器学习·shap·lime
Smart-Space1 小时前
QuickUp v4 新功能一览
python·tkinter·tinui
喵手1 小时前
Python爬虫实战:电商问答语料构建完整实战 - 从爬取到检索语料的工程化实现(附CSV导出 + SQLite持久化存储)!
爬虫·python·sqlite·爬虫实战·零基础python爬虫教学·电商问答语料构建·爬取到检索语料
APIshop2 小时前
淘宝商品评论接口实战解析:从抓包到数据抓取全链路技术指南
java·python
~央千澈~2 小时前
抖音弹幕游戏开发之第14集:添加更多整蛊效果·优雅草云桧·卓伊凡
开发语言·python·游戏