使用Python处理百万数据量的Excel文件：删除列、切分换行、替换去重_python 怎么对excel表格文本进行批量换行处理

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

飘逸的野马 · 在 Excel 中将命令发送到程序时出错 ...· 1 月前 ·

文武双全的灭火器 · Excel“向程序发送命令时出现问题”之终极 ...· 1 月前 ·

不羁的苦瓜 · 记者调查：“擦边”动漫游戏周边产品不少未成年 ...· 2 年前 ·

粗眉毛的风衣 · 第三届复旦大学钟扬教授基金获奖候选人公示· 2 年前 ·

冷静的哑铃 · 21Z02 ...· 2 年前 ·

英勇无比的筷子 · 从邪恶是中拯救我结局_头条· 2 年前 ·

liangjiajie · 旅行 | ...· 6 年前 ·

本文介绍了使用Python处理大量Excel数据的技巧，包括删除冗余列、切分换行数据、替换特定字符、去重等步骤。通过Python的pandas库，实现了从数据导入到清洗的完整流程，有效解决了Excel文件处理效率低下的问题。摘要由CSDN通过智能技术生成 path = r"C:\Users\Administrator\Desktop\test1.csv" #导入数据文件，文件含有特殊字符，所以采用unicode_escape编码格式 df = pd . read_csv ( path , encoding = "unicode_escape" , low_memory = False )

数据情况 : 数据文件包含了网站名称site_short_name、文章标题title、文章URL、话题topics等信息。一个网站有多个话题，多篇文章；同一篇文章会发表在不同的板块，多个板块的信息以数组形式存储在topics字段中；
在这里插入图片描述

数据处理的目的 ：将topics数组切分，去除重复值，最终获得每个网站的topics清单；
在这里插入图片描述

1 删除列

下载的csv文件会自动分列（只是猜想，不知道是不是这个原因），多了很多冗余列，使用Excel进行列删除直接卡死。用python处理有以下几个方法：

1.2 删除指定列外的其他列

删除有列名的列的方法：

#查看表头
df.columns
#方法1：删除指定列
del df['related_topics']
#方法2：删除指定列
df = df.drop(['related_topics'],axis=1)
#方法3：保留指定列，适合需要保留的列数量较少的情况（相当于删除其他列）
test1 = df.loc[:,df.columns.isin(['site_short_name','article_title','article_url','topics'

推荐文章

飘逸的野马 · 在 Excel 中将命令发送到程序时出错 - Microsoft 365 Apps | Microsoft Learn

1 月前

文武双全的灭火器 · Excel“向程序发送命令时出现问题”之终极解决-百度经验

1 月前

不羁的苦瓜 · 记者调查：“擦边”动漫游戏周边产品不少未成年人购买-中新网

2 年前

粗眉毛的风衣 · 第三届复旦大学钟扬教授基金获奖候选人公示

2 年前

冷静的哑铃 · 21Z02 合肥市望江路公交站台倒塌事故始末 - 知乎

2 年前

英勇无比的筷子 · 从邪恶是中拯救我结局_头条

2 年前

liangjiajie · 旅行 | 圣诞节，必去香港过的若干理由🎄【携程氢气球】

6 年前