如何用Python从大量pdf 中提取表格中的数据进行分析?

利用Python下载了大量上市公司的年报,如果要从这些年报pdf中利用关键字抽取一些表格中的数据,有什么方法?试了pdfMiner,可以将pdf中的数…
关注者
463
被浏览
240,750
登录后你可以
不限量看优质回答 私信答主深度交流 精彩内容一键收藏

因为领导的安排,我正好也接触了这块,知乎上找了个遍,代码也看了不少,最终找到了这个模块 pdfplumber ,基本上把表格处理的很好。你可以看看

后面把表格的内容再简单处理一下就行了

原PDF文件的内容截图,其他模块处理的让我不满意的地方就是一个单元格里的多行,被割裂成了单独的一行数据
这个是用模块读取的表格之后,再用pandas装载之后展示的样子,一个单元格的换行被处理成了"\n",这点很棒,也正是我需要的
# 安装方式:  pip install pdfplumber
import pdfplumber
pdf = pdfplumber.open("12.pdf")
# 这里只读取了第一页,我的文档第一页是有表格的,