如何用Python从大量pdf 中提取表格中的数据进行分析？

利用Python下载了大量上市公司的年报，如果要从这些年报pdf中利用关键字抽取一些表格中的数据，有什么方法？试了pdfMiner，可以将pdf中的数…

关注者

463

被浏览

240,750

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

因为领导的安排，我正好也接触了这块，知乎上找了个遍，代码也看了不少，最终找到了这个模块 pdfplumber ，基本上把表格处理的很好。你可以看看

后面把表格的内容再简单处理一下就行了

# 安装方式:  pip install pdfplumber
import pdfplumber
pdf = pdfplumber.open("12.pdf")
# 这里只读取了第一页，我的文档第一页是有表格的，