因为领导的安排,我正好也接触了这块,知乎上找了个遍,代码也看了不少,最终找到了这个模块 pdfplumber ,基本上把表格处理的很好。你可以看看
后面把表格的内容再简单处理一下就行了
# 安装方式: pip install pdfplumber import pdfplumber pdf = pdfplumber.open("12.pdf") # 这里只读取了第一页,我的文档第一页是有表格的,