三大神器助力Python提取pdf文档信息开发者社区

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

三大神器助力Python提取pdf文档信息

http://www.unixuser.org/~euske/python/pdfminer/index.html

pip install pdfminer3k

 1import sys
 2import importlib
 3importlib.reload(sys)
 5from pdfminer.pdfparser import PDFParser
 6from pdfminer.pdfdocument import PDFDocument
 7from pdfminer.pdfpage import PDFPage
 8from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
 9from pdfminer.converter import PDFPageAggregator
10from pdfminer.layout import LTTextBoxHorizontal,LAParams
11from pdfminer.pdfpage import PDFTextExtractionNotAllowed
14# 对本地保存的pdf文件进行读取和写入到txt文件当中
17# 定义解析函数
18def pdftotxt(path,new_name):
19    # 创建一个文档分析器
20    parser = PDFParser(path)
21    # 创建一个PDF文档对象存储文档结构
22    document =PDFDocument(parser)
23    # 判断文件是否允许文本提取
24    if not document.is_extractable:
25        raise PDFTextExtractionNotAllowed
26    else:
27        # 创建一个PDF资源管理器对象来存储资源
28        resmag =PDFResourceManager()
29        # 设定参数进行分析
30        laparams =LAParams()
31        # 创建一个PDF设备对象
32        # device=PDFDevice(resmag)
33        device =PDFPageAggregator(resmag,laparams=laparams)
34        # 创建一个PDF解释器对象
35        interpreter = PDFPageInterpreter(resmag, device)
36        # 处理每一页
37        for page in PDFPage.create_pages(document):
38            interpreter.process_page(page)
39            # 接受该页面的LTPage对象
40            layout =device.get_result()
41            for y in layout:
42                if(isinstance(y,LTTextBoxHorizontal)):
43                    with open("%s"%(new_name),'a',encoding="utf-8") as f:
44                        f.write(y.get_text()+"\n")
46# 获取文件的路径
47path =open( "I:\Python3.6\patest\PdfTest\数据挖掘在医学大数据研究中的应用_孙雪松.pdf",'rb')
48pdftotxt(path,"pdfminer.txt")

 1import urllib
 2from io import BytesIO
 4from pdfminer.pdfparser import PDFParser
 5from pdfminer.pdfdocument import PDFDocument
 6from pdfminer.pdfpage import PDFPage
 7from pdfminer.pdfpage import PDFTextExtractionNotAllowed
 8from pdfminer.pdfinterp import PDFResourceManager
 9from pdfminer.pdfinterp import PDFPageInterpreter
10from pdfminer.pdfdevice import PDFDevice
11from pdfminer.layout import *
12from pdfminer.converter import PDFPageAggregator
13from urllib.request import Request
14from urllib.request import urlopen
16# 对线上pdf文件进行读取和写入到txt文件当中
19# 定义解析函数
20def OnlinePdfToTxt(dataIo,new_path):
21    # 创建一个文档分析器
22    parser = PDFParser(dataIo)
23    # 创建一个PDF文档对象存储文档结构
24    document = PDFDocument(parser)
25    # 判断文件是否允许文本提取
26    if not document.is_extractable:
27        raise PDFTextExtractionNotAllowed
28    else:
29        # 创建一个PDF资源管理器对象来存储资源
30        resmag =PDFResourceManager()
31        # 设定参数进行分析
32        laparams=LAParams()
33        # 创建一个PDF设备对象
34        # device=PDFDevice(resmag )
35        device=PDFPageAggregator(resmag ,laparams=laparams)
36        # 创建一个PDF解释器对象
37        interpreter=PDFPageInterpreter(resmag ,device)
38        # 处理每一页
39        for page in PDFPage.create_pages(document):
40            interpreter.process_page(page)
41            # 接受该页面的LTPage对象
42            layout=device.get_result()
43            for y in layout:
44                try:
45                    if(isinstance(y,LTTextBoxHorizontal)):
46                        with open('%s'%(new_path),'a',encoding="utf-8") as f:
47                            f.write(y.get_text()+'\n')
48                            print("读入成功！")
49                except:
50                    print("读入失败!")
52# 获取文件的路径
53url = "file:///I:/Python3.6/patest/PdfTest/pdftestto.pdf"
54html = urllib.request.urlopen(urllib.request.Request(url)).read()
55dataIo = BytesIO(html)
56OnlinePdfToTxt(dataIo,'d.txt')

https://pypi.org/project/pdfplumber/

pip install pdfplumber

http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/201811/W020181102350857036194.pdf

 1import pdfplumber
 2import re
 3import json
 5path = 'I:\Python3.6\patest\PdfTest\\numberTest 1.pdf'  # 待读取的PDF文件的路径
 6pdf = pdfplumber.open(path)
 8for page in pdf.pages:
 9    # print(page.extract_text())
10    for pdf_table in page.extract_tables():
11        table = []
12        cells = []
13        for row in pdf_table:
14            if not any(row):
15                # 如果一行全为空，则视为一条记录结束
16                if any(cells):
17                    table.append(cells)
18                    cells = []
19            elif all(row):
20                # 如果一行全不为空，则本条为新行，上一条结束
21                if any(cells):
22                    table.append(cells)
23                    cells = []
24                table.append(row)
25            else:
26                if len(cells) == 0:
27                    cells = row
28                else:
29                    for i in range(len(row)):
30                        if row[i] is not None:
31                            cells[i] = row[i] if cells[i] is None else cells[i] + row[i]
32        for row in table:
33            data =[re.sub('\s+', '', cell) if cell is not None else None for cell in row]
34            data_list =list(enumerate(data))
35            # print(json.dumps(data_list, indent=2, ensure_ascii=False))
36            with open('I:\Python3.6\patest\PdfTest\\numberTest1.json','a',encoding="utf-8") as file:   # json文件的存放位置
37                file.write(json.dumps(data_list, ensure_ascii=False))
38pdf.close()

[[0, "门类名称及代码"], [1, "行业大类代码"], [2, "行业大类名称"], [3, "上市公司代码"], [4, "上市公司简称"]]
[[0, "农、林、牧、渔业(A)"], [1, "01"], [2, "农业"], [3, "000998"], [4, "隆平高科"]]

https://camelot-py.readthedocs.io/en/master/

pip install camelot-py

 1import camelot
 3# 从本地的PDF文件中提取表格数据，pages为pdf的页数，默认为第一页
 4tables = camelot.read_pdf('I:\Python3.6\patest\PdfTest\special.pdf', pages='1', flavor='stream')
 6# 表格信息
 7print(tables)
 8print(tables[0])
 9# 表格数据
10print(tables[0].data)

1<TableList n=1>
2<Table shape=(7, 8)>
3[['1', '2', '3', '4', '5', '6', '7', '8'], 
4['B', 'D', 'G', 'H', 'I', 'J', '', 'A'],
5 ['E', '', '', 'F', '', 'K', '', ''],
6 ['', '', 'L', '', '', '。', '（）', '【】'],
7 ['', '', 'M', '', '', 'N', 'O', 'P'], 
8['Q', 'R', 'S', '', '', 'T', 'U', 'V'],
9 ['W', 'X', 'Y', '', '', 'Z', '测', '试']]

1# 从本地的PDF文件中提取表格数据，pages为pdf的页数，默认为第一页
2tables = camelot.read_pdf('I:\Python3.6\patest\PdfTest\special.pdf', pages='1', flavor='stream')
4tables[0].to_csv('special1.csv')

1"1","2","3","4","5","6","7","8"
2"B","D","G","H","I","J","","A"
3"E","","","F","","K","",""
4"","","L","","","。","（）","【】"
5"","","M","","","N","O","P"
6"Q","R","S","","","T","U","V"
7"W","X","Y","","","Z","测","试"

 1import camelot
 4# 从PDF文件中提取表格
 5tables = camelot.read_pdf('I:\Python3.6\patest\PdfTest\\numberTest 1.pdf', pages='1', flavor='stream',strip_text=' .\n')
 7# 绘制PDF文档的坐标，定位表格所在的位置
 8plt= camelot.plot(tables[0],kind='text')
 9plt.show()
11# 绘制PDF文档的坐标，定位表格所在的位置
12table_df = tables[0].df
14print(table_df.head(n=80))

 1           0       1                   2       3       4
 20                     2018年3季度上市公司行业分类结果                
 31    门类名称及代码  行业大类代码              行业大类名称  上市公司代码  上市公司简称
 42   农、林、牧、渔业      01                  农业  000998    隆平高科
 53        (A)                              002041    登海种业
 64                                         002772    众兴菌业
 75                                         300087    荃银高科
 86                                         300189    神农基因
 97                                         300511    雪榕生物
108                                         600108    亚盛集团
119                                         600313    农发种业
1210                                        600354    敦煌种业
1311                                        600359    新农开发
1412                                        600371    万向德农
1513                                        600506    香梨股份
1614                                        600540    新赛股份
1715                                        600598     北大荒
1816                                        601118    海南橡胶
1917                02                  林业  000592    平潭发展
2018                                        002200    云投生态
2119                                        002679    福建金森
2220                                        600265    ST景谷
2321                03                 畜牧业  000735     罗牛山
2422                                        002234    民和股份
2523                                        002299    圣农发展
2624                                        002321    华英农业
2725                                        002458    益生股份
2826                                        002477    雏鹰农牧
2927                                        002714    牧原股份
3028                                        002746    仙坛股份
3129                                        300106    西部牧业
3230                                        300498    温氏股份
3331                                        600965    福成股份
3432                                        600975     新五丰
3533                04                  渔业  000798    中水渔业
3634                                        002069     獐子岛
3735                                        002086    东方海洋