三大神器助力Python提取pdf文档信息
今年最后一篇技术文章来袭了。。。
今天这篇文章是今年最后一篇文章了,因此也是一篇非常有用的技术文章,你可以现在只了解一下并进行收藏,等你需要用到的时候再拿出来看一看,这样就好了。
这个是我上个月接的一个私活,帮一个人读取PDF里面的信息,特别是含有很多表格的PDF。以前我进行文章识别的时候都是使用OCR。现在这个用不了,因为里面的表格数据太多了,而且每个表格的样式又是不一样,所以真正做到完全识别是需要花费很多时间,而且光一篇文章是讲不完的,因此我这里也只是挑重要的介绍,能识别大部分的表格,并以JSON格式将识别结果进行返回。
在识别过程中,我使用了很多第三库,但是由于本文篇幅限制,我就简单介绍pdfminer和pdfplumber,着重介绍camelot。通过介绍你可以有目的性的选择自己需要的库。注意我使用的Python版本为3.6。