添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

如何用python从pdf中提取一些数学表达式?

0 人关注

我有一个pdf文件,其中有一些数学公式,如 this

我试图从一个pdf文件中提取客观题,并用python将其转换为csv文件,每一行的表格都包含一个问题,每一列有四个选项和一个正确选项(所以共有六列)。但是pdf文件中也有一些数学公式,我无法将它们写入csv文件中。是否有可能在我的csv文件中写入这些方程式,就像它们在pdf文件中一样?

3 个评论
pdf是由乳胶制成的吗?
我不知道,我是从网上下载的。
试试使用幽门螺杆菌。 geeksforgeeks.org/pylatex-module in python would help
python
pdf
export-to-csv
mathematical-expressions
python-pdfreader
Roman K.C.
Roman K.C.
发布于 2019-12-02
1 个回答
Maksym Polshcha
Maksym Polshcha
发布于 2019-12-02
已采纳
0 人赞同

这取决于公式在PDF中是如何表示的。它可以是XObject、内联图像或unicode文本。

Try 浏览器 .它可以从PDF文档中提取纯文本、包含PDF命令的文本和图像。

from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
plain_text = ""
pdf_markdown = ""
images = []
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)