对于高级 PDF，使用 Python（pdfminer.six 和 pdfplumber 模块）

知行编程网 2022-09-01 16:30 知行编程网 | 隐藏边栏 | 107 0

文章评分 0 次，平均分 0.0 ：

导语：本文主要介绍了关于进阶PDF，就用Python（pdfminer.six和pdfplumber模块）的相关知识，包括python生成pdf，以及Python读取pdf这些编程知识，希望对大家有参考作用。

继上篇讲过PDF中的PyPDF2模块后，本篇为大家带来

pdfminer.six

和

pdfplumber

模块的详细讲解。

pdfminer.six

PDFMiner的操作门槛比较高，需要对PDF文档结构模型有部分了解，适合定制开发复杂的内容处理工具。

平时直接用

PDFMiner

比较少，这里只演示基本的文档内容操作：

<p><span>import pathlib
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams, LTTextBox, LTFigure, LTImage
from pdfminer.converter import PDFPageAggregator

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/002pdf')
f_path = path.joinpath('2020-新冠肺炎疫情对中国连锁餐饮行业的影响调研报告-中国连锁经营协会.pdf')

with open(f_path, 'rb') as f:
    parser = PDFParser(f)
    doc = PDFDocument(parser)
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.create_pages(doc):
        interpreter.process_page(page)
        layout = device.get_result()
        for x in layout:
            # 获取文本对象
            if isinstance(x, LTTextBox):
                print(x.get_text().strip())
            # 获取图片对象
            if isinstance(x,LTImage):
                print('这里获取到一张图片')
            # 获取 figure 对象
            if isinstance(x,LTFigure):
                print('这里获取到一个 figure 对象')<br/></span></p>

虽然

pdfminer

使用门槛较高，但遇到复杂情况，最后还得用它。目前开源模块中，它对PDF的支持应该是最全的了。

下面这个

pdfplumber

就是基于

pdfminer.six

开发的模块，降低了使用门槛。

pdfplumber

相比pdfminer.six，pdfplumber提供了更便捷的PDF内容抽取接口。

日常工作中常用的操作，比如：

提取PDF内容，保存到txt文件
提取PDF中的表格到Excel
提取PDF中的图片
提取PDF中的图表

提取PDF内容，保存到txt文件

<p><span>import pathlib
import pdfplumber

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/002pdf')
f_path = path.joinpath('2020-新冠肺炎疫情对中国连锁餐饮行业的影响调研报告-中国连锁经营协会.pdf')
out_path = path.joinpath('002pdf_out.txt')

with pdfplumber.open(f_path) as pdf, open(out_path ,'a') as txt:
    for page in pdf.pages:
        textdata = page.extract_text()
        txt.write(textdata)<br/></span></p>

提取PDF中的表格到Excel

<p><span>import pathlib
import pdfplumber
from openpyxl import Workbook

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/002pdf')
f_path = path.joinpath('2020-新冠肺炎疫情对中国连锁餐饮行业的影响调研报告-中国连锁经营协会.pdf')
out_path = path.joinpath('002pdf_excel.xlsx')

wb = Workbook()
sheet = wb.active
with pdfplumber.open(f_path) as pdf:
    for i in range(19, 22):
        page = pdf.pages[i]
        table = page.extract_table()
        for row in table:
            sheet.append(row)
wb.save(out_path)<br/></span></p>

上面使用了openpyxl的函数来创建一个Excel文件，之前有单独的文章介绍过。

提取PDF中的图片

<p><span>import pathlib
import pdfplumber
from PIL import Image

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/002pdf')
f_path = path.joinpath('2020-疫情影响下的中国社区趋势研究-艾瑞.pdf')
out_path = path.joinpath('002pdf_images.png')
with pdfplumber.open(f_path) as pdf, open(out_path, 'wb') as fout:
    page = pdf.pages[10]
    # for img in page.images:
    im = page.to_image()
    im.save(out_path, format='PNG')
    imgs = page.images
    for i, img in enumerate(imgs):
        size = img['width'], img['height']
        data = img['stream'].get_data()
        out_path = path.joinpath(f'002pdf_images_{i}.png')
        with open(out_path, 'wb') as fimg_out:
            fimg_out.write(data)<br/></span></p>

上面用到了

PIL（Pillow）

的功能处理图片。

提取PDF中的图表

图表与图像不同，它指的是直方图和饼图等数据生成图。

<p><span>import pathlib
import pdfplumber
from PIL import Image

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/002pdf')
f_path = path.joinpath('2020-新冠肺炎疫情对中国连锁餐饮行业的影响调研报告-中国连锁经营协会.pdf')
out_path = path.joinpath('002pdf_figures.png')
with pdfplumber.open(f_path) as pdf, open(out_path, 'wb') as fout:
    page = pdf.pages[7]
    im = page.to_image()
    im.save(out_path, format='PNG')
    figures = page.figures
    for i, fig in enumerate(figures):
        size = fig['width'], fig['height']
        crop = page.crop((fig['x0'], fig['top'], fig['x1'], fig['bottom']))
        img_crop = crop.to_image()
        out_path = path.joinpath(f'002pdf_figures_{i}.png')
        img_crop.save(out_path, format='png')
    im.draw_rects(page.extract_words(), stroke='yellow')
    im.draw_rects(page.images, stroke='blue')
    im.draw_rects(page.figures)
im # show in notebook<br/></span></p>

另外需要说明的是，PDF标准规范由Adobe公司主导。

平时我们不需要参考规范，但如果遇到一些较复杂的场景，尤其是模块没有直接支持，就只能硬着头皮翻阅文档了。文档是公开的，可以去搜索引擎搜索关键词：

pdf_reference_1-7.pdf

。

今天的分享到此结束。希望大家对PDF的使用有更多的理解和应用。更多 Python 学习，就在这里

。

python

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

内容反馈

你可能也喜欢

热评文章

联系我们

标签云

推广返利