Python处理PDF神器：PyMuPDF的安装与使用

来源：http://www.tudoupe.com时间：2022-05-23

来源：网络

1、简介

1. 介绍

在我们开始之前,先考虑一下这个名字的格式, 在界面的设计中可以观察到这个格式。

MuPDF

这是一个便携式电子图书阅读器。它包括一个软件图书馆、指挥线工具和平台专用查看器。

显示器专门设计用于高质量的反锯图形,在像素的一小部分内为文字提供测量和间隔,以便在复制屏幕上打印页面外观时达到最大程度的保证。

它是紧凑和快速的, 但它是完整的。它支持各种文档类型, 包括, 并且。您可以使用移动查看器对文档进行评论并填写表格( 此功能将很快添加到桌面查看器中 ) 。

您可以使用命令行工具对文档进行批注、修改和转换,将文档转换为其他表格,如总和。您也可以使用脚本操作文档。

PyMuPDF

支持* Python 受约束。

您可以使用扩展名或。此外,大约10个主要图片格式可以作为文件处理:等等。

2. 功能

对于所支持的所有文档类型:

解密文件

访问元数据、链接和书签

以网格(和其他格式)或矢量格式显示页面。

搜索文本

提取文本和图像

转换为其他格式：

文件可以创建、合并或分割,网页可以插入、删除、重组或更新(包括评论和字段修改)。

图像和字体可以提取或插入。

完全支持嵌入式文件

PDF文件可以准备允许双面打印、颜色分离和添加标志或水印。

密码安全得到充分支持,包括解密、加密、加密方法选择、授权级别和用户/所有人密码设置。

PDF 随照片、文字和图纸附上的 PDF 任择内容的概念

简单的PDF结构可以进入和修改。

以下是指挥线模块多功能功能的品质:

保护布局上的文本提取!

不同格式的文本提取由脚本通过子命令提供。当然, 特别有趣的是保留布局, 它创造尽可能接近原始物理布局的文字, 周围区域有图形, 或者在表格和多列文本中复制文字。

加密/解密/优化

创建子文档

文档连接

图像/字体提取

完全支持嵌入式文件

提取布局文本( 所有文档) 并保存它。

2、安装

它可以直接从源码或通过安装过程安装。

平台有一个下载区域。 Windows 也提供32个版本。最近Linux ARM 架构也遇到问题,

它在标准库中不需要其它必要的外部依赖项目。只有在安装了某些软件包之后, 才能有更好的方法做到这一点 :

：当使用和时需要

：当使用时需要

用于文本输出技术的适当字体选择。

使用安装命令：

导入库：

关于命名的说明

由于历史原因,本图书馆通常的输入语句是:

最初的投标银行称为。

随着Artifex的购置,发展重点转向建立一个新的当代图形图书馆,称为图书馆,最初被设想为一个研究和发展项目,以取代一个老化的图形图书馆,后来演变成MPPDF的铸造引擎(从维基百科引用)。

3、使用方法

一. 进口库(版本)

2. 打开文档

这将生成对象。文件名必须是先前创建的文件的 Python 字符串。

您也可以从内存数据中打开文档或生成新的空白 PDF。该文档也可以作为上下文管理器使用。

三. 方法和属性应记录在案。

示例：

4. 获取元数据

标准元数据得到充分支持。是包含下列密钥的 Python 字典。

它适用于所有文件类型, 虽然并非所有条目总是有数据。如果不提供补充指令, 元数据字段是一个字符串。还应当指出, 并非所有数据都包含有意义的数据, 即使不是。

5. 获取目标大纲

6. 页面()

函数的核心是页面处理。

一页可以显示为光栅或矢量()图片,您可以缩放、旋转、移动或剪切。

您可以搜索文本字符串并检索各种格式的页面内容和图片。

可以用其他方式将文字或图像添加到文档中。

最初,必须建立一个页面。有两种选择:

您可以在此使用任意整数。因为负整数是从结尾处计算的, 这是最后一页, 就像 Python 序列一样。

最复杂的方法是将文件用作迭代页码:

接下来是最常用的程序!

a. 审查网页链接、评论和表格字段。

当使用某种查看软件显示文档时,链接是 = 热点区域 = = 。通常情况下,如果单击光标上的手形符号,您将被指向热点区域的编码标记。

是一个字典列表。

也可迭接地使用:

当处理 PDF 文档页时,可以有一个备注()或表格字段,每个字段都有自己的迭接栏:

b. 呈现页面

此示例生成页面内容的光栅图像 :

是一个包含RGB页面图片的对象(在此示例中),该图片可用于若干应用程序。

该技术允许许多图像控制调整,包括分辨率、色空间(例如,通过减少颜色程序开发灰度图像或图像)、透明度、旋转、镜像、移位、切割等等。

例如, 制作 RGBA 照片( 带 Alpha 频道), 请指定。我不确定。

以下所列的方法和特点包括若干种,包括整数宽度、高度(每像素)和距离(水平图片线的字节)。属性示例描述了图像数据的矩形字节范围(Python 字节对象)。

矢量图片也可用于构建页面。

d. 将页面图片保存到文件。

图像可以简单地保存在文件中 :

d. 检索文本和照片

我们还可以以若干格式和详细程度摘录网页的所有文字、照片和其他信息:

要获得替代形式,请使用下列条件之一:

。(默认情况下)有换行符的纯文本。没有格式化、文本位置信息或图形。

:生成文本区块(段落)的事项清单。

创建单词列表( 没有空格的字符串) 。

创建页面的完整视觉显示,包括任何图像,可在互联网浏览器中看到。

:相同数量的数据,但作为 Python 字典或字符串

超级组装。它也拥有关于像这样的字符的完整信息。

文本信息级别与文本版本相同,但包含图形。

它不包括图形,但对于每个文字字符,它都有完整的位置和字体信息。使用模块来解释。

e. 搜索文本

您可以使用以下公式发现页面上文本字符串的确切位置:

这将返回一个矩形列表, 每个矩形列表都包含字符串( 不区分具体案例) 。您可以使用此信息突出显示某些位置( 仅指PDF) 或构建文档的交叉引用。

7. PDF操作

是唯一可以修改的文件类型。所有其他文件类型都是只读。

但是,您可以将任何文档(包括照片)转换为 PDF, 然后将所有功能应用到生成的 PDF 。

总是将当前状态( 可能更改) 中的 PDF 保存到磁盘。

一般而言,您可以选择将文件保存到新文件上,或者仅对现有文件进行修改(“加速保存”),因为通常要快得多。

以下是如何使用PDF文件的解释。

页面可以修改、创建、重新排列和删除。

使用页面树有许多方法( 它描述所有页面的结构 ) :

和删除页面

以及在同一文档中复制或移动页面

PDF 压缩到想要的页面。执行后, 此列表中所有丢失的页面将被删除。剩下的页面将连续显示, 与您要求的相同号码 (!) 。

因此,您可以很快创建一个新的PDF:

新保存的文档将包括仍然有效的链接、笔记和书签(即) a-a-a-a-a-h-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w

第一页或最后10页

页数必须是奇数或偶数( 对于双面打印) 。

包含或排除指定文本的页面

颠倒页面顺序

和插入新页面。

此外,网页本身还可利用各种技术(例如,页面旋转、评论和链接、维持、文本和图片插入)更新。

b. 合并和分割PDF文件

以下是如何在两个PDF文件之间复制一页的简单例子(Doc1和Doc2都在PDF中打开):

下面是文件1的节录, 它将在第一个和最后十页上产生新的文件:

c. 保存

文档总是在目前状态下保存。

通过选择参数,您可以将修改写回原始 PDF。这个程序(通常)花费的时间相对较少,因为修改与原始文档相连,而不是完全重写。

d. 关闭

当应用程序继续运行时,通常需要“关闭”文档,才能对底文件进行操作系统控制。

这样做是可能的。除了关闭基本文件外,还将释放与文件相连的缓冲。

上一篇：如何在 Windows 10 上安装 PowerShell 7

下一篇：没有了

2022-05-23 如何在 Windows 10 上安装 PowerShell 7	2022-05-23 苹果、Google 和微软正在联手“干掉
2022-05-23 推出两年首次超过一成市场份额，	2022-05-23 饥不择食？微软拉低 Windows “逼格
2022-05-23 FXTM富拓：盖茨出轨！微软：我比你	2022-05-23 微软创始人比尔盖茨确诊新冠！股
2022-05-23 Win11家庭版新的离线激活方法	2022-05-23 Win11 必学技巧，一招跳过联网激活
2022-05-23 传微软即将于3月开始Windows 12的开发	2022-05-23 大开眼界！键盘上有个不常用的键

Python处理PDF神器：PyMuPDF的安装与使用

相关新闻

站内搜索