Python处理PDF神器:PyMuPDF的安装与使用
来源:http://www.tudoupe.com时间:2022-05-23
来源:网络
1、简介
1. 介绍
在我们开始之前,先考虑一下这个名字的格式, 在界面的设计中可以观察到这个格式。
MuPDF
这是一个便携式电子图书阅读器。它包括一个软件图书馆、指挥线工具和平台专用查看器。
显示器专门设计用于高质量的反锯图形,在像素的一小部分内为文字提供测量和间隔,以便在复制屏幕上打印页面外观时达到最大程度的保证。
它是紧凑和快速的, 但它是完整的。 它支持各种文档类型, 包括, 并且。 您可以使用移动查看器对文档进行评论并填写表格( 此功能将很快添加到桌面查看器中 ) 。
您可以使用命令行工具对文档进行批注、修改和转换,将文档转换为其他表格,如总和。您也可以使用脚本操作文档。
PyMuPDF
支持* Python 受约束。
您可以使用扩展名或。此外,大约10个主要图片格式可以作为文件处理:等等。
2. 功能
对于所支持的所有文档类型:
解密文件
访问元数据、链接和书签
以网格(和其他格式)或矢量格式显示页面。
搜索文本
提取文本和图像
转换为其他格式:
文件可以创建、合并或分割,网页可以插入、删除、重组或更新(包括评论和字段修改)。
图像和字体可以提取或插入。
完全支持嵌入式文件
PDF文件可以准备允许双面打印、颜色分离和添加标志或水印。
密码安全得到充分支持,包括解密、加密、加密方法选择、授权级别和用户/所有人密码设置。
PDF 随照片、文字和图纸附上的 PDF 任择内容的概念
简单的PDF结构可以进入和修改。
以下是指挥线模块多功能功能的品质:
保护布局上的文本提取!
不同格式的文本提取由脚本通过子命令提供。 当然, 特别有趣的是保留布局, 它创造尽可能接近原始物理布局的文字, 周围区域有图形, 或者在表格和多列文本中复制文字 。
加密/解密/优化
创建子文档
文档连接
图像/字体提取
完全支持嵌入式文件
提取布局文本( 所有文档) 并保存它 。
2、安装
它可以直接从源码或通过安装过程安装。
平台有一个下载区域。 Windows 也提供32个版本。 最近Linux ARM 架构也遇到问题,
它在标准库中不需要其它必要的外部依赖项目。 只有在安装了某些软件包之后, 才能有更好的方法做到这一点 :
:当使用和 时需要
:当使用时需要
用于文本输出技术的适当字体选择。
使用安装命令:
导入库:
关于命名的说明
由于历史原因,本图书馆通常的输入语句是:
最初的投标银行称为。
随着Artifex的购置,发展重点转向建立一个新的当代图形图书馆,称为图书馆,最初被设想为一个研究和发展项目,以取代一个老化的图形图书馆,后来演变成MPPDF的铸造引擎(从维基百科引用)。
3、使用方法
一. 进口库(版本)
2. 打开文档
这将生成对象。 文件名必须是先前创建的文件的 Python 字符串 。
您也可以从内存数据中打开文档或生成新的空白 PDF。该文档也可以作为上下文管理器使用。
三. 方法和属性应记录在案。
示例:
4. 获取元数据
标准元数据得到充分支持。 是包含下列密钥的 Python 字典 。
它适用于所有文件类型, 虽然并非所有条目总是有数据。 如果不提供补充指令, 元数据字段是一个字符串。 还应当指出, 并非所有数据都包含有意义的数据, 即使不是。

5. 获取目标大纲
6. 页面()
函数的核心是页面处理。
一页可以显示为光栅或矢量()图片,您可以缩放、旋转、移动或剪切。
您可以搜索文本字符串并检索各种格式的页面内容和图片。
可以用其他方式将文字或图像添加到文档中。
最初,必须建立一个页面。有两种选择:
您可以在此使用任意整数。 因为负整数是从结尾处计算的, 这是最后一页, 就像 Python 序列一样 。
最复杂的方法是将文件用作迭代页码:
接下来是最常用的程序!
a. 审查网页链接、评论和表格字段。
当使用某种查看软件显示文档时,链接是 = 热点区域 = = 。通常情况下,如果单击光标上的手形符号,您将被指向热点区域的编码标记。
是一个字典列表。
也可迭接地使用:
当处理 PDF 文档页时,可以有一个备注()或表格字段,每个字段都有自己的迭接栏:
b. 呈现页面
此示例生成页面内容的光栅图像 :
是一个包含RGB页面图片的对象(在此示例中),该图片可用于若干应用程序。
该技术允许许多图像控制调整,包括分辨率、色空间(例如,通过减少颜色程序开发灰度图像或图像)、透明度、旋转、镜像、移位、切割等等。
例如, 制作 RGBA 照片( 带 Alpha 频道), 请指定 。 我不确定 。
以下所列的方法和特点包括若干种,包括整数宽度、高度(每像素)和距离(水平图片线的字节)。属性示例描述了图像数据的矩形字节范围(Python 字节对象)。
矢量图片也可用于构建页面。
d. 将页面图片保存到文件。
图像可以简单地保存在文件中 :
d. 检索文本和照片
我们还可以以若干格式和详细程度摘录网页的所有文字、照片和其他信息:
要获得替代形式,请使用下列条件之一:
。(默认情况下)有换行符的纯文本。没有格式化、文本位置信息或图形。
:生成文本区块(段落)的事项清单。
创建单词列表( 没有空格的字符串) 。
创建页面的完整视觉显示,包括任何图像,可在互联网浏览器中看到。
:相同数量的数据,但作为 Python 字典或字符串
超级组装。 它也拥有关于像这样的字符的完整信息 。
文本信息级别与文本版本相同,但包含图形。
它不包括图形,但对于每个文字字符,它都有完整的位置和字体信息。使用模块来解释。
e. 搜索文本
您可以使用以下公式发现页面上文本字符串的确切位置:
这将返回一个矩形列表, 每个矩形列表都包含字符串( 不区分具体案例) 。 您可以使用此信息突出显示某些位置( 仅指PDF) 或构建文档的交叉引用 。
7. PDF操作
是唯一可以修改的文件类型。所有其他文件类型都是只读。
但是,您可以将任何文档(包括照片)转换为 PDF, 然后将所有功能应用到生成的 PDF 。
总是将当前状态( 可能更改) 中的 PDF 保存到磁盘 。
一般而言,您可以选择将文件保存到新文件上,或者仅对现有文件进行修改(“加速保存”),因为通常要快得多。
以下是如何使用PDF文件的解释。
页面可以修改、创建、重新排列和删除。
使用页面树有许多方法( 它描述所有页面的结构 ) :
和删除页面
以及在同一文档中复制或移动页面
PDF 压缩到想要的页面。 执行后, 此列表中所有丢失的页面将被删除。 剩下的页面将连续显示, 与您要求的相同号码 (!) 。
因此,您可以很快创建一个新的PDF:
新保存的文档将包括仍然有效的链接、笔记和书签(即) a-a-a-a-a-h-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w
第一页或最后10页
页数必须是奇数或偶数( 对于双面打印) 。
包含或排除指定文本的页面
颠倒页面顺序
和插入新页面。
此外,网页本身还可利用各种技术(例如,页面旋转、评论和链接、维持、文本和图片插入)更新。
b. 合并和分割PDF文件
以下是如何在两个PDF文件之间复制一页的简单例子(Doc1和Doc2都在PDF中打开):
下面是文件1的节录, 它将在第一个和最后十页上产生新的文件:
c. 保存
文档总是在目前状态下保存。
通过选择参数,您可以将修改写回原始 PDF。这个程序(通常)花费的时间相对较少,因为修改与原始文档相连,而不是完全重写。
d. 关闭
当应用程序继续运行时,通常需要“关闭”文档,才能对底文件进行操作系统控制。
这样做是可能的。除了关闭基本文件外,还将释放与文件相连的缓冲。
上一篇:如何在 Windows 10 上安装 PowerShell 7
下一篇:没有了
相关新闻
- 2022-05-23 如何在 Windows 10 上安装 PowerShell 7
- 2022-05-23 苹果、Google 和微软正在联手“干掉
- 2022-05-23 推出两年首次超过一成市场份额,
- 2022-05-23 饥不择食?微软拉低 Windows “逼格
- 2022-05-23 FXTM富拓:盖茨出轨!微软:我比你
- 2022-05-23 微软创始人比尔盖茨确诊新冠!股
- 2022-05-23 Win11家庭版新的离线激活方法
- 2022-05-23 Win11 必学技巧,一招跳过联网激活
- 2022-05-23 传微软即将于3月开始Windows 12的开发
- 2022-05-23 大开眼界!键盘上有个不常用的键
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
