U盘PE| w764位旗舰版下载 | U盘装win7系统 | U盘启动 |win7pe | win10下载 |加入收藏土豆PE官网U盘PE,U盘装win7系统,win7pe,U盘启动,U盘装系统,w764位旗舰版下载站!
当前位置:主页 > 新闻资讯 >

Python处理PDF神器:PyMuPDF的安装与使用

来源:http://www.tudoupe.com时间:2022-05-23

来源:网络

1、简介

1. 介绍

在我们开始之前,先考虑一下这个名字的格式, 在界面的设计中可以观察到这个格式。

MuPDF

这是一个便携式电子图书阅读器。它包括一个软件图书馆、指挥线工具和平台专用查看器。

显示器专门设计用于高质量的反锯图形,在像素的一小部分内为文字提供测量和间隔,以便在复制屏幕上打印页面外观时达到最大程度的保证。

它是紧凑和快速的, 但它是完整的。 它支持各种文档类型, 包括, 并且。 您可以使用移动查看器对文档进行评论并填写表格( 此功能将很快添加到桌面查看器中 ) 。

您可以使用命令行工具对文档进行批注、修改和转换,将文档转换为其他表格,如总和。您也可以使用脚本操作文档。

PyMuPDF

支持* Python 受约束。

您可以使用扩展名或。此外,大约10个主要图片格式可以作为文件处理:等等。

2. 功能

对于所支持的所有文档类型:

解密文件

访问元数据、链接和书签

以网格(和其他格式)或矢量格式显示页面。

搜索文本

提取文本和图像

转换为其他格式:

文件可以创建、合并或分割,网页可以插入、删除、重组或更新(包括评论和字段修改)。

图像和字体可以提取或插入。

完全支持嵌入式文件

PDF文件可以准备允许双面打印、颜色分离和添加标志或水印。

密码安全得到充分支持,包括解密、加密、加密方法选择、授权级别和用户/所有人密码设置。

PDF 随照片、文字和图纸附上的 PDF 任择内容的概念

简单的PDF结构可以进入和修改。

以下是指挥线模块多功能功能的品质:

保护布局上的文本提取!

不同格式的文本提取由脚本通过子命令提供。 当然, 特别有趣的是保留布局, 它创造尽可能接近原始物理布局的文字, 周围区域有图形, 或者在表格和多列文本中复制文字 。

加密/解密/优化

创建子文档

文档连接

图像/字体提取

完全支持嵌入式文件

提取布局文本( 所有文档) 并保存它 。

2、安装

它可以直接从源码或通过安装过程安装。

平台有一个下载区域。 Windows 也提供32个版本。 最近Linux ARM 架构也遇到问题,

它在标准库中不需要其它必要的外部依赖项目。 只有在安装了某些软件包之后, 才能有更好的方法做到这一点 :

:当使用和 时需要

:当使用时需要

用于文本输出技术的适当字体选择。

使用安装命令:

导入库:

关于命名的说明

由于历史原因,本图书馆通常的输入语句是:

最初的投标银行称为。

随着Artifex的购置,发展重点转向建立一个新的当代图形图书馆,称为图书馆,最初被设想为一个研究和发展项目,以取代一个老化的图形图书馆,后来演变成MPPDF的铸造引擎(从维基百科引用)。

3、使用方法

一. 进口库(版本)

2. 打开文档

这将生成对象。 文件名必须是先前创建的文件的 Python 字符串 。

您也可以从内存数据中打开文档或生成新的空白 PDF。该文档也可以作为上下文管理器使用。

三. 方法和属性应记录在案。

示例:

4. 获取元数据

标准元数据得到充分支持。 是包含下列密钥的 Python 字典 。

它适用于所有文件类型, 虽然并非所有条目总是有数据。 如果不提供补充指令, 元数据字段是一个字符串。 还应当指出, 并非所有数据都包含有意义的数据, 即使不是。

5. 获取目标大纲

6. 页面()

函数的核心是页面处理。

一页可以显示为光栅或矢量()图片,您可以缩放、旋转、移动或剪切。

您可以搜索文本字符串并检索各种格式的页面内容和图片。

可以用其他方式将文字或图像添加到文档中。

最初,必须建立一个页面。有两种选择:

您可以在此使用任意整数。 因为负整数是从结尾处计算的, 这是最后一页, 就像 Python 序列一样 。

最复杂的方法是将文件用作迭代页码:

接下来是最常用的程序!

a. 审查网页链接、评论和表格字段。

当使用某种查看软件显示文档时,链接是 = 热点区域 = = 。通常情况下,如果单击光标上的手形符号,您将被指向热点区域的编码标记。

是一个字典列表。

也可迭接地使用:

当处理 PDF 文档页时,可以有一个备注()或表格字段,每个字段都有自己的迭接栏:

b. 呈现页面

此示例生成页面内容的光栅图像 :

是一个包含RGB页面图片的对象(在此示例中),该图片可用于若干应用程序。

该技术允许许多图像控制调整,包括分辨率、色空间(例如,通过减少颜色程序开发灰度图像或图像)、透明度、旋转、镜像、移位、切割等等。

例如, 制作 RGBA 照片( 带 Alpha 频道), 请指定 。 我不确定 。

以下所列的方法和特点包括若干种,包括整数宽度、高度(每像素)和距离(水平图片线的字节)。属性示例描述了图像数据的矩形字节范围(Python 字节对象)。

矢量图片也可用于构建页面。

d. 将页面图片保存到文件。

图像可以简单地保存在文件中 :

d. 检索文本和照片

我们还可以以若干格式和详细程度摘录网页的所有文字、照片和其他信息:

要获得替代形式,请使用下列条件之一:

。(默认情况下)有换行符的纯文本。没有格式化、文本位置信息或图形。

:生成文本区块(段落)的事项清单。

创建单词列表( 没有空格的字符串) 。

创建页面的完整视觉显示,包括任何图像,可在互联网浏览器中看到。

:相同数量的数据,但作为 Python 字典或字符串

超级组装。 它也拥有关于像这样的字符的完整信息 。

文本信息级别与文本版本相同,但包含图形。

它不包括图形,但对于每个文字字符,它都有完整的位置和字体信息。使用模块来解释。

e. 搜索文本

您可以使用以下公式发现页面上文本字符串的确切位置:

这将返回一个矩形列表, 每个矩形列表都包含字符串( 不区分具体案例) 。 您可以使用此信息突出显示某些位置( 仅指PDF) 或构建文档的交叉引用 。

7. PDF操作

是唯一可以修改的文件类型。所有其他文件类型都是只读。

但是,您可以将任何文档(包括照片)转换为 PDF, 然后将所有功能应用到生成的 PDF 。

总是将当前状态( 可能更改) 中的 PDF 保存到磁盘 。

一般而言,您可以选择将文件保存到新文件上,或者仅对现有文件进行修改(“加速保存”),因为通常要快得多。

以下是如何使用PDF文件的解释。

页面可以修改、创建、重新排列和删除。

使用页面树有许多方法( 它描述所有页面的结构 ) :

和删除页面

以及在同一文档中复制或移动页面

PDF 压缩到想要的页面。 执行后, 此列表中所有丢失的页面将被删除。 剩下的页面将连续显示, 与您要求的相同号码 (!) 。

因此,您可以很快创建一个新的PDF:

新保存的文档将包括仍然有效的链接、笔记和书签(即) a-a-a-a-a-h-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w-w

第一页或最后10页

页数必须是奇数或偶数( 对于双面打印) 。

包含或排除指定文本的页面

颠倒页面顺序

和插入新页面。

此外,网页本身还可利用各种技术(例如,页面旋转、评论和链接、维持、文本和图片插入)更新。

b. 合并和分割PDF文件

以下是如何在两个PDF文件之间复制一页的简单例子(Doc1和Doc2都在PDF中打开):

下面是文件1的节录, 它将在第一个和最后十页上产生新的文件:

c. 保存

文档总是在目前状态下保存。

通过选择参数,您可以将修改写回原始 PDF。这个程序(通常)花费的时间相对较少,因为修改与原始文档相连,而不是完全重写。

d. 关闭

当应用程序继续运行时,通常需要“关闭”文档,才能对底文件进行操作系统控制。

这样做是可能的。除了关闭基本文件外,还将释放与文件相连的缓冲。

上一篇:如何在 Windows 10 上安装 PowerShell 7

下一篇:没有了

Copyright © 2012-2014 Www.tudoupe.Com. 土豆启动 版权所有 意见建议:tdsky@tudoupe.com

土豆系统,土豆PE,win7系统下载,win7 64位旗舰版下载,u盘启动,u盘装系统,win10下载,win10正式版下载,win10 RTM正式版下载,win8下载,电脑蓝屏,IE11修复,网络受限,4K对齐,双系统,隐藏分区,系统安装不了,U盘装系统,笔记本装系统,台式机装系统,diskgenius运用,GHSOT装系统,U盘修复,U盘技巧,U盘速度,U盘不能格式化,U盘复制发生错误,U盘加密,U盘选购,开机黑屏,蓝屏,进不了系统,上不了网,打不开程序,点击无反应,系统设置,PE个性化,PE添加网络,PE维护系统

点击这里给我发消息