为了账号安全,请及时绑定邮箱和手机立即绑定

如何编辑以十六进制格式编码的 pdf 文本?

如何编辑以十六进制格式编码的 pdf 文本?

catspeake 2023-09-12 17:32:28
我正在尝试在 PDF 中查找某些文本并将其替换为特定值。我正在使用 python 库pdfrw,因为我的首选环境是 python。以下是文档第一页中的示例内容。BT\n/F8 40 Tf\n1 0 0 -1 569 376 Tm\n<0034> Tj\n26 0 Td <0028> Tj\n22 0 Td <0032> Tj\n25 0 Td <0031> Tj\n32 0 Td <0034> Tj\n26 0 Td <0036> Tj\nET\n0 .8863 1 RG对应于文档中的“REPORT”一词。到目前为止,我已经理解了这种格式中所有特殊标签和数字的含义,并成功地操纵了位置和其中的一些字符。但我不明白每个字符以什么格式或编码进行编码(<0034>、<0028> 等)。我尝试暴力破解 <00xx> 的每个组合,但只找到字母 R、E、P、O、T 的有效匹配,这些字母是单词中使用的字母。我对页面中包含的 F11 和 F10 进行了相同的尝试,发现与仅使用的字母匹配的结果相同。如果有人可以解释这种编码是如何工作的以及如何编辑它以便能够插入任何 utf-8 字符,那将非常有帮助。谢谢。note-1:以下是 F8 对象:{'/Subtype': '/Type0', '/Type': '/Font', '/BaseFont': '/OpenSans-Bold', '/Encoding': '/Identity-H', '/DescendantFonts': [{'/DW': '0', '/Subtype': '/CIDFontType2', '/CIDSystemInfo': {'/Suplement': '0', '/Registry': '(Adobe)', '/Ordering ': '(Identity)'}, '/Type': '/Font', '/FontDescriptor': {'/Descent': '-292.96875', '/CapHeight': '713.86719', '/StemV': ' 83.984375', '/Type': '/FontDescriptor', '/FontFile2': {'/Length1': '5540', '/Length': '5540'}, '/Flags': '4', '/FontName ': '/OpenSans-Bold', '/ItalicAngle': '0','/FontBBox': ['-619.14063', '-292.96875', '1318.84766', '1068.84766'], '/Ascent': '1068.84766'}, '/BaseFont': '/OpenSans-Bold', '/W ': ['0', ['600.09766'], '40', ['560.05859'], '49', ['795.89844', '627.92969', '0', '660.15625', '0', '579.10156 ']], '/CIDToGIDMap': '/Identity'}], '/ToUnicode': {'/Length': '413'}}'0', '660.15625', '0', '579.10156']], '/CIDToGIDMap': '/Identity'}], '/ToUnicode': {'/Length': '413'}}'0', '660.15625', '0', '579.10156']], '/CIDToGIDMap': '/Identity'}], '/ToUnicode': {'/Length': '413'}}注意2:以 (nice text)Tj\n 或 (<0032><0032>) 方式替换文本在这里不起作用。
查看完整描述

3 回答

?
慕尼黑8549860

TA贡献1818条经验 获得超11个赞

因此,正如之前的答案所指出的,文档中的嵌入字体只是一个子集,编码引用的是我未知的字符。我通过首先创建临时 pdf 来解决这个问题,其中包含字母表中的每个字母(其中包含我需要的字体信息),然后用新文件的资源字体替换原始文件的资源字体。然后我可以像我的临时文件一样轻松地操作文本


target.pages[0].Resources.Font=font_pdf.pages[0].Resources.Font

target.pages[0].Contents.stream.replace(

    "BT\n/F8 40 Tf\n1 0 0 -1 569 376 Tm\n<0034> Tj\n26 0 Td <0028> Tj\nET", 

    f"BT\n/F0 11 Tf\n1 0 0 -1 500 500 Tm\n(\x02Y\x02Q) Tj\nET"

)

谢谢你们 :)


注意:我仍然没有很好的解决方案来使用自己的字体解码十六进制。所以我决定使用模式匹配,因为我知道应该期待什么文本。更好的解决方案将会非常有帮助


查看完整回答
反对 回复 2023-09-12
?
小怪兽爱吃肉

TA贡献1852条经验 获得超1个赞

'/Encoding': '/Identity-H''/CIDToGIDMap': '/Identity'表示字符代码对应于字形id。因此<0034>显示所选字体的字形编号 0x34。

如果字体已被子集化,您只能访问子集中包含的字形。

'/Length': '5540'意味着字体大小为 5540 字节,这显然意味着它是子集化的。


查看完整回答
反对 回复 2023-09-12
?
哈士奇WWW

TA贡献1799条经验 获得超6个赞

一般来说,我认为 pdf 文本可以通过不同的算法进行压缩/编码,因此pdfrw不会自行解码文本。因此,您通常无法知道什么是正确的方法,因为每种情况都不同。

可能您没有弄清楚字符和十六进制代码之间的正确对应关系是什么,因为它可能是压缩流 - 这意味着每个代码取决于整个流中字符的位置加上所有先前的值人物。例如,文本可以被zlib压缩。

此外,pdf 文本是用于定位/格式化/输出文本的一系列命令,因此通常您必须能够解码/编码所有这些命令才能处理真正的任何文本。您的格式可能包含符号表,其中所有使用的符号都映射到十六进制值。为了找出正确的映射,所有符号都应该出现在示例文本中。

R对于您的情况,您可能会使用下一个表,为了进行转换,我使用字母具有十六进制值的事实0x34

在线尝试一下!

import sys

for i, n in enumerate(range(32, 128)):

    sys.stdout.write(f"{hex(n - ord('R') + 0x34).ljust(4)}: '{chr(n)}' ")

    if (i + 1) % 8 == 0:

        sys.stdout.write('\n')

输出:


0x2 : ' ' 0x3 : '!' 0x4 : '"' 0x5 : '#' 0x6 : '$' 0x7 : '%' 0x8 : '&' 0x9 : ''' 

0xa : '(' 0xb : ')' 0xc : '*' 0xd : '+' 0xe : ',' 0xf : '-' 0x10: '.' 0x11: '/' 

0x12: '0' 0x13: '1' 0x14: '2' 0x15: '3' 0x16: '4' 0x17: '5' 0x18: '6' 0x19: '7' 

0x1a: '8' 0x1b: '9' 0x1c: ':' 0x1d: ';' 0x1e: '<' 0x1f: '=' 0x20: '>' 0x21: '?' 

0x22: '@' 0x23: 'A' 0x24: 'B' 0x25: 'C' 0x26: 'D' 0x27: 'E' 0x28: 'F' 0x29: 'G' 

0x2a: 'H' 0x2b: 'I' 0x2c: 'J' 0x2d: 'K' 0x2e: 'L' 0x2f: 'M' 0x30: 'N' 0x31: 'O' 

0x32: 'P' 0x33: 'Q' 0x34: 'R' 0x35: 'S' 0x36: 'T' 0x37: 'U' 0x38: 'V' 0x39: 'W' 

0x3a: 'X' 0x3b: 'Y' 0x3c: 'Z' 0x3d: '[' 0x3e: '\' 0x3f: ']' 0x40: '^' 0x41: '_' 

0x42: '`' 0x43: 'a' 0x44: 'b' 0x45: 'c' 0x46: 'd' 0x47: 'e' 0x48: 'f' 0x49: 'g' 

0x4a: 'h' 0x4b: 'i' 0x4c: 'j' 0x4d: 'k' 0x4e: 'l' 0x4f: 'm' 0x50: 'n' 0x51: 'o' 

0x52: 'p' 0x53: 'q' 0x54: 'r' 0x55: 's' 0x56: 't' 0x57: 'u' 0x58: 'v' 0x59: 'w' 

0x5a: 'x' 0x5b: 'y' 0x5c: 'z' 0x5d: '{' 0x5e: '|' 0x5f: '}' 0x60: '~' 0x61: '' 

从十六进制转换为字符的代码很简单:


hex_val = '0030'

print(chr(int(hex_val, 16) - 0x34 + ord('R')))

如果您在字符和十六进制值之间有一些更奇特的映射,那么您只需创建一个包含所有可能的字符的文本,然后使用转换器对其进行转换,看看每个字母里面的十六进制是什么。


另外,我只是试图弄清楚 PDF 中的文本是如何编码的,使用了哪些命令,它看起来像Tj末尾带有命令的字符串包含文本本身。因此,我在下面的代码中编写了 pdf 文本修饰符,它接受文件名或 URL 作为第一个参数,输出文件名作为第二个参数,或者只是运行它以使用默认示例,所需的替换在脚本开头作为变量列出changes。


但下一个修饰符不会解码您的十六进制格式。它可以方便地替换任何以纯文本编码的文本。

在线尝试一下!

import sys, os, io

# Needs: python -m pip install pdfrw

from pdfrw import PdfReader, PdfWriter


changes = {'And': 'Or', 'text': 'string'}


def ReplaceText(text, reps = {}):

    res, in_block = '', False

    for line in text.splitlines():

        line = line.strip()

        nline = line

        if line == 'BT':

            in_block = True

        elif line == 'ET':

            in_block = False

        elif in_block:

            cmd = line.rpartition(' ')[2]

            if cmd.lower() == 'tj':

                for k, v in reps.items():

                    nline = nline.replace(k, v)

        res += nline + '\n'

    return res


ifn = sys.argv[1] if len(sys.argv) > 1 else 'http://www.africau.edu/images/default/sample.pdf'

ofn = (ifn[:ifn.rfind('.')] + '.processed.pdf') if len(sys.argv) <= 2 else sys.argv[2]


if ifn.lower().startswith('http'):

    # Needs: python -m pip install requests

    import requests

    ofn = (ifn[ifn.rfind('/') + 1:] + '.processed.pdf') if len(sys.argv) <= 2 else sys.argv[2]

    ifn = io.BytesIO(requests.get(ifn).content)

    

r = PdfReader(ifn)

for page in r.pages:

    page.Contents.stream = ReplaceText(page.Contents.stream, changes)


PdfWriter(ofn, trailer = r).write()


查看完整回答
反对 回复 2023-09-12
  • 3 回答
  • 0 关注
  • 71 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信