为了账号安全,请及时绑定邮箱和手机立即绑定

Python“charmap”编解码器上的 Docx (xml) 文件解析错误无法解码位置 7618

Python“charmap”编解码器上的 Docx (xml) 文件解析错误无法解码位置 7618

慕妹3146593 2023-08-08 16:38:11
我正在尝试解析 docx 文件。我先解压缩它,然后尝试读取 Document.xml 文件,with open(..)并引发错误“'charmap'编解码器无法解码位置 7618 中的字节 0x98:字符映射到”。XML 是“UTF-8”编码:错误:我写了以下代码:        with open(self.tempDir + self.CONFIG['main_xml']) as xml_file:             self.dom_xml = etree.parse(xml_file)我尝试强制编码为 UTF-8,但随后我无法etree.fromstring(..)正确读取7618 符号(来自错误)是:请帮我。如何正确读取xml文件?谢谢
查看完整描述

1 回答

?
蝴蝶刀刀

TA贡献1801条经验 获得超8个赞

这对您的文件没有错误:

import zipfile

import xml.etree.ElementTree as ET


zipfile.ZipFile('file.docx').extractall()

root = ET.parse('word/document.xml').getroot()


查看完整回答
反对 回复 2023-08-08
  • 1 回答
  • 0 关注
  • 67 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信