我使用 Apache Tika 作为服务来分析 Python 中的 Office 文档,如下所示:url = 'http://{0}:{1}/rmeta/xml'url = url.format(self._host, self._port)res = requests.put(url, data=dat).json()如果文档包含宏,我想从文档中提取宏的内容,但不知道该怎么做。Apache Tika 文档不是那么好。是否有任何标题或我需要使用的东西来使 Tika 服务器返回宏内容以及文档的内容?
1 回答
慕容森
TA贡献1853条经验 获得超18个赞
据我了解,问题在于 Tika 默认情况下不会从 Office 文档中提取宏。为了做到这一点,我必须为 Tika 制作一个自定义配置文件,为在 Tika 中实现的两个 Microsoft Office 解析器启用 extractMacros 属性(我不知道他们是否使用 POI 或其他东西)。这是一个示例:https ://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros .xml
添加回答
举报
0/150
提交
取消