为了账号安全,请及时绑定邮箱和手机立即绑定

Apache Tika Server:从办公文档中获取宏?

Apache Tika Server:从办公文档中获取宏?

慕森王 2022-10-06 18:57:36
我使用 Apache Tika 作为服务来分析 Python 中的 Office 文档,如下所示:url = 'http://{0}:{1}/rmeta/xml'url = url.format(self._host, self._port)res = requests.put(url, data=dat).json()如果文档包含宏,我想从文档中提取宏的内容,但不知道该怎么做。Apache Tika 文档不是那么好。是否有任何标题或我需要使用的东西来使 Tika 服务器返回宏内容以及文档的内容?
查看完整描述

1 回答

?
慕容森

TA贡献1853条经验 获得超18个赞

据我了解,问题在于 Tika 默认情况下不会从 Office 文档中提取宏。为了做到这一点,我必须为 Tika 制作一个自定义配置文件,为在 Tika 中实现的两个 Microsoft Office 解析器启用 extractMacros 属性(我不知道他们是否使用 POI 或其他东西)。这是一个示例:https ://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros .xml


查看完整回答
反对 回复 2022-10-06
  • 1 回答
  • 0 关注
  • 104 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信