为了账号安全,请及时绑定邮箱和手机立即绑定

最新回答 / Xbai_hang
这个原理上就是调用word的api 所以会自动打开你电脑上的word,貌似没有word还会报错的

最新回答 / lgsp_lucifer1225
我觉得你是切割文件名和后缀的时候,splitext写成split导致的。
抽取的pdf是单层pdf 还是双层的?
讲的有点啰嗦,文本提取可以使用 textract 可以提取多种格式 https://textract.readthedocs.io/en/stable/,
文件操作获取文件名部分,可以用os.path.splitext拆分文件名称与后缀,用in判断后缀是否是要转换的格式,然后文件名+'.txt'就可以了。
https://github.com/deanmalmgren/textract
抽取表格和ppt的是不是难,所以不写

最新回答 / 慕沐9044854
我碰到的类似问题,是IF循环有问题,直接return了

最新回答 / 慕婉清6349877
我也是这个问题 word可以跑出来,pdf不行
首页上一页123456下一页尾页
课程须知
1、适用于数据科学从业人员、AI技术开发人员和科研工作者及学生群体。 2、学习者应具备python和数据科学的基础。
老师告诉你能学到什么?
1、制定不同场景数据采集策略 2、文本数据抽取与集成、使用Python科学计算工具

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消