为了账号安全,请及时绑定邮箱和手机立即绑定

最新回答 / lgsp_lucifer1225
我觉得你是切割文件名和后缀的时候,splitext写成split导致的。
抽取的pdf是单层pdf 还是双层的?
讲的有点啰嗦,文本提取可以使用 textract 可以提取多种格式 https://textract.readthedocs.io/en/stable/,
文件操作获取文件名部分,可以用os.path.splitext拆分文件名称与后缀,用in判断后缀是否是要转换的格式,然后文件名+'.txt'就可以了。
https://github.com/deanmalmgren/textract
抽取表格和ppt的是不是难,所以不写

最新回答 / 慕沐9044854
我碰到的类似问题,是IF循环有问题,直接return了

最新回答 / 慕田峪8401036
你的这段程序,当i=3的时候,循环条件不成立就直接退出了txihkzd

最新回答 / 慕少1329861
con.removeAttribute(quot;stylequot;);写这个就可以了,这句话是移除样式属性的语句thmjxxy
#匹配文件名要求, 不区分大小写
fnmatch.fnmatch(filename, pattern)
fnmathc.fnmatch('txt.py', '*.Py') # True

#匹配文件名是否符合要求,区分大小写
fnmatch.fnmatchcase(filename, pattern)
fnmatch.fnmatchcase('txt.py', '*.py') # True

最新回答 / weibo_慕神0248999
<...图片...><...图片...>很简单,文件->另存为->编码->UTF-8 这样能看明白么?
课程须知
1、适用于数据科学从业人员、AI技术开发人员和科研工作者及学生群体。 2、学习者应具备python和数据科学的基础。
老师告诉你能学到什么?
1、制定不同场景数据采集策略 2、文本数据抽取与集成、使用Python科学计算工具

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消