为了账号安全,请及时绑定邮箱和手机立即绑定
抽取的pdf是单层pdf 还是双层的?
讲的有点啰嗦,文本提取可以使用 textract 可以提取多种格式 https://textract.readthedocs.io/en/stable/,
文件操作获取文件名部分,可以用os.path.splitext拆分文件名称与后缀,用in判断后缀是否是要转换的格式,然后文件名+'.txt'就可以了。
https://github.com/deanmalmgren/textract
抽取表格和ppt的是不是难,所以不写
源码获取没有提到啊?
#匹配文件名要求, 不区分大小写
fnmatch.fnmatch(filename, pattern)
fnmathc.fnmatch('txt.py', '*.Py') # True

#匹配文件名是否符合要求,区分大小写
fnmatch.fnmatchcase(filename, pattern)
fnmatch.fnmatchcase('txt.py', '*.py') # True
老师能否把课程开始数据预处理知识体系的思维导图分享一下。
为什么资料下载里面没有测试的文档资料
非常不错,持续学习中
有没有对应的软件安装包啊
兄弟们下载地址:https://pan.baidu.com/s/1-2BsiTs8XjMIe5Gnh_GFjw
赞一个 顺带求ppt和思维导图
老师求跟新啊~~~讲的好好啊
老师可以分享下ppt吗
视频不太完整,中间少了一大段
首页上一页1234下一页尾页
课程须知
1、适用于数据科学从业人员、AI技术开发人员和科研工作者及学生群体。 2、学习者应具备python和数据科学的基础。
老师告诉你能学到什么?
1、制定不同场景数据采集策略 2、文本数据抽取与集成、使用Python科学计算工具

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消