-
文件抽取资料
查看全部 -
word 转换tet思路
查看全部 -
三类数据类型:结构化数据,半结构化数据,非结构化数据
查看全部 -
#coding=utf-8 import os,fnmatch from win32com import client as wc from win32com.client import Dispatch def Word2Txt(filepath,savePath=''): dirs,filename = os.path.split(filePath) new_name="" if fnmatch.fanmatch(filename,'*.doc'): new_name = filename[:-4]+'.txt' elif fnmatch.fnmatch(filename,'*.docx'): new_name = filename[:-5]+'.txt' else: print("格式不正确") return if savePath == '': savePath = dirs else: savePath = savePath word2txtPath = os.path.join(savePath,new_name) print('-->',word2txtPath) wordapp = wc.Dispatch('word.Application') mytxt = wordapp.Documents.Open(filePath) if __name__=='__main__': filePath = os.path.abspath(r'../../*.doc') word2Txt(filePath)
查看全部 -
总结
查看全部 -
1.数据集成
查看全部 -
1.why
查看全部 -
特征预处理
不完整、偏态、噪声、特征比重、特征纬度、缺失值、错误值等问题;
存在完整、正态、干净、特征和事、特征纬度合理、无缺失值
查看全部 -
1.特征预处理
查看全部 -
数据预处理
谓词、停用词
特征压缩变换
查看全部 -
课程初衷。。。
查看全部 -
数据预处理流程:数据清理
查看全部 -
数据预处理介绍
查看全部 -
什么是数据预处理
查看全部 -
shift+alt+数字 分页
查看全部
举报
0/150
提交
取消