描述你的问题有160个文本文件,每个大约5M,需要一一读取进行相应处理。
贴上相关代码
贴上报错信息我一次性全部读取后会内存溢出。
贴上相关截图
已经尝试过哪些方法仍然没解决(附上相关链接)
9 回答
慕的地8271018
TA贡献1796条经验 获得超4个赞
一个文件才5m,你可以使用多线程加队列或者多进程加队列提高效率。如果是python的话,我会创建一个队列,然后开4个进程不断的从队列取文件名,然后在主进程读入文本名放入队列中。这样同时就会处理多个文件了,读取文件可以按行读,读完以后关闭文件。这样保证每次最多读取一定数目的文件,不会因为打开文件过多而报错。
慕斯王
TA贡献1864条经验 获得超2个赞
这应该是个比较典型的map reduce场景。先利用hash等策略进行map,然后各自分布计算出中间结果,最后再根据之前的hash策略将中间结果进行reduce,获取最终结果。
长风秋雁
TA贡献1757条经验 获得超7个赞
try{
BufferedReader reader = Files.newBufferedReader(Paths.get("D:\\","a.txt"), Charset.forName("UTF-8"));
for(String line = reader.readLine(); line != null; line = reader.readLine()){
// 一行一行处理,不会占用整个文件内容
}
}catch(IOException e){
}
添加回答
举报
0/150
提交
取消
