为了账号安全,请及时绑定邮箱和手机立即绑定

读取大量文本文件然后进行逻辑处理,请问用什么方法效率高一点?

读取大量文本文件然后进行逻辑处理,请问用什么方法效率高一点?

侃侃尔雅 2019-02-16 15:25:38
描述你的问题有160个文本文件,每个大约5M,需要一一读取进行相应处理。 贴上相关代码 贴上报错信息我一次性全部读取后会内存溢出。 贴上相关截图 已经尝试过哪些方法仍然没解决(附上相关链接)
查看完整描述

9 回答

?
慕的地8271018

TA贡献1796条经验 获得超4个赞

一个文件才5m,你可以使用多线程加队列或者多进程加队列提高效率。如果是python的话,我会创建一个队列,然后开4个进程不断的从队列取文件名,然后在主进程读入文本名放入队列中。这样同时就会处理多个文件了,读取文件可以按行读,读完以后关闭文件。这样保证每次最多读取一定数目的文件,不会因为打开文件过多而报错。

查看完整回答
反对 回复 2019-03-01
?
宝慕林4294392

TA贡献2021条经验 获得超8个赞

hash是一个很不错的选择,将文件按照某种规则进行hash

查看完整回答
反对 回复 2019-03-01
?
翻过高山走不出你

TA贡献1875条经验 获得超3个赞

全部读入会溢出,那就读一半啊

查看完整回答
反对 回复 2019-03-01
?
慕斯王

TA贡献1864条经验 获得超2个赞

这应该是个比较典型的map reduce场景。先利用hash等策略进行map,然后各自分布计算出中间结果,最后再根据之前的hash策略将中间结果进行reduce,获取最终结果。

查看完整回答
反对 回复 2019-03-01
?
呼啦一阵风

TA贡献1802条经验 获得超6个赞

1、文件内存映射、窗口移动
2、多线程并发

查看完整回答
反对 回复 2019-03-01
?
Cats萌萌

TA贡献1805条经验 获得超9个赞

JAVA NIO你可以试一下、、大文件

查看完整回答
反对 回复 2019-03-01
?
拉风的咖菲猫

TA贡献1995条经验 获得超2个赞

hadoop

查看完整回答
反对 回复 2019-03-01
?
慕桂英4014372

TA贡献1871条经验 获得超13个赞

除非逻辑非常复杂或者依赖第三方库,否则优先考虑awk。速度应该是最快的,跟c语言写的程序一样快,另外完全不用考虑内存占用或释放的问题。

查看完整回答
反对 回复 2019-03-01
?
长风秋雁

TA贡献1757条经验 获得超7个赞

        try{
            BufferedReader reader = Files.newBufferedReader(Paths.get("D:\\","a.txt"), Charset.forName("UTF-8"));
            for(String line = reader.readLine(); line != null; line = reader.readLine()){
                // 一行一行处理,不会占用整个文件内容 
            }
        }catch(IOException e){
        }
查看完整回答
反对 回复 2019-03-01
  • 9 回答
  • 0 关注
  • 747 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号