读取大量文本文件然后进行逻辑处理，请问用什么方法效率高一点？

描述你的问题有160个文本文件，每个大约5M，需要一一读取进行相应处理。贴上相关代码贴上报错信息我一次性全部读取后会内存溢出。贴上相关截图已经尝试过哪些方法仍然没解决（附上相关链接）

查看完整描述

9 回答

慕的地8271018

TA贡献1796条经验获得超4个赞

一个文件才5m，你可以使用多线程加队列或者多进程加队列提高效率。如果是python的话，我会创建一个队列，然后开4个进程不断的从队列取文件名，然后在主进程读入文本名放入队列中。这样同时就会处理多个文件了，读取文件可以按行读，读完以后关闭文件。这样保证每次最多读取一定数目的文件，不会因为打开文件过多而报错。

反对回复 2019-03-01

宝慕林4294392

TA贡献2021条经验获得超8个赞

hash是一个很不错的选择，将文件按照某种规则进行hash

反对回复 2019-03-01

翻过高山走不出你

TA贡献1875条经验获得超3个赞

全部读入会溢出，那就读一半啊

反对回复 2019-03-01

慕斯王

TA贡献1864条经验获得超2个赞

这应该是个比较典型的map reduce场景。先利用hash等策略进行map，然后各自分布计算出中间结果，最后再根据之前的hash策略将中间结果进行reduce，获取最终结果。

反对回复 2019-03-01

呼啦一阵风

TA贡献1802条经验获得超6个赞

1、文件内存映射、窗口移动
2、多线程并发

反对回复 2019-03-01

Cats萌萌

TA贡献1805条经验获得超9个赞

JAVA NIO你可以试一下、、大文件

反对回复 2019-03-01

拉风的咖菲猫

TA贡献1995条经验获得超2个赞

hadoop

反对回复 2019-03-01

慕桂英4014372

TA贡献1871条经验获得超13个赞

除非逻辑非常复杂或者依赖第三方库，否则优先考虑awk。速度应该是最快的，跟c语言写的程序一样快，另外完全不用考虑内存占用或释放的问题。

反对回复 2019-03-01

长风秋雁

TA贡献1757条经验获得超7个赞

        try{
            BufferedReader reader = Files.newBufferedReader(Paths.get("D:\\","a.txt"), Charset.forName("UTF-8"));
            for(String line = reader.readLine(); line != null; line = reader.readLine()){
                // 一行一行处理，不会占用整个文件内容 
            }
        }catch(IOException e){
        }

反对回复 2019-03-01

热搜

最近搜索清空

读取大量文本文件然后进行逻辑处理，请问用什么方法效率高一点？

读取大量文本文件然后进行逻辑处理，请问用什么方法效率高一点？

9 回答

添加回答