为了账号安全,请及时绑定邮箱和手机立即绑定

Bloom Filter Bitmap 快速判断数据是否在集合中

标签:
大数据
一、给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
  • 首先申请512M的内存,512M的内存可以存储2^29B = 2^32 * 2 bit = 1G内存

  • 然后实现一个bitmap就是用1/0表示当前位数据是否存在 每个数分配1bit

  • 。读入40亿个数,设置相应的bit位,读入要查询的数查看相应bit位是否为1,为1表示存在,为0表示不存在。

二、在2.5亿个整数中找出不重复的整数,内存空间不足以容纳这2.5亿个整数。
  • 这次我们采用2-Bitmap标记数据,每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义。

  • 共需内存2^32 * 2 bit=1 GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。

三、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件url列表的交集?如果是三个乃至n个文件呢?
  • 谈到两个文件的交集,或者多个文件的交集,我么首先想到的就是bloom过滤器。bloomfilter判断一个数据不在是100%肯定的,但是判断在一个集合中,是存在概率问题的。

  • 如果允许有一定的错误率,可以使用Bloom filter。4G内存可以表示2^328=340亿bit。n=50亿,如果按出错率(E=0.01)算需要的大概是nlog2(1/E)1.44 =650亿个bit。现在可用的是340亿,相差并不多,可能会使出错率上升些。

  • 方案:将其中一个文件中的url使用Bloom Filter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与Bloom filter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。

python bloomfilter

rom pybloom_live import BloomFilter

bf = BloomFilter(capacity=1000)

bf.add("www.baidu.com")

print("www.baidu.com" in bf)   # Trueprint("www.douban.com" in bf)  # False

java 实现bitmap

public class BitMap {    /** 插入数的最大长度,比如100,那么允许插入bitsMap中的最大数为99 */
    private long length;    private static int[] bitsMap;    private static final int[] BIT_VALUE = { 0x00000001, 0x00000002, 0x00000004, 0x00000008, 0x00000010, 0x00000020,            0x00000040, 0x00000080, 0x00000100, 0x00000200, 0x00000400, 0x00000800, 0x00001000, 0x00002000, 0x00004000,            0x00008000, 0x00010000, 0x00020000, 0x00040000, 0x00080000, 0x00100000, 0x00200000, 0x00400000, 0x00800000,            0x01000000, 0x02000000, 0x04000000, 0x08000000, 0x10000000, 0x20000000, 0x40000000, 0x80000000 };    public BitMap(long length) {        this.length = length;        // 根据长度算出,所需数组大小
        bitsMap = new int[(int) (length >> 5) + ((length & 31) > 0 ? 1 : 0)];
    }    /**
     * 根据长度获取数据 比如输入63,那么实际上是确定数62是否在bitsMap中
     * 
     * @return index 数的长度
     * @return 1:代表数在其中 0:代表
     */
    public int getBit(long index) {        if (index < 0 || index > length) {            throw new IllegalArgumentException("length value illegal!");
        }        int intData = (int) bitsMap[(int) ((index - 1) >> 5)];        return ((intData & BIT_VALUE[(int) ((index - 1) & 31)])) >>> ((index - 1) & 31);
    }    /**
     * @param index
     *            要被设置的值为index - 1
     */
    public void setBit(long index) {        if (index < 0 || index > length) {            throw new IllegalArgumentException("length value illegal!");
        }        // 求出该index - 1所在bitMap的下标
        int belowIndex = (int) ((index - 1) >> 5);        // 求出该值的偏移量(求余)
        int offset = (int) ((index - 1) & 31);        int inData = bitsMap[belowIndex];
        bitsMap[belowIndex] = inData | BIT_VALUE[offset];
    }    public static void main(String[] args) {
        BitMap bitMap = new BitMap(63);
        bitMap.setBit(63);
        System.out.println(bitMap.getBit(63));
        System.out.println(bitMap.getBit(62));
    }
}



作者:张晓天a
链接:https://www.jianshu.com/p/706b4bd4520e


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
JAVA开发工程师
手记
粉丝
205
获赞与收藏
1007

关注作者,订阅最新文章

阅读免费教程

  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消