落霞与孤鹜齐飞,秋水共长天一色。
百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 互联网 > 技术教程 > 正文

SpringBoot 中使用布隆过滤器 Guava、Redission实现

jellybean 2023-05-26 19 浏览 0 评论

今天说到的实现方式有以下几种:

  • 引入 Guava 实现
  • 引入 hutool 实现
  • 引入 Redission 实现
  • Guava 布隆过滤器结合 Redis (重点)

项目工程的搭建,就在这里先写明啦~

boot项目就是四步走~ 导包->写配置->编写配置类->使用

补充说明:我使用的 redis 是用docker下载的一个集成redis和布隆过滤器的镜像。安装方式:Docker安装Redis布隆过滤器

如果你是在windows上安装的redis 是3.0版本的,是无法集成布隆过滤器。

如果是在liunx版本上的redis,需要再额外下载一个布隆过滤器的模块。需要自行百度啦~


我将要用到的所有jar都放在这里啦~

 <parent>
     <artifactId>spring-boot-dependencies</artifactId>
     <groupId>org.springframework.boot</groupId>
     <version>2.5.2</version>
 </parent>
 <dependencies>
     <dependency>
         <groupId>org.springframework.boot</groupId>
         <artifactId>spring-boot-starter</artifactId>
     </dependency>
     <dependency>
         <groupId>org.springframework.boot</groupId>
         <artifactId>spring-boot-starter-web</artifactId>
     </dependency>
     <dependency>
         <groupId>org.springframework.boot</groupId>
         <artifactId>spring-boot-starter-data-redis</artifactId>
     </dependency>
     <!-- https://mvnrepository.com/artifact/org.redisson/redisson-spring-boot-starter -->
     <dependency>
         <groupId>org.redisson</groupId>
         <artifactId>redisson-spring-boot-starter</artifactId>
         <version>3.17.6</version>
     </dependency>
 
     <dependency>
         <groupId>com.google.guava</groupId>
         <artifactId>guava</artifactId>
         <version>30.0-jre</version>
     </dependency>
     <dependency>
         <groupId>org.springframework.boot</groupId>
         <artifactId>spring-boot-starter-test</artifactId>
     </dependency>
     <dependency>
         <groupId>junit</groupId>
         <artifactId>junit</artifactId>
         <scope>test</scope>
     </dependency>
     <dependency>
         <groupId>org.projectlombok</groupId>
         <artifactId>lombok</artifactId>
     </dependency>
     <dependency>
         <groupId>cn.hutool</groupId>
         <artifactId>hutool-all</artifactId>
         <version>5.7.22</version>
     </dependency>
 </dependencies>

yml 配置文件:

 server:
   port: 8081
 spring:
   redis:
     port: 6379
     host: 192.xxx

一、Guava 实现布隆过滤器

这个方式非常快捷:

直接用一个Demo来说明吧

     @Test
     public void test2() {
         // 预期插入数量
         long capacity = 10000L;
         // 错误比率
         double errorRate = 0.01;
         //创建BloomFilter对象,需要传入Funnel对象,预估的元素个数,错误率
         BloomFilter<Long> filter = BloomFilter.create(Funnels.longFunnel(), capacity, errorRate);
 //        BloomFilter<String> filter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("utf-8")), 10000, 0.0001);
         //put值进去
         for (long i = 0; i < capacity; i++) {
             filter.put(i);
         }
         // 统计误判次数
         int count = 0;
         // 我在数据范围之外的数据,测试相同量的数据,判断错误率是不是符合我们当时设定的错误率
         for (long i = capacity; i < capacity * 2; i++) {
             if (filter.mightContain(i)) {
                 count++;
             }
         }
         System.out.println(count);
     }

当容量为1k,误判率为 0.01时

 2022-08-26 23:50:01.028  INFO 14748 --- [           main] com.nzc.test.RedisBloomFilterTest        : 存入元素为==1000
 误判个数为==>10

当容量为1w,误判率为 0.01时

 2022-08-26 23:49:23.618  INFO 21796 --- [           main] com.nzc.test.RedisBloomFilterTest        : 存入元素为==10000
 误判个数为==>87

当容量为100w,误判率为 0.01时

 2022-08-26 23:50:45.167  INFO 8964 --- [           main] com.nzc.test.RedisBloomFilterTest        : 存入元素为==1000000
 误判个数为==>9946

BloomFilter<Long> filter = BloomFilter.create(Funnels.longFunnel(), capacity, errorRate);

create方法实际上调用的方法是:

 public static <T> BloomFilter<T> create(
     Funnel<? super T> funnel, int expectedInsertions, double fpp) {
   return create(funnel, (long) expectedInsertions, fpp);
 }
  • funnel 用来对参数做转化,方便生成hash值
  • expectedInsertions 预期插入的数据量大小
  • fpp 误判率

里面具体的实现,相对我来说,数学能力有限,没法说清楚。希望大家多多包含。

二、Hutool 布隆过滤器

Hutool 工具中的布隆过滤器,内存占用太高了,并且功能相比于guava也弱了很多,个人不建议使用。

 @Test
 public void test4(){
     int capacity = 100;
     // 错误比率
     double errorRate = 0.01;
     // 初始化
     BitMapBloomFilter filter = new BitMapBloomFilter(capacity);
     for (int i = 0; i < capacity; i++) {
         filter.add(String.valueOf(i));
     }
 ?
     log.info("存入元素为=={}",capacity);
     // 统计误判次数
     int count = 0;
     // 我在数据范围之外的数据,测试相同量的数据,判断错误率是不是符合我们当时设定的错误率
     for (int i = capacity; i < capacity * 2; i++) {
         if (filter.contains(String.valueOf(i))) {
             count++;
         }
     }
     log.info("误判元素为==={}",count);
 }

三、Redission 布隆过滤器

redission的使用其实也很简单,官方也有非常好的教程。

引入jar,然后编写一个config类即可

<dependency>
     <groupId>org.springframework.boot</groupId>
     <artifactId>spring-boot-starter-data-redis</artifactId>
 </dependency>
 <!-- https://mvnrepository.com/artifact/org.redisson/redisson-spring-boot-starter -->
 <dependency>
     <groupId>org.redisson</groupId>
     <artifactId>redisson-spring-boot-starter</artifactId>
     <version>3.17.6</version>
 </dependency>

出了注入 redissionclient,还注入了一些redis相关的东西,都是历史包裹~

 /**
  * @description:
  * @author: Yihui Wang
  * @date: 2022年08月26日 22:06
  */
 @Configuration
 @EnableCaching
 public class RedisConfig {
 ?
     @Bean
     public RedissonClient redissonClient(){
         Config config = new Config();
         config.useSingleServer().setAddress("redis://47.113.227.254:6379");
         RedissonClient redissonClient = Redisson.create(config);
         return  redissonClient;
     }
 ?
     @Bean
     public CacheManager cacheManager(RedisConnectionFactory connectionFactory) {
         RedisCacheManager rcm=RedisCacheManager.create(connectionFactory);
         return rcm;
     }
     @Bean
     public RedisTemplate<String, Object> redisTemplate(RedisConnectionFactory factory) {
         RedisTemplate<String, Object> redisTemplate = new RedisTemplate<String, Object>();
         redisTemplate.setConnectionFactory(factory);
  
         Jackson2JsonRedisSerializer jackson2JsonRedisSerializer = new
                 Jackson2JsonRedisSerializer(Object.class);
         ObjectMapper om = new ObjectMapper();
         om.setVisibility(PropertyAccessor.ALL, JsonAutoDetect.Visibility.ANY);
         om.enableDefaultTyping(ObjectMapper.DefaultTyping.NON_FINAL);
         jackson2JsonRedisSerializer.setObjectMapper(om);
         //序列化设置 ,这样计算是正常显示的数据,也能正常存储和获取
         redisTemplate.setKeySerializer(jackson2JsonRedisSerializer);
         redisTemplate.setValueSerializer(jackson2JsonRedisSerializer);
         redisTemplate.setHashKeySerializer(jackson2JsonRedisSerializer);
         redisTemplate.setHashValueSerializer(jackson2JsonRedisSerializer);
  
         return redisTemplate;
     }
     @Bean
     public StringRedisTemplate stringRedisTemplate(RedisConnectionFactory factory) {
         StringRedisTemplate stringRedisTemplate = new StringRedisTemplate();
         stringRedisTemplate.setConnectionFactory(factory);
         return stringRedisTemplate;
     }
 }

我们在中间再编写一个Service,

 @Service
 public class BloomFilterService {
 ?
     @Autowired
     private RedissonClient redissonClient;
 ?
     /**
      * 创建布隆过滤器
      * @param filterName 布隆过滤器名称
      * @param capacity 预测插入数量
      * @param errorRate 误判率
      * @param <T>
      * @return
      */
     public <T> RBloomFilter<T> create(String filterName, long capacity, double errorRate) {
         RBloomFilter<T> bloomFilter = redissonClient.getBloomFilter(filterName);
         bloomFilter.tryInit(capacity, errorRate);
         return bloomFilter;
     }
 }

测试:

 package com.nzc.test;
 ?
 import com.nzc.WebApplication;
 import com.nzc.service.BloomFilterService;
 import lombok.extern.slf4j.Slf4j;
 import org.junit.Test;
 import org.junit.runner.RunWith;
 import org.redisson.api.RBloomFilter;
 import org.springframework.beans.factory.annotation.Autowired;
 import org.springframework.boot.test.context.SpringBootTest;
 import org.springframework.test.context.junit4.SpringRunner;
 ?
 @Slf4j
 @RunWith(SpringRunner.class)
 @SpringBootTest(classes = WebApplication.class)
 public class BloomFilterTest {
 ?
     @Autowired
     private BloomFilterService bloomFilterService;
 ?
     @Test
     public void testBloomFilter() {
         // 预期插入数量
         long expectedInsertions = 1000L;
         // 错误比率
         double falseProbability = 0.01;
         RBloomFilter<Long> bloomFilter = bloomFilterService.create("NZC:BOOM-FILTER", expectedInsertions, falseProbability);
         // 布隆过滤器增加元素
         for (long i = 0; i < expectedInsertions; i++) {
             bloomFilter.add(i);
         }
         long elementCount = bloomFilter.count();
         log.info("布隆过滤器中含有元素个数 = {}.", elementCount);
 ?
         // 统计误判次数
         int count = 0;
         // 我在数据范围之外的数据,测试相同量的数据,判断错误率是不是符合我们当时设定的错误率
         for (long i = expectedInsertions; i < expectedInsertions * 2; i++) {
             if (bloomFilter.contains(i)) {
                 count++;
             }
         }
         log.info("误判次数 = {}.", count);
 ?
         // 清空布隆过滤器 内部实现是个异步线程在执行  我只是为了方便测试
         bloomFilter.delete();
     }
 }

当容量为1k,误判率为0.01时的输出情况

 2022-08-26 23:37:04.903  INFO 1472 --- [           main] com.nzc.test.BloomFilterTest             : 布隆过滤器中含有元素个数 = 993.
 2022-08-26 23:37:38.549  INFO 1472 --- [           main] com.nzc.test.BloomFilterTest             : 误判次数 = 36.

当容量为1w,误判率为0.01时的输出情况

 2022-08-26 23:50:54.478  INFO 17088 --- [           main] com.nzc.test.BloomFilterTest             : 布隆过滤器中含有元素个数 = 9895.
 2022-08-26 23:56:56.171  INFO 17088 --- [           main] com.nzc.test.BloomFilterTest             : 误判次数 = 259.

四、小结

我实际测试的时候,Guava 的效果应该是最好的,Redission 虽然是直接集成了Redis,但实际效果比起Guava较差一些,我这里没有贴上时间,Redission所创建出来的布隆过滤器,速度较慢。

当然我的测试范围是有限的,并且只是循环测试,另外服务器也并非在本地,这都有影响。

但是仅目前看来是这样的。

还有就是将 Guava 结合 Redis 一起使用。

五、Guava 布隆过滤器结合 Redis 使用

仅限于测试,一切效果还是需看实测。


我是以 Guava 中创建 布隆过滤器为基础,利用它构造的方法,来进行修改,功能相比于 guava 还是少了很多的。

 package com.nzc.boom;
  
 import com.google.common.annotations.VisibleForTesting;
 import com.google.common.base.Preconditions;
 import com.google.common.hash.Funnel;
 import com.google.common.hash.Hashing;
 import com.google.common.primitives.Longs;
 ?
 public class BloomFilterHelper<T> {
  
     private int numHashFunctions;
  
     private int bitSize;
  
     private Funnel<T> funnel;
  
     public BloomFilterHelper(Funnel<T> funnel, int expectedInsertions, double fpp) {
         Preconditions.checkArgument(funnel != null, "funnel不能为空");
         this.funnel = funnel;
         // 计算bit数组长度
         bitSize = optimalNumOfBits(expectedInsertions, fpp);
         // 计算hash方法执行次数
         numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, bitSize);
     }
 ?
 ?
     /** 源码
      *public <T> boolean mightContain(
      *         T object, Funnel<? super T> funnel, int numHashFunctions, LockFreeBitArray bits) {
      *       long bitSize = bits.bitSize();
      *       byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
      *       long hash1 = lowerEight(bytes);
      *       long hash2 = upperEight(bytes);
      *
      *       long combinedHash = hash1;
      *       for (int i = 0; i < numHashFunctions; i++) {
      *         // Make the combined hash positive and indexable
      *         if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {
      *           return false;
      *         }
      *         combinedHash += hash2;
      *       }
      *       return true;
      *     }
      * @param value
      * @return
      */
     public long[] murmurHashOffset(T value) {
         long[] offset = new long[numHashFunctions];
         byte[] bytes = Hashing.murmur3_128().hashObject(value, funnel).asBytes();
         long hash1 = lowerEight(bytes);
         long hash2 = upperEight(bytes);
         long combinedHash = hash1;
         for (int i = 1; i <= numHashFunctions; i++) {
             long nextHash = hash1 + i * hash2;
             if (nextHash < 0) {
                 nextHash = ~nextHash;
             }
             offset[i - 1] = nextHash % bitSize;
         }
         return offset;
 ?
 ?
     }
     private /* static */ long lowerEight(byte[] bytes) {
         return Longs.fromBytes(
                 bytes[7], bytes[6], bytes[5], bytes[4], bytes[3], bytes[2], bytes[1], bytes[0]);
     }
 ?
     private /* static */ long upperEight(byte[] bytes) {
         return Longs.fromBytes(
                 bytes[15], bytes[14], bytes[13], bytes[12], bytes[11], bytes[10], bytes[9], bytes[8]);
     }
     /**
      * 计算bit数组长度
      * 同样是guava创建布隆过滤器中的计算bit数组长度方法
      */
     private int optimalNumOfBits(long n, double p) {
         if (p == 0) {
             // 设定最小期望长度
             p = Double.MIN_VALUE;
         }
         return (int) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
     }
  
     /**
      * 这里是从guava 中 copy 出来的
      * 就是guava 创建一个 布隆过滤器时,
      * 计算hash方法执行次数的方法
      */
     private int optimalNumOfHashFunctions(long n, long m) {
         int countOfHash = Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
         return countOfHash;
     }
 ?
 }

以上的这些代码,在guava包都可以找到的。

在redisConfig中注入布隆过滤器

 /**
  * @description:
  * @author: Yihui Wang
  * @date: 2022年08月26日 22:06
  */
 @Configuration
 @EnableCaching
 public class RedisConfig {
 ?
     @Bean
     public CacheManager cacheManager(RedisConnectionFactory connectionFactory) {
         RedisCacheManager rcm=RedisCacheManager.create(connectionFactory);
         return rcm;
     }
     @Bean
     public RedisTemplate<String, Object> redisTemplate(RedisConnectionFactory factory) {
         RedisTemplate<String, Object> redisTemplate = new RedisTemplate<String, Object>();
         redisTemplate.setConnectionFactory(factory);
  
         Jackson2JsonRedisSerializer jackson2JsonRedisSerializer = new
                 Jackson2JsonRedisSerializer(Object.class);
         ObjectMapper om = new ObjectMapper();
         om.setVisibility(PropertyAccessor.ALL, JsonAutoDetect.Visibility.ANY);
         om.enableDefaultTyping(ObjectMapper.DefaultTyping.NON_FINAL);
         jackson2JsonRedisSerializer.setObjectMapper(om);
         //序列化设置 ,这样计算是正常显示的数据,也能正常存储和获取
         redisTemplate.setKeySerializer(jackson2JsonRedisSerializer);
         redisTemplate.setValueSerializer(jackson2JsonRedisSerializer);
         redisTemplate.setHashKeySerializer(jackson2JsonRedisSerializer);
         redisTemplate.setHashValueSerializer(jackson2JsonRedisSerializer);
  
         return redisTemplate;
     }
     @Bean
     public StringRedisTemplate stringRedisTemplate(RedisConnectionFactory factory) {
         StringRedisTemplate stringRedisTemplate = new StringRedisTemplate();
         stringRedisTemplate.setConnectionFactory(factory);
         return stringRedisTemplate;
     }
  
     
     //初始化布隆过滤器,放入到spring容器里面
     @Bean
     public BloomFilterHelper<String> initBloomFilterHelper() {
         return new BloomFilterHelper<String>((Funnel<String>) (from, into) -> into.putString(from, Charsets.UTF_8).putString(from, Charsets.UTF_8), 1000, 0.01);
     }
 ?
     @Bean
     public BloomFilterHelper<Long> initLongBloomFilterHelper() {
         return new BloomFilterHelper<Long>((Funnel<Long>) (from, into) -> into.putLong(from),1000, 0.01);
     }
 ?
 ?
 }

也就是注入我们刚刚编写的那个布隆过滤器。

然后再编写一个Service 层

 /**
  * @description:
  * @author: Yihui Wang
  */
 @Slf4j
 @Service
 public class RedisBloomFilter {
 ?
     @Autowired
     private RedisTemplate redisTemplate;
 ?
     /**
      * 根据给定的布隆过滤器添加值
      */
     public <T> void addByBloomFilter(BloomFilterHelper<T> bloomFilterHelper, String key, T value) {
         Preconditions.checkArgument(bloomFilterHelper != null, "bloomFilterHelper不能为空");
         long[] offset = bloomFilterHelper.murmurHashOffset(value);
         for (long i : offset) {
             log.info("key :{} ,value : {}", key,  i);
             redisTemplate.opsForValue().setBit(key, i, true);
         }
     }
 ?
     /**
      * 根据给定的布隆过滤器判断值是否存在
      */
     public <T> boolean includeByBloomFilter(BloomFilterHelper<T> bloomFilterHelper, String key, T value) {
         Preconditions.checkArgument(bloomFilterHelper != null, "bloomFilterHelper不能为空");
         long[] offset = bloomFilterHelper.murmurHashOffset(value);
         for (long i : offset) {
             log.info("key :{} ,value : {}", key,  i);
             if (!redisTemplate.opsForValue().getBit(key, i)) {
                 return false;
             }
         }
         return true;
     }
 }

测试:

     @Test
     public void test1() {
         // 预期插入数量
         long capacity = 1000L;
         // 错误比率
         double errorRate = 0.01;
         for (long i = 0; i < capacity; i++) {
             redisBloomFilter.addByBloomFilter(bloomFilterHelper, "nzc:bloomFilter1", i);
         }
         log.info("存入元素为=={}", capacity);
         // 统计误判次数
         int count = 0;
         // 我在数据范围之外的数据,测试相同量的数据,判断错误率是不是符合我们当时设定的错误率
         for (long i = capacity; i < capacity * 2; i++) {
             if (redisBloomFilter.includeByBloomFilter(bloomFilterHelper, "nzc:bloomFilter1", i)) {
                 count++;
             }
         }
         System.out.println("误判个数为==>" + count);
     }

输出:

 存入元素为==1000
 误判个数为==>12

作者:宁在春
链接:https://juejin.cn/post/7136214205618716709
来源:稀土掘金

相关推荐

全栈之路:从零搭建docker+jenkins+node.js自动化部署环境

上两篇全栈之路:前端工程师如何从0开始了解Docker全栈之路:vue-cli3项目从搭建优化到docker部署1、docker部分1.1、docker简介Docker是一个开源的应用容器引...

Vue脚手架(基础+Node.js安装)【vue脚手架教程】

关于VueVue.js(读音:/vju?/,类似于:view)是一套构建用户界面的渐进式框Vue.js的官方网址是:https://cn.vuejs.org/index.html传统的前端开发...

开源Vue后端UI开箱即用解决方案——vuestic-admin

引言这是一个Vue的后端开箱即用UI项目框架,和之前的ReactAdmin类似,它是一个框架,也就意味着它帮你完成了很多公用的部分,你只需要在其基础上进行自己的项目扩展即可。大体上这是由Vue和boo...

用css3实现惊艳面试官的背景即背景动画(高级附源码)

我们传统的前端更多的是用javascript实现各种复杂动画,自从有了Css3transition和animation以来,前端开发在动画这一块有了更高的自由度和格局,对动画的开发也越来越容易。这篇...

基于vue-cli4构建vue项目【vue cli搭建】

前提条件:(1)安装node.js(2)安装yarn(3)安装@vue/cliyarnglobaladd@vue/cli通过命令行模式创建一个项目:vuecreatehello-world注...

74、scss 是什么?在 Vue-cli 中的安装使用步骤是?有哪几大特性?

1、基本定义SCSS即是SASS的新语法,是SassyCSS的简写,是CSS3语法的超集,也就是说所有有效的CSS3样式也同样适合于SASS,SASS是CSS3的一个扩展,...

前端基础学习:Vue2.0实现移动端外卖平台项目,参考旧版饿了么!

主要依赖基于vue@2.0使用vue-cli@2.0搭建项目框架使用vue-router@2.1进行页面路由切换使用vue-resource@1.0.1进行http请求获取数据mock假数据...

手把手教你深刻理解vue实例的生命周期和钩子函数

虽然经常使用mounted、created等几个钩子函数,但是并没有很系统的将它和生命周期关联一起去理解,这导致我在最近项目里踩了坑。所以现在花点时间,整理一下这方面的知识。转载链接:https://...

记一次Vue3.0技术干货分享会【vue3.0入门】

作者:lulu_up转发链接:https://segmentfault.com/a/1190000022719461前言前面小编也整理了关于Vue3.0的设计原则、入门语法、虚拟Dom、Vue3.0...

Vue3 入门教程 两种方式创建Vue项目【创建一个vue3项目】

脚手架创建#全局重新安装最新版本的 @vue/cliyarnglobaladd@vue/cli@next#ORnpminstall-g@vue/cli@next#要...

打造vuecli3+element后台管理系统(三)优化路由和vuex仓库

我们在做后台系统的时候,经常会有比较多的功能页面,每个页面或多或少都会有需要存储在vuex中的数据,一般情况下我们会在state下定义不同的object,但是当功能一多,全部字段和action、mut...

2021年到了,Vue 3准备好了吗?【vue3正式发布了吗】

Vue3.0图/v3.cn.vuejs.org经历了两年多的开发,Vue3.0终于在2020年9月18日发布[1]。2021年年初,我抱着尝鲜的想法用Vue3及其生态编写了一个企业应用的管理后...

vue3学习第一步-创建vue3项目【vue3新建项目】

使用vue-cli创建vue3初始化项目介绍:1.创建一个vue3目录,安装vue-cli,vue-cli的版本4.0以上。cnpminstall@vue/cli(电脑已存在vue2不用cnp...

非常优秀vue开源框架Vuetify最新版本1.5.14【vue开发框架使用实例】

简介VuetifyStar数为19K+,提供了80多个Vue.js组件,这些组件是根据谷歌MaterialDesign指南实现的。开箱即用的项目脚手架,Vuetify已预先制作了8...

基于 vue3.x+vant3.x 搭建示例项目【搭建网站】

今天给大家分享一些如何使用Vue3.0+Vant3搭建demo项目。目前市面上有关vue3的项目并不多,vue3的UI组件库有ant-design-vue和vant-ui。接下来讲解下使用vue3、v...

取消回复欢迎 发表评论: