CCM'blog

Back

概率数据结构-Bloom FilterBlur image

AI-Assisted Content

本文由AI辅助生成,作者已尽力确保内容准确,请谨慎参考

[!quote] Bloom Filter 简介
布隆过滤器(Bloom Filter)是一种开创性的概率型数据结构,其核心价值在于提供了一种在空间和时间上都极具效率的近似集合成员关系测试方法。
自问世以来,它已成为处理大规模数据集时不可或缺的工具。本文旨在深入探讨布隆过滤器的原理、实现方式以及在实际应用中的优势和局限性。

演变历程#

  • 1970s
    Burton Howard Bloom 提出了布隆过滤器的概念。
  • 1990s
    布隆过滤器开始被广泛应用于缓存系统和网络协议中。
  • 2000s
    布隆过滤器的变种和优化算法陆续被提出,如计数布隆过滤器、分布式布隆过滤器等。
  • 2010s
    布隆过滤器在大数据处理、机器学习等领域得到了更广泛的应用,如 Apache Hadoop、Apache Spark 等大数据框架中都集成了布隆过滤器。
  • 2020s
    随着云计算和边缘计算的发展,布隆过滤器在分布式系统中的应用越来越普遍,成为处理大规模数据集时的重要工具。

历史背景#

硬件发展驱动软件, 软件设计反作用于硬件

在1960 年代, 所有程序员不得不面对两个现实:

  • 内存(核心存储器)极其宝贵
  • 磁盘访问速度极慢

所以, 工程师们必须想尽一切办法来减少对磁盘的访问,并最大限度地节省宝贵的内存资源。

[!TIP] 野史/沉浸式胡说八道

  1. (Burton Howard Bloom)遇到了一个具体问题。他需要设计一个系统来高效地查询一个元素是否存在于一个庞大的集合中,而这个集合因为太大而无法完全放入内存,只能存储在磁盘上
  2. 他敏锐地观察到一个关键现象:在许多应用场景中,绝大多数的查询都是针对那些根本不存在于集合中的元素 。例如,在一个拼写检查系统中,绝大多数输入的单词都是正确的,因此查询“这个词是否在错误单词词典里?”的结果大多是“否”
  3. 传统做法是,每一次查询,无论元素是否存在,都必须启动一次昂贵的磁盘I/O来确认。这意味着系统将大量的时间和资源浪费在那些最终结果为“未找到”的无效查询上
Terminal window
Standard ANSI colors:
- Dimmed: Black Red Green Yellow Blue Magenta Cyan White
- Foreground: Black Red Green Yellow Blue Magenta Cyan White
- Background: Black Red Green Yellow Blue Magenta Cyan White
- Reversed: Black Red Green Yellow Blue Magenta Cyan White
8-bit colors (showing colors 160-171 as an example):
- Dimmed: 160 161 162 163 164 165 166 167 168 169 170 171
- Foreground: 160 161 162 163 164 165 166 167 168 169 170 171
- Background: 160 161 162 163 164 165 166 167 168 169 170 171
- Reversed: 160 161 162 163 164 165 166 167 168 169 170 171
24-bit colors (full RGB):
- Dimmed: ForestGreen - RGB(34,139,34) RebeccaPurple - RGB(102,51,153)
- Foreground: ForestGreen - RGB(34,139,34) RebeccaPurple - RGB(102,51,153)
- Background: ForestGreen - RGB(34,139,34) RebeccaPurple - RGB(102,51,153)
- Reversed: ForestGreen - RGB(34,139,34) RebeccaPurple - RGB(102,51,153)
Font styles:
- Default
- Bold
- Dimmed
- Italic
- Underline
- Reversed
- Strikethrough

Components let you easily reuse a piece of UI or styling consistently. You can use them not just in .astro files, but also in .mdx files.

//[‘important’, ‘info’, ‘note’, ‘tip’, ‘warning’, ‘caution’]

import LinkPreview from '@/components/LinkPreview.astro' // [!code --]
import { LinkPreview } from 'astro-pure/advanced' // [!code ++]
<LinkPreview href='https://www.baidu.com/' />

The astro-theme-pure theme is open source under the Apache 2.0 license. Please abide by this license for any further development.

基于这样的条件限制, 又加上对现实世界的观察: 绝大多数的查询都是针对那些根本不存在于集合中的元素.
1970年,布隆过滤器由 Burton Howard Bloom 提出,旨在解决大规模数据集中的集合成员关系测试问题。随着互联网和大数据技术的发展,布隆过滤器逐渐被广泛应用于缓存系统、数据库、网络安全等领域。

Space/Time Trade-offs in Hash Coding with Allowable Errors

1970 5,642 citations Burton Howard Bloom
Bloom Filter Data Structure Algorithm
Article
View >>
No.01

Space/Time Trade-offs in Hash Coding with Allowable Errors

1970 5,642 citations 上野千鹤子, 山田太郎
Bloom Filter Data Structure Algorithm
No.01
  1. 为什么布隆过滤器会被发明?
  • 在处理大规模数据集时,传统的集合数据结构(如哈希表、树等)在空间和时间上都存在一定的局限性。布隆过滤器通过使用多个哈希函数和位数组来实现高效的集合成员关系测试。
  1. 布隆过滤器的核心思想是什么?
  • 布隆过滤器的核心思想是使用多个哈希函数将元素映射到一个位数组中,通过检查位数组中的位来判断元素是否在集合中。
  1. 布隆过滤器的主要应用场景有哪些?
  • 布隆过滤器广泛应用于缓存系统、数据库、网络安全、分布式系统等领域,尤其是在处理大规模数据集时,可以显著提高空间效率和查询速度。
  1. 布隆过滤器的局限性是什么?
  • 布隆过滤器的主要局限性在于它允许一定的误判率,即可能会错误地判断一个元素在集合中,但绝不会漏掉一个实际存在的元素。
  • 此外,布隆过滤器无法删除元素,因为删除操作可能会导致误判率增加。
  1. 布隆过滤器的变种有哪些?
  • 布隆过滤器有多种变种,如计数布隆过滤器(支持删除操作)、分布式布隆过滤器(适用于分布式系统)等。这些变种在原有布隆过滤器的基础上进行了优化和扩展。
  1. 布隆过滤器在实际应用中有哪些优势?
  • 布隆过滤器在实际应用中具有以下优势:
    • 空间效率高:相比于传统的集合数据结构,布隆过滤器使用更少的内存来存储相同数量的元素。
    • 查询速度快:布隆过滤器的查询操作非常快速,通常是常数时间复杂度。
    • 适用于大规模数据集:布隆过滤器特别适合处理大规模数据集,可以显著提高查询效率和空间利用率。
  1. 布隆过滤器的未来发展方向是什么?
  • 随着大数据和云计算技术的发展,布隆过滤器的应用领域将继续扩展。未来的研究可能集中在以下几个方面:
    • 误判率优化:研究如何降低布隆过滤器的误判率,提高查询准确性。
    • 动态调整:开发动态调整布隆过滤器大小和哈希函数数量的算法,以适应数据集的变化。
    • 分布式应用:研究如何在分布式系统中高效地实现布隆过滤器,以支持大规模数据处理和查询。
  1. 布隆过滤器在机器学习中的应用有哪些?
  • 在机器学习中,布隆过滤器可以用于特征选择、数据预处理等任务。例如,在处理大规模文本数据时,可以使用布隆过滤器来快速判断某个词是否在特定的词汇表中,从而提高特征提取的

什么是 Bloom Filter#

布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,用于测试一个元素是否属于一个集合。它允许一定的误判率,即可能会错误地判断一个元素在集合中,但绝不会漏掉一个实际存在的元素。布隆过滤器的主要特点是:

  • 空间效率高:相比于传统的集合数据结构,布隆过滤器使用更少的内存来存储相同数量的元素。
  • 查询速度快:布隆过滤器的查询操作非常快速,通常是常数时间复杂度。
5 collapsed lines
// All this boilerplate setup code will be collapsed
import { someBoilerplateEngine } from '@example/some-boilerplate'
import { evenMoreBoilerplate } from '@example/even-more-boilerplate'
const engine = someBoilerplateEngine(evenMoreBoilerplate())
// This part of the code will be visible by default
engine.doSomething(1, 2, 3, calcFn)
function calcFn() {
// You can have multiple collapsed sections
3 collapsed lines
const a = 1
const b = 2
const c = a + b
// This will remain visible
console.log(`Calculation result: ${a} + ${b} = ${c}`)
return c
}
4 collapsed lines
// All this code until the end of the block will be collapsed again
engine.closeConnection()
engine.freeMemory()
engine.shutdown({ reason: 'End of example boilerplate code' })
// Line 1 - targeted by line number
// Line 2
// Line 3
// Line 4 - targeted by line number
// Line 5
// Line 6
// Line 7 - targeted by range "7-8"
// Line 8 - targeted by range "7-8"
labeled-line-markers.jsx
<button
role="button"
{...props}
value={value}
className={buttonClassName}
disabled={disabled}
active={active}
>
{children &&
!active &&
(typeof children === 'string' ? <span>{children}</span> : children)}
</button>
// This code block will show line numbers
console.log('Greetings from line 2!')
console.log('I am on line 3')
// Line numbers are disabled for this block
console.log('Hello?')
console.log('Sorry, do you know what line I am on?')
// Line numbers are disabled for this block
console.log('Hello?')
console.log('Sorry, do you know what line I am on?')
概率数据结构-Bloom Filter
https://8cat.life/blog/coding/bloom_filter
CCM Author CCM
Published at July 15, 2025