Lec9 Data Structures in DB

 2026/02/13 

一些常用数据结构。

Bloom Filters

回答某一个元素是否存在于集合中。若布隆过滤器判断不存在，则元素一定不存在；反之，并不能确定元素一定存在于集合中/

布隆过滤器组成：

布隆过滤器插入元素：

布隆过滤器查询元素：

难以删除，删除条目需要重新构建。

跳表：在链表基础上对查询进行的改进，以将查询平均时间复杂度。等同于在有序链表基础上加入多级索引，通过这些索引能够快速访问底层链表的某些位置。

上述构建过程所得跳表，可以是查找时间复杂度降低为O(logn)，常被用于构建LSM Tree的Mem Table。

删除

如图所示，首先将K5删除标记为置为true，然后可以自顶向下开始，逐步使用cas将指向K5的指针修改，进而跳表物理结构得到修改。

最后确认无线程访问K5后，将其delete。

Trie结构：

带路径压缩的Trie，即Radix Tree（基数树），每层不再是比较单个字符，而可能是一连串字符串。

示例：

实现时可以对何时进行上层合并进行配置。

思路：对给定属性值中的子元素（术语）进行映射，此后可以对指定术语进行快速索引。

Lucene

Postgres

pg使用B+树用作术语字典，字典将映射到一个posting list。

posting list：形式随着其中record数量的变化而变化

此外还有一个pending list，即变更日志，用于降低字典更新频率。

向量检索：一种基于“语义向量相似度”的搜索方法。把文本、图片、音频等对象通过模型编码为高维向量（embedding），再用向量之间的距离/相似度来找“最相近”的内容。

目标：解决传统检索（倒排索引）中只能匹配字面词、无法匹配语义相同但字面不同的文本。

一些方法：

倒排文件（inverted file）：将所有向量以K-means或其他聚类方法分成小的group，使用相同的聚类算法将查询向量映射到某个group，然后扫描该group中的向量进行匹配，为了提高准确性，也可以额外扫描临近group；
小世界（small world）：构建图，其中途中每个节点代表一个向量，且具备n条边指向其邻居（图可以构建为多层），对于给定查询向量，其在同样可能被映射到某个位置，查询将从指定的入口节点开始，使用贪心算法记录那些距离查询向量更接近的节点，并在远离查询向量时停止。

原文作者：ying

CATALOG