中意知识网 中意知识网

当前位置: 首页 » 艺术生活 »

新书推荐 | 向量数据库:大模型驱动的智能检索与应用

《向量数据库:大模型驱动的智能检索与应用》

1

本书内容

《向量数据库:大模型驱动的智能检索与应用》系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。《向量数据库:大模型驱动的智能检索与应用》分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。

2

本书作者

3

本书读者

《向量数据库:大模型驱动的智能检索与应用》不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的工程师,数据科学、人工智能及相关领域的从业者、研究人员,以及对向量数据库与相似性搜索感兴趣的读者,也可作为培训机构和高校相关课程的教学用书

4

本书目录

目 录

第1部分 理论基础

第1章 为何需要向量数据库3

1.1 大语言模型的缺陷3

1.1.1 高维向量表示中的信息丢失问题3

1.1.2 嵌入空间对语义相似度的误差影响8

1.2 高维数据存储与检索的技术瓶颈11

1.2.1 高维数据的特性与存储难点分析11

1.2.2 高维空间中的“维度诅咒”问题简介12

1.2.3 高效检索:索引结构与搜索算法简介14

1.3 传统数据库与向量数据库的对比分析15

1.3.1 传统数据库的设计原理与局限性15

1.3.2 高维向量检索在传统数据库中的实现难点16

1.3.3 传统数据库与向量数据库的性能对比分析17

1.4 向量数据库的优势19

1.5 本章小结20

1.6 思考题21

第2章 向量数据库基础22

2.1 向量数据库的核心概念与基本数据结构22

2.1.1 向量数据库的定义与发展背景22

2.1.2 向量数据库常见的数据结构:倒排索引、图索引与分区技术23

2.1.3 向量数据库与传统数据库逻辑对比26

2.2 特征提取与向量表示:从数据到高维坐标系28

2.2.1 特征提取的基本方法28

2.2.2 嵌入向量生成31

2.2.3 数据预处理对向量质量的影响32

2.3 高维空间特性与“维度诅咒”问题解析34

2.3.1 高维空间中的稀疏性与数据分布特性34

2.3.2 距离度量的退化:欧氏距离与余弦相似度36

2.3.3 维度诅咒:降维与索引优化38

2.4 本章小结39

2.5 思考题40

第2部分 核心技术与算法原理

第3章 向量嵌入43

3.1 静态向量嵌入43

3.1.1 传统词向量模型:Word2Vec与GloVe43

3.1.2 静态嵌入的局限性:语义多义性与上下文缺失46

3.1.3 静态向量嵌入在特定领域的应用48

3.2 动态向量嵌入50

3.2.1 动态词向量的生成:BERT与GPT的嵌入机制50

3.2.2 动态嵌入的优势:上下文敏感性与语义一致性53

3.2.3 动态向量嵌入的实时生成与优化55

3.3 均匀分布与空间覆盖率57

3.3.1 高维向量分布分析57

3.3.2 嵌入向量的均匀性测量方法59

3.3.3 空间覆盖率对检索性能的影响61

3.4 嵌入向量优化63

3.4.1 主成分分析与奇异值分解的降维应用63

3.4.2 t-SNE与UMAP降维技术65

3.4.3 降维对嵌入语义保留与性能的权衡分析67

3.5 本章小结70

3.6 思考题70

第4章 向量相似性搜索初步72

4.1 基于暴力搜索的向量相似性检索72

4.1.1 暴力搜索的原理与实现72

4.1.2 暴力搜索优化74

4.2 欧氏距离与余弦相似度77

4.2.1 距离与相似度的数学定义77

4.2.2 不同相似度指标的适用场景分析79

4.3 向量搜索的精度与召回率81

4.3.1 精度、召回率与F1评分的计算方法81

4.3.2 向量搜索性能提升方案84

4.4 本章小结87

4.5 思考题87

第5章 分层定位与局部敏感哈希89

5.1 HNSW的核心原理:图结构与分层搜索路径优化89

5.1.1 基于图结构的近邻搜索模型89

5.1.2 分层搜索路径的构建与更新93

5.1.3 HNSW索引时间复杂度分析96

5.2 局部敏感哈希的设计与性能调优99

5.2.1 哈希函数的设计与向量分区原理100

5.2.2 LSH桶化与参数调优103

5.2.3 LSH的内存占用与计算性能分析106

5.3 HNSW与LSH的具体应用108

5.3.1 HNSW在推荐系统中的应用109

5.3.2 LSH在文本和图像检索中的应用114

5.3.3 HNSW与LSH的组合应用:多模态检索实例117

5.4 本章小结121

5.5 思考题121

第6章 LSH搜索优化123

6.1 BallTree算法的工作原理123

6.1.1 BallTree的节点分割与索引构建123

6.1.2 BallTree查询过程与复杂度分析126

6.2 Annoy搜索算法130

6.2.1 Annoy的索引结构设计与分区原理130

6.2.2 Annoy在大规模向量检索中的性能优化131

6.3 随机投影在LSH中的应用136

6.3.1 随机投影的数学基础136

6.3.2 随机投影在高维数据降维与检索中的实际应用138

6.3.3 随机投影在用户画像降维与检索中的应用140

6.4 本章小结143

6.5 思考题143

第3部分 工具与系统构建

第7章 相似性测量初步147

7.1 从曼哈顿距离到切比雪夫距离147

7.1.1 曼哈顿距离的几何意义与公式推导147

7.1.2 切比雪夫距离在棋盘模型中的应用149

7.1.3 不同距离度量的适用场景分析151

7.2 相似性测量的时间复杂度与优化153

7.2.1 向量间距离计算的时间复杂度分析153

7.2.2 减少距离计算的分区优化技术155

7.2.3 并行化与硬件加速在相似性测量中的应用157

7.2.4 广告分发系统案例:基于相似性测量的高效推荐159

7.3 本章小结163

7.4 思考题163

第8章 测量进阶:点积相似度与杰卡德相似度165

8.1 点积相似度测量165

8.1.1 点积相似度测量实现165

8.1.2 点积相似度在推荐系统中的应用案例167

8.1.3 点积相似度在医疗领域的应用案例:患者治疗方案匹配170

8.2 杰卡德相似度在稀疏向量中的应用173

8.2.1 稀疏向量的构造与稀疏性分析173

8.2.2 杰卡德相似度案例分析175

8.2.3 基于杰卡德相似度的犯罪嫌疑人关系网络分析177

8.3 跨模态医疗数据相似性分析与智能诊断系统180

8.4 本章小结187

8.5 思考题187

第9章 元数据过滤与犯罪行为分析系统189

9.1 元数据与向量检索189

9.1.1 元数据在混合检索中的作用189

9.1.2 元数据标签的定义与标准化191

9.1.3 智能多条件推荐系统192

9.2 多条件检索实现195

9.2.1 多维度条件组合检索195

9.2.2 基于元数据优先级的排序算法197

9.2.3 基于元数据的酒店智能化推荐案例分析199

9.3 元数据索引的构建与优化204

9.3.1 元数据索引构建204

9.3.2 动态元数据的更新与重建206

9.4 实时检索与元数据缓存208

9.4.1 基于缓存的高性能检索架构209

9.4.2 元数据缓存失效与一致性管理211

9.5 基于元数据的犯罪行为分析与实时预警系统213

9.5.1 模块开发划分213

9.5.2 逐模块开发214

9.5.3 犯罪分析与预警系统综合测试223

9.6 本章小结227

9.7 思考题227

第10章 FAISS向量数据库开发基础229

10.1 FAISS库的安装与快速上手229

10.1.1 FAISS初步开发以及CPU、GPU的版本差异229

10.1.2 加载数据与基本查询示例232

10.2 基于FAISS的索引构建与参数调整234

10.2.1 不同索引类型:Flat、IVF与HNSW234

10.2.2 参数调整对搜索精度与速度的影响236

10.3 大规模向量搜索的分片与分布式实现238

10.3.1 数据分片与动态分片239

10.3.2 基于分布式框架的FAISS部署241

10.4 FAISS中的内存优化与GPU加速243

10.4.1 压缩索引与量化技术244

10.4.2 多GPU的并行处理245

10.5 本章小结247

10.6 思考题247

第11章 Milvus向量数据库开发基础249

11.1 Milvus的架构设计与功能模块解析249

11.1.1 Milvus的初步使用及集群架构与组件通信249

11.1.2 数据分区与高可用设计253

11.2 使用Milvus进行向量插入、检索与过滤255

11.2.1 向量数据预处理与批量插入255

11.2.2 复杂查询条件实现257

11.3 Milvus的索引类型与性能调优259

11.3.1 索引类型的选择与适用场景分析259

11.3.2 并行优化与索引更新261

11.4 Milvus在企业级应用中的部署与扩展方案264

11.4.1 基于容器化的高可用部署264

11.4.2 动态扩展与监控集成方案267

11.5 本章小结269

11.6 思考题269

第4部分 实战与案例分析

第12章 基于FAISS的自动驾驶泊车数据检索系统273

12.1 项目背景介绍273

12.1.1 系统架构273

12.1.2 应用流程274

12.1.3 案例特色275

12.2 模块划分275

12.3 模块化开发276

12.3.1 数据预处理模块276

12.3.2 向量生成模块278

12.3.3 索引构建与存储模块281

12.3.4 实时检索模块282

12.3.5 动态更新模块284

12.3.6 系统监控与优化模块286

12.4 系统综合测试288

12.5 API接口开发与云端部署291

12.5.1 API接口开发291

12.5.2 云端部署完整系统294

12.6 本章小结298

12.7 思考题298

第13章 基于语义搜索的向量数据库开发实战301

13.1 语义嵌入生成与优化301

13.1.1 使用预训练模型生成语义向量嵌入301

13.1.2 动态分词与文本预处理303

13.1.3 领域微调技术305

13.2 构建向量索引与语义检索框架308

13.2.1 选择合适的向量索引类型308

13.2.2 构建Milvus向量索引310

13.2.3 语义向量检索与关键词过滤313

13.2.4 结合元数据与筛选条件实现多维度语义搜索315

13.3 语义搜索系统的性能调优318

13.3.1 GPU加速优化检索319

13.3.2 批量查询与异步IO技术320

13.3.3 实现基于分布式架构的语义搜索系统322

13.4 企业级语义搜索应用集成与部署325

13.4.1 构建语义搜索RESTful接口325

13.4.2 使用Docker与Kubernetes实现语义搜索系统的容器化327

13.4.3 日志监控与错误诊断模块329

13.4.4 基于语义搜索的文档检索系统集成与部署332

13.4.5 大型图书馆图书检索的测试案例335

13.5 本章小结337

13.6 思考题337

5

本书特色

本文摘自《向量数据库:大模型驱动的智能检索与应用》,获出版社和作者授权发布。

未经允许不得转载: 中意知识网 » 新书推荐 | 向量数据库:大模型驱动的智能检索与应用