良宏

好好学习，天天向上。

Home
About
Archives
Search
1. 暗色模式

Tech

Embedding space and rag,llm

向量空间对大模型&知识库上限的影响

一、核心结论总览

1.1 向量空间与上限关系

向量空间设计决定能力天花板

数据与训练决定接近上限的程度

1.2 向量空间来源

人为设计（骨架）

数据训练（血肉）

二、向量空间的两类核心场景

2.1 大模型内部隐层向量空间

Token 映射为隐层状态

决定模型理解、推理、生成上限

2.2 Embedding 检索向量空间

文本/图像映射为固定维度向量

决定知识库召回精度上限

三、向量空间的构成：人为设计 VS 数据训练

3.1 人为设计部分（自上而下）

3.1.1 模型架构设计

Transformer 结构（层数、头数、d_model）

归一化（LayerNorm/RMSNorm）

残差连接、位置编码（RoPE等）

3.1.2 Embedding 工程设计

向量维度（768/1024/1536）

L2归一化、余弦相似度

池化方式（CLS/均值池化）

3.1.3 训练目标设计

预训练（MLM、NSP）

对比学习（SimCSE、E5、BGE）

对齐训练（DPO、PPO）

3.1.4 系统工程设计

文本分块（Chunk）策略

检索召回与重排机制

3.2 数据训练部分（自下而上）

语义关系学习（相似内容空间靠近）

世界知识与领域知识编码

数据质量影响空间规整度

训练充分度决定收敛效果

四、上限决定机制

4.1 上限锁死因素

向量维度不足

模型架构过于简单

训练目标与任务不匹配

Embedding 空间设计不合理

4.2 影响上限发挥的因素

训练数据规模与质量

训练收敛程度

知识库构建工程（切分、索引）

检索策略优劣

五、知识库+大模型工作流程原理

5.1 知识库构建流程（离线）

原始文档处理

文档清洗、去重、格式标准化

文本分块（Chunking）

按语义/长度/段落切分

Embedding 向量化

调用 Embedding 模型生成向量

向量库索引存储

构建 FAISS/Milvus 等索引

5.2 用户问答流程（在线）

用户问题输入

问题 Embedding 向量化

向量库检索召回

粗召回 → 重排精筛

相关知识片段拼接

大模型输入（Prompt+知识片段+问题）

大模型推理生成答案

答案输出给用户

5.3 双空间协同作用

Embedding 空间：精准找到知识

大模型隐空间：理解并使用知识

六、总结要点

设计定上限，训练定水平

人为设计与数据训练缺一不可

知识库+大模型双空间共同决定系统效果