Embedding space and rag,llm

向量空间对大模型&知识库上限的影响

一、核心结论总览

1.1 向量空间与上限关系

向量空间设计决定能力天花板

数据与训练决定接近上限的程度

1.2 向量空间来源

人为设计(骨架)

数据训练(血肉)

二、向量空间的两类核心场景

2.1 大模型内部隐层向量空间

Token 映射为隐层状态

决定模型理解、推理、生成上限

2.2 Embedding 检索向量空间

文本/图像映射为固定维度向量

决定知识库召回精度上限

三、向量空间的构成:人为设计 VS 数据训练

3.1 人为设计部分(自上而下)

3.1.1 模型架构设计

Transformer 结构(层数、头数、d_model)
归一化(LayerNorm/RMSNorm)
残差连接、位置编码(RoPE等)

3.1.2 Embedding 工程设计

向量维度(768/1024/1536)
L2归一化、余弦相似度
池化方式(CLS/均值池化)

3.1.3 训练目标设计

预训练(MLM、NSP)
对比学习(SimCSE、E5、BGE)
对齐训练(DPO、PPO)

3.1.4 系统工程设计

文本分块(Chunk)策略
检索召回与重排机制

3.2 数据训练部分(自下而上)

语义关系学习(相似内容空间靠近)

世界知识与领域知识编码

数据质量影响空间规整度

训练充分度决定收敛效果

四、上限决定机制

4.1 上限锁死因素

向量维度不足

模型架构过于简单

训练目标与任务不匹配

Embedding 空间设计不合理

4.2 影响上限发挥的因素

训练数据规模与质量

训练收敛程度

知识库构建工程(切分、索引)

检索策略优劣

五、知识库+大模型工作流程原理

5.1 知识库构建流程(离线)

原始文档处理

文档清洗、去重、格式标准化

文本分块(Chunking)

按语义/长度/段落切分

Embedding 向量化

调用 Embedding 模型生成向量

向量库索引存储

构建 FAISS/Milvus 等索引

5.2 用户问答流程(在线)

用户问题输入

问题 Embedding 向量化

向量库检索召回

粗召回 → 重排精筛

相关知识片段拼接

大模型输入(Prompt+知识片段+问题)

大模型推理生成答案

答案输出给用户

5.3 双空间协同作用

Embedding 空间:精准找到知识

大模型隐空间:理解并使用知识

六、总结要点

设计定上限,训练定水平

人为设计与数据训练缺一不可

知识库+大模型双空间共同决定系统效果