Tech Embedding space and rag,llm 向量空间对大模型&知识库上限的影响 一、核心结论总览 1.1 向量空间与上限关系 向量空间设计决定能力天花板 数据与训练决定接近上限的程度 1.2 向量空间来源 人为设计(骨架) 数据训练(血肉) 二、向量空间的两类核心场景 2.1 大模型内部隐层向量空间 Token 映射为隐层状态 决定模型理解、推理、生成上限 2.2 Embedding 检索向量空间 文本/图像映射为固定维度向量 决定知识库召回精度上限 三、向量空间的构成:人为设计 VS 数据训练 3.1 人为设计部分(自上而下) 3.1.1 模型架构设计 Transformer 结构(层数、头数、d_model) 归一化(LayerNorm/RMSNorm) 残差连接、位置编码(RoPE等) 3.1.2 Embedding 工程设计 向量维度(768/1024/1536) L2归一化、余弦相似度 池化方式(CLS/均值池化) 3.1.3 训练目标设计 预训练(MLM、NSP) 对比学习(SimCSE、E5、BGE) 对齐训练(DPO、PPO) 3.1.4 系统工程设计 文本分块(Chunk)策略 检索召回与重排机制 3.2 数据训练部分(自下而上) 语义关系学习(相似内容空间靠近) 世界知识与领域知识编码 数据质量影响空间规整度 训练充分度决定收敛效果 四、上限决定机制 4.1 上限锁死因素 向量维度不足 模型架构过于简单 训练目标与任务不匹配 Embedding 空间设计不合理 4.2 影响上限发挥的因素 训练数据规模与质量 训练收敛程度 知识库构建工程(切分、索引) 检索策略优劣 五、知识库+大模型工作流程原理 5.1 知识库构建流程(离线) 原始文档处理 文档清洗、去重、格式标准化 文本分块(Chunking) 按语义/长度/段落切分 Embedding 向量化 调用 Embedding 模型生成向量 向量库索引存储 构建 FAISS/Milvus 等索引 5.2 用户问答流程(在线) 用户问题输入 问题 Embedding 向量化 向量库检索召回 粗召回 → 重排精筛 相关知识片段拼接 大模型输入(Prompt+知识片段+问题) 大模型推理生成答案 答案输出给用户 5.3 双空间协同作用 Embedding 空间:精准找到知识 大模型隐空间:理解并使用知识 六、总结要点 设计定上限,训练定水平 人为设计与数据训练缺一不可 知识库+大模型双空间共同决定系统效果