大模型底层
一、大模型基础认知
1.1 开源模型本质
1.1.1 核心构成
- 模型权重文件(.bin/.safetensors):浮点数参数集合
- 模型结构代码:网络计算逻辑
- 分词器配置:词汇表+分词规则
1.1.2 本质定位
- 不是可执行程序,是数据+数学函数
- 开源模型是白盒子,结构参数可查看修改
1.1.3 不同模态模型共性
- 底层均为神经网络+矩阵运算
- 区别:输入输出模态、网络结构、训练数据
1.2 黑盒子误区澄清
- 结构透明:非黑盒
- 机理难解释:参数作用无法完全拆解
- 可操作:查看、修改结构与参数(非重训练)
二、核心组件详解(必含三层)
2.1 分词器 Tokenizer
2.1.1 作用
- 文字→Token ID
2.1.2 实现方式
- 词汇表 Vocab:词与ID的固定对照表
- 分词算法:BPE/WordPiece/Unigram
2.1.3 ID规则
- 算法统计生成,非人工设定
- 高频词汇ID更小
2.1.4 特性
- 训练前固定,后续不可变更
- 所有文本大模型必备组件
2.2 Embedding层(查表层)
2.2.1 作用
- Token ID→向量
2.2.2 组成
- 词嵌入:词汇语义向量
- 位置嵌入:标记文字顺序
2.2.3 特性
- 模型训练得到的参数矩阵
- 仅做查表转换,无语义理解
2.3 Transformer网络层
2.3.1 核心功能
- 上下文关联计算
2.3.2 核心机制
- 多头注意力机制:权重关联上下文
- 前馈网络:非线性特征加工
2.3.3 特性
- 多层堆叠(32/80层)
- 模型的语义理解核心
2.4 输出层(补充组件)
2.4.1 线性层
- 向量映射至词汇表维度
2.4.2 Softmax
- 转换为下一个Token概率分布
三、自回归模型(GPT/千问)工作流程
3.1 输入处理阶段
- 用户输入文本
- Tokenizer分词→Token ID序列
- Embedding层→词向量+位置向量
3.2 计算推理阶段
- 向量输入多层Transformer
- 因果掩码:仅能查看前文
- 网络加工上下文语义
3.3 生成输出阶段
- 最后位置向量输出
- 线性+Softmax→Token概率
- 采样选取下一个Token
3.4 循环生成阶段
- 新Token拼入输入序列
- 重复上述流程至结束符
3.5 自回归定义
- 自身生成内容作为后续输入
四、Embedding模型与对话模型区别
4.1 Embedding模型
- 输出:固定长度语义向量
- 用途:语义搜索、相似度匹配
4.2 对话大模型
- 输出:下一个Token概率
- 用途:聊天、创作、问答
4.3 共性
- 均包含Tokenizer+Embedding+Transformer
4.4 差异
- 训练目标不同
- 输出层设计不同
五、模型安全与风险澄清
5.1 模型本身安全性
5.1.1 绝对安全
- 纯参数数据,无执行能力
- 无法像木马一样破坏系统
- 无法读写文件、联网、执行指令
5.1.2 无恶意能力
- 不会主动攻击设备
- 不会自我复制传播
5.2 真实风险来源
5.2.1 恶意加载代码
- 脚本夹带系统指令
- 框架后门窃取数据
5.2.2 模型内容风险
- 生成诈骗、攻击话术
- 输出有害内容
5.2.3 风险本质
- 风险在运行代码,不在模型参数
六、关键总结
6.1 核心结论
- 大模型=分词器+Embedding+Transformer+输出层
- 自回归=逐Token预测循环生成
- 模型是数据,程序是运行载体
6.2 常见误区纠正
- 不是黑盒子,是复杂数学机器
- 可查看修改结构,不可自主运行
- 无害≠运行代码无害