llm-safe-or-blackbox

大模型底层

一、大模型基础认知

1.1 开源模型本质

1.1.1 核心构成

  • 模型权重文件(.bin/.safetensors):浮点数参数集合
  • 模型结构代码:网络计算逻辑
  • 分词器配置:词汇表+分词规则

1.1.2 本质定位

  • 不是可执行程序,是数据+数学函数
  • 开源模型是白盒子,结构参数可查看修改

1.1.3 不同模态模型共性

  • 底层均为神经网络+矩阵运算
  • 区别:输入输出模态、网络结构、训练数据

1.2 黑盒子误区澄清

  • 结构透明:非黑盒
  • 机理难解释:参数作用无法完全拆解
  • 可操作:查看、修改结构与参数(非重训练)

二、核心组件详解(必含三层)

2.1 分词器 Tokenizer

2.1.1 作用

  • 文字→Token ID

2.1.2 实现方式

  • 词汇表 Vocab:词与ID的固定对照表
  • 分词算法:BPE/WordPiece/Unigram

2.1.3 ID规则

  • 算法统计生成,非人工设定
  • 高频词汇ID更小

2.1.4 特性

  • 训练前固定,后续不可变更
  • 所有文本大模型必备组件

2.2 Embedding层(查表层)

2.2.1 作用

  • Token ID→向量

2.2.2 组成

  • 词嵌入:词汇语义向量
  • 位置嵌入:标记文字顺序

2.2.3 特性

  • 模型训练得到的参数矩阵
  • 仅做查表转换,无语义理解

2.3 Transformer网络层

2.3.1 核心功能

  • 上下文关联计算

2.3.2 核心机制

  • 多头注意力机制:权重关联上下文
  • 前馈网络:非线性特征加工

2.3.3 特性

  • 多层堆叠(32/80层)
  • 模型的语义理解核心

2.4 输出层(补充组件)

2.4.1 线性层

  • 向量映射至词汇表维度

2.4.2 Softmax

  • 转换为下一个Token概率分布

三、自回归模型(GPT/千问)工作流程

3.1 输入处理阶段

  1. 用户输入文本
  2. Tokenizer分词→Token ID序列
  3. Embedding层→词向量+位置向量

3.2 计算推理阶段

  1. 向量输入多层Transformer
  2. 因果掩码:仅能查看前文
  3. 网络加工上下文语义

3.3 生成输出阶段

  1. 最后位置向量输出
  2. 线性+Softmax→Token概率
  3. 采样选取下一个Token

3.4 循环生成阶段

  • 新Token拼入输入序列
  • 重复上述流程至结束符

3.5 自回归定义

  • 自身生成内容作为后续输入

四、Embedding模型与对话模型区别

4.1 Embedding模型

  • 输出:固定长度语义向量
  • 用途:语义搜索、相似度匹配

4.2 对话大模型

  • 输出:下一个Token概率
  • 用途:聊天、创作、问答

4.3 共性

  • 均包含Tokenizer+Embedding+Transformer

4.4 差异

  • 训练目标不同
  • 输出层设计不同

五、模型安全与风险澄清

5.1 模型本身安全性

5.1.1 绝对安全

  • 纯参数数据,无执行能力
  • 无法像木马一样破坏系统
  • 无法读写文件、联网、执行指令

5.1.2 无恶意能力

  • 不会主动攻击设备
  • 不会自我复制传播

5.2 真实风险来源

5.2.1 恶意加载代码

  • 脚本夹带系统指令
  • 框架后门窃取数据

5.2.2 模型内容风险

  • 生成诈骗、攻击话术
  • 输出有害内容

5.2.3 风险本质

  • 风险在运行代码,不在模型参数

六、关键总结

6.1 核心结论

  • 大模型=分词器+Embedding+Transformer+输出层
  • 自回归=逐Token预测循环生成
  • 模型是数据,程序是运行载体

6.2 常见误区纠正

  • 不是黑盒子,是复杂数学机器
  • 可查看修改结构,不可自主运行
  • 无害≠运行代码无害