ChatGLM2-6B 训练参数解释

全屏阅读

基本信息

作者：mpxq168
作者已发布：974篇文章
发布时间：2024年01月06日 22:30:12
所属分类：ChatGLM
阅读次数：541次阅读
评论次数：0次评论
标签：

Num examples = 243

Num Epochs = 100 Instantaneous batch size per device = 4

Total train batch size (w. parallel, distributed & accumulation) = 16

Gradient Accumulation steps = 4

Total optimization steps = 1,500

Number of trainable parameters = 1,949,696

这些参数是深度学习模型训练过程中的一些关键设置。我来为你逐一解释：

Num examples = 243: 这表示在你的训练集中有243个样本，即243个独立的数据点用于训练模型。

Num Epochs = 100: 一个epoch指的是模型在训练过程中遍历整个训练集一次。因此，Num Epochs = 100意味着模型会遍历整个训练集100次。

Instantaneous batch size per device = 4: 在深度学习中，我们通常不会同时处理所有的训练样本，而是将它们分成“批次”进行处理。每个批次的大小就是每次模型训练的样本数量。在这个例子中，每个设备上的即时批量大小为4，意味着每个设备一次处理4个样本。

Total train batch size (w. parallel, distributed & accumulation) = 16: 这表示在并行、分布式和积累情况下，总的训练批次大小为16。这可能意味着在多个设备上同时进行训练，每个设备处理一部分批次，然后把这些批次加起来，总和为16。

Gradient Accumulation steps = 4: 梯度累积是一种在内存不足的情况下训练大模型的技巧。它的工作原理是：在进行反向传播并更新模型权重之前，先计算并累积一定步数的梯度。在这个例子中，我们在每4个批次后进行一次权重更新。

Total optimization steps = 1,500: 优化步数是模型训练过程中权重更新的总次数。在这个例子中，模型权重将被更新1500次。

Number of trainable parameters = 1,949,696: 这是模型中可以通过训练改变的参数的数量。深度学习模型的性能通常与其可训练参数的数量有关。但是，更多的参数并不总是意味着更好的性能，因为过多的参数可能导致过拟合，即模型过于复杂，不能很好地泛化到训练集之外的新数据。

"add_bias_linear": false,

"add_qkv_bias": true,

"apply_query_key_layer_scaling": true,

"apply_residual_connection_post_layernorm": false,

"architectures": [

"ChatGLMModel"

"attention_dropout": 0.0,

"attention_softmax_in_fp32": true,

"auto_map": {

"AutoConfig": "configuration_chatglm.ChatGLMConfig",

"AutoModel": "modeling_chatglm.ChatGLMForConditionalGeneration",

"AutoModelForSeq2SeqLM": "modeling_chatglm.ChatGLMForConditionalGeneration"

"bias_dropout_fusion": true,

"eos_token_id": 2,

"ffn_hidden_size": 13696,

"fp32_residual_connection": false,

"hidden_dropout": 0.0,

"hidden_size": 4096,

"kv_channels": 128,

"layernorm_epsilon": 1e-05,

"model_type": "chatglm",

"multi_query_attention": true,

"multi_query_group_num": 2,

"num_attention_heads": 32,

"num_layers": 28,

"original_rope": true,

"pad_token_id": 2,

"padded_vocab_size": 65024,

"post_layer_norm": true,

"quantization_bit": 0,

"rmsnorm": true,

"seq_length": 32768,

"tie_word_embeddings": false,

"torch_dtype": "float16",

"transformers_version": "4.30.2",

"use_cache": true

这些参数是深度学习模型配置的详细设置，特别是对于一种称为ChatGLM的模型。以下是每个参数的含义：

"add_bias_linear": false: 表示是否在线性层中添加偏置项。

"add_qkv_bias": true: 表示是否在注意力机制的查询（Q）、键（K）和值（V）计算中添加偏置项。

"apply_query_key_layer_scaling": true: 表示是否对注意力机制中的查询和键进行缩放处理。

"apply_residual_connection_post_layernorm": false: 表示是否在层归一化后应用残差连接。

"architectures": ["ChatGLMModel"]: 表示该配置用于的模型架构。

"attention_dropout": 0.0: 表示在注意力计算中应用的dropout的比率。Dropout是一种防止模型过拟合的技术。

"attention_softmax_in_fp32": true: 表示是否在单精度浮点格式（FP32）中执行注意力机制的Softmax计算。

"auto_map": 这部分将自动配置，模型映射到ChatGLM的配置和模型。

"bias_dropout_fusion": true: 表示是否融合偏置和dropout。这通常用于优化和提高训练速度。

"eos_token_id": 2: 定义结束符（End of Sentence）的标识符。

"ffn_hidden_size": 13696: 表示前馈神经网络（Feedforward Neural Network，FFN）的隐藏层的大小。

"fp32_residual_connection": false: 表示是否在单精度浮点格式（FP32）中应用残差连接。

"hidden_dropout": 0.0: 隐藏层的dropout率。

"hidden_size": 4096: 隐藏层的大小。

"kv_channels": 128: 键值（Key-Value）的通道数。

"layernorm_epsilon": 1e-05: 层归一化的epsilon值，为了防止除数为零。

"model_type": "chatglm": 模型类型。

"multi_query_attention": true: 表示是否使用多查询注意力。

"multi_query_group_num": 2: 在多查询注意力中的查询组数。

"num_attention_heads": 32: 注意力机制的头数。

"num_layers": 28: 模型的层数。

"original_rope": true: 是否使用原始的ROPE模式。

"pad_token_id": 2: 定义填充符的标识符。

"padded_vocab_size": 65024: 表示经过填充后的词汇表大小。

"post_layer_norm": true: 是否在层后应用层归一化。

"quantization_bit": 0: 表示量化的位数。

"rmsnorm": true: 表示是否使用RMS归一化。

"seq_length": 32768: 序列长度。

"tie_word_embeddings": false: 是否绑定输入和输出的词嵌入。

"torch_dtype": "float16": 使用的数据类型，这里是半精度浮点数。

"transformers_version": "4.30.2": 使用的Transformers库版本。

"use_cache": true: 是否使用缓存以加快计算速度。

请注意，上述解释中的一些参数可能在不同的上下文和模型中有所不同，因为它们是针对特定的ChatGLM模型进行解释的。

顶一下

(0)

100%

订阅回复

踩一下

(0)

100%

» 固定链接：恒富网 » 《ChatGLM2-6B 训练参数解释》

» 郑重声明：本文由mpxq168发布，所有内容仅代表个人观点。版权归恒富网和mpxq168共有，欢迎转载，但未经作者同意必须保留此段声明，并给出文章连接，否则保留追究法律责任的权利! 如果本文侵犯了您的权益，请留言。

恒富网

ChatGLM2-6B 训练参数解释

目前有 0 条留言其中：访客:0 条, 博主:0 条

[点击申请] 友情链接

恒富网

ChatGLM2-6B 训练参数解释

目前有 0 条留言 其中：访客:0 条, 博主:0 条

[点击申请] 友情链接

目前有 0 条留言其中：访客:0 条, 博主:0 条