update C6
This commit is contained in:
@@ -766,7 +766,7 @@ trainer.save_model()
|
||||
|
||||
具体而言,其在预训练模型每层中插入用于下游任务的参数,即 Adapter 模块,在微调时冻结模型主体,仅训练特定于任务的参数。
|
||||
|
||||

|
||||

|
||||
|
||||
每个 Adapter 模块由两个前馈子层组成,第一个前馈子层将 Transformer 块的输出作为输入,将原始输入维度 $d$ 投影到 $m$,通过控制 $m$ 的大小来限制 Adapter 模块的参数量,通常情况下 $m << d$。在输出阶段,通过第二个前馈子层还原输入维度,将 $m$ 重新投影到 $d$,作为 Adapter 模块的输出(如上图右侧结构)。
|
||||
|
||||
@@ -815,7 +815,7 @@ $$h = W_0 x + \Delta W x = W_0 x + B A x$$
|
||||
|
||||
训练思路如图:
|
||||
|
||||

|
||||

|
||||
|
||||
#### (2)应用于 Transformer
|
||||
|
||||
|
||||
Reference in New Issue
Block a user