当前位置：首页 > news >正文

WeNet环境配置与aishell模型训练

news 2025/7/6 5:50:19

WeNet环境配置与aishell模型训练

1环境配置

踩坑记录： 系统使用win11，我根据wenet官方文档，使用conda虚拟环境安装了cuda12.1，安装wenet依赖库，其中deepspeed报错，根据报错信息查询github，发现缺少libaio库，它通常在Linux系统上使用，根据githubu找到解决办法，重新编译了deepspeed，成功安装依赖。分析和运行wenet时发现，仍然有很多报错。随后我尝试在本机VMware+ubuntu22.04，wenet在不进行跑数据的情况下没有问题，开始数据测试后，发现VMware基于主机的显卡虚拟映射出了一个供uhuntu系统使用的显卡，这个显卡没有合适的驱动。随后查询到一个解决办法，显卡直连，尝试好几种博主的方法，均失败告终。

解决方法：已老实，求放过，使用带GPU的服务器，本文服务器使用ubuntu22.04。

1.1安装Miniconda

#下载
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_24.5.0-0-Linux-x86_64.sh
#安装：根据提示输入enter或yes
bash Miniconda3-py38_4.9.2-Linux-x86_64.sh
#验证：重启终端（必须），运行下方命令，显示版本号则安装成功
conda --version

1.2更换清华源

#在用户目录（/home/xxx）下新建.condarc文件
touch .condarc
#用vim打开.condarc文件，写入下方内容保存后退出
channels:- defaults
show_channel_urls: true
channel_alias: https://mirrors.tuna.tsinghua.edu.cn/anaconda
default_channels:- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmsys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudbioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudmenpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudpytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloudsimpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud#清除索引缓存conda clean -i#配置完毕，执行以下命令查看是否已经换源，可以看到已经更换为清华源了conda config --show

1.3在服务器中安装CUDA

踩坑记录：在此之前，我一直尝试的是在虚拟环境中使用conda install进行安装cudatoolkit，如果你使用的cuda版本过高，则无法使用清华源（最高11.8.0），初次尝试使用的cudatoolkit-11.3.1，安装完成后，使用nvcc -v不能显示cuda版本，使用conda list不能显示cudatoolkit，使用conda list cuda可以显示，查阅博客，没有找到答案。于是忽略此条继续配置，根绝conda search cudnn查看对应版本cudnn，随之conda install cudnn=8.2.1安装完成。随后使用conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch安装成功，随后进行相关python代码验证，均失败，conda list发现没有torch。于是忽略此条继续配置，随后根据requirements.txt进行pip，出现大量不兼容情况，主要是torch版本引起的，版本过高，因为官方文档使用的是cuda12.1对应的torch>=2.1.2。我降低torch版本，使其兼容。此时再次进行python代码验证均失败。

**解决方法：**采用在base环境中安装cuda，配置环境变量，即可使用nvcc。在虚拟环境中继续后续的配置，我在base环境中安装了cuda11.3和cuda12.1，wenet代码均可运行。使用cuda11.3，安装conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch，随后使用requirements.txt进行pip时，注意torch==2.1.2和torchaudio==2.1.2版本即可（已老实，求放过，这个方法我个人认为不是很完美，但是它让我的代码成功运行了起来）

本文采用wenet官方文档推荐的CUDA12.1

其他版本的CUDA配置方法可查看：CUDA and cuDNN — k2 1.24.4 documentation (k2-fsa.github.io)

#下载CUDA12.1 官方地址：https://developer.nvidia.com/cuda-toolkit-archive
wget https://developer.nvidia.com/cuda-12-2-1-download-archive
#安装，此处采用静默模式安装，交互模式可参考：https://blog.csdn.net/qq_46699596/article/details/134552021
sh ./cuda_12.1.1_530.30.02_linux.run \--silent \--toolkit \--installpath=/s6home/lnj524/module/cuda/cuda-12.1 \--no-opengl-libs \--no-drm \--no-man-page
#./cuda_12.1.1_530.30.02_linux.run：CUDA 12.1.1 的安装程序文件。
#--silent：以静默模式安装，不需要用户交互。
#--toolkit：只安装 CUDA Toolkit，而不安装其他组件（如驱动程序等）。
#--installpath=/home/xxx/module/cuda/cuda-12.1：指定安装路径。
#--no-opengl-libs：不安装 OpenGL 库。
#--no-drm：不安装 Direct Rendering Manager（DRM）模块。DRM 模块用于图形硬件加速的直接渲染。
#--no-man-page：不安装手册页。

#添加环境变量
vim ~/.bashrc
#将下方内容写入.bashrc 
export CUDA_HOME=/s6home/lnj524/module/cuda/cuda-12.1
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=$CUDA_HOME/extras/CUPTI/lib64:$LD_LIBRARY_PATH
export CUDAToolkit_ROOT_DIR=$CUDA_HOME
export CUDAToolkit_ROOT=$CUDA_HOMEexport CUDA_TOOLKIT_ROOT_DIR=$CUDA_HOME
export CUDA_TOOLKIT_ROOT=$CUDA_HOME
export CUDA_BIN_PATH=$CUDA_HOME
export CUDA_PATH=$CUDA_HOME
export CUDA_INC_PATH=$CUDA_HOME/targets/x86_64-linux
export CFLAGS=-I$CUDA_HOME/targets/x86_64-linux/include:$CFLAGS
export CUDAToolkit_TARGET_DIR=$CUDA_HOME/targets/x86_64-linux

#更新用户环境
source ~/.bashrc
#验证
nvcc -V
#到此cuda安装完成
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Mon_Apr__3_17:16:06_PDT_2023
Cuda compilation tools, release 12.1, V12.1.105
Build cuda_12.1.r12.1/compiler.32688072_0

1.3创建虚拟环境

#创建虚拟环境
conda create -n wenet python=3.10
#启动虚拟环境
conda activate wenet

1.4在虚拟环境中完成后续安装

#安装conda-forge::sox
conda install conda-forge::sox
#查看cuda对应的cudnn版本
conda search cudnn
#下载cudnn
conda install cudann=8.9.2.26
#配置pip清华源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
#查看pip源
pip config list
global.index-url='https://pypi.tuna.tsinghua.edu.cn/simple'
#安装torch和torchaudio,清华源中没有找个包，只能从官网下载，静静等待。
pip install torch==2.2.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.html
#根据requirements.txt安装其他其他依赖
pip install -r requirements.txt
#完成

1.5`aishell`模型训练

cd /s6home/lnj524/module/wenet/examples/aishell/s0
chmod +x run.sh
./run.sh --stage -1 #采用默认配置从数据集下载到完成模型训练。
./run.sh --stage 4 --stop_stage 4 #执行模型训练

2Wenet文件分析

2.1`run.sh`

下载数据（阶段 -1）此步骤将AIShell-1数据集下载到本地路径。这可能需要几个小时。如果已经下载了数据，请在 run.sh 脚本中调整 $data 变量，并从阶段0开始。请确保为 $data 设置绝对路径，例如 /home/username/asr-data/aishell/。
准备训练数据（阶段 0）将原始的AIShell-1数据组织成两个文件：
- wav.scp：每行包含两列，分别是 wav_id 和 wav_path。
- text：每行包含两列，分别是 wav_id 和 text_label。
提取可选的CMVN特征（阶段 1）使用原始的WAV文件作为输入。标准化文本标签，去除空格，在此步骤中，将训练的 wav.scp 和 text 文件复制到 raw_wav/train/ 目录中。使用 tools/compute_cmvn_stats.py 提取全局倒谱均值和方差归一化（CMVN）统计信息。
生成标签令牌字典（阶段 2）创建标签令牌（AIShell-1中的字符）与整数索引之间的映射。字典包括特殊令牌，如 <blank>（用于CTC）、<unk>（未知令牌）和 <sos/eos>（开始/结束语音）。
准备数据的所需格式（阶段 3）将数据转换为模型训练所需的格式。对于小型数据集，使用原始格式raw；对于大型数据集，使用shard，将数据分片以提高读取和训练速度。
模型训练（阶段 4）配置并启动模型训练。根据配置，选择使用DeepSpeed或Torch DDP进行分布式训练。这一步包含了设置分布式训练的各种参数，如节点数、每个节点的进程数、训练配置文件等。
模型评估（阶段 5）使用训练好的模型进行推理和评估，计算WER（Word Error Rate）。如果启用了模型平均，会首先对多个检查点进行平均以得到最终的评估模型。
导出模型（阶段 6）导出训练好的模型，生成可用于推理的模型文件。这一步通常包括导出标准模型和量化模型，以便在不同的设备和环境中进行高效推理。
语言模型准备和解码（阶段 7）准备语言模型和解码工具，进行语言模型的训练和解码。这包括生成字典、训练语言模型、编译FST（Finite State Transducer）图并进行解码测试。
使用HLG图进行解码（阶段 8）使用HLG（HMM-Lexicon-Grammar）图进行解码，以进一步提升模型的解码性能。这一步需要预先准备HLG图并进行推理和评估。
使用LF-MMI进行训练（阶段 9）使用LF-MMI（Lattice-Free Maximum Mutual Information）进行模型训练，以进一步优化模型性能。这一步包括准备LF-MMI所需的FST图，并在之前的基础上进行进一步的模型训练和评估。

#!/bin/bash# Copyright 2019 Mobvoi Inc. All Rights Reserved.
. ./path.sh || exit 1;# 自动检测 GPU 的数量
if command -v nvidia-smi &> /dev/null; then  # 检查 nvidia-smi 是否存在num_gpus=$(nvidia-smi -L | wc -l)  # 获取 GPU 的数量gpu_list=$(seq -s, 0 $((num_gpus-1)))  # 生成 GPU 列表，例如 "0,1,2,3"
elsenum_gpus=-1  # 如果没有检测到 GPU，则设置 num_gpus 为 -1gpu_list="-1"  # 设置默认 GPU 列表为 "-1"
fi# 您还可以手动指定 CUDA_VISIBLE_DEVICES
# 如果您不想使用所有可用的 GPU 资源，请手动设置 CUDA_VISIBLE_DEVICES
# export CUDA_VISIBLE_DEVICES="${gpu_list}"
export CUDA_VISIBLE_DEVICES="0,7"  # 手动设置使用 GPU 0 和 7
echo "CUDA_VISIBLE_DEVICES is ${CUDA_VISIBLE_DEVICES}"stage=0  # 从阶段0开始，如果需要从数据准备开始
stop_stage=5  # 停止阶段设置为5# 如果进行多机训练，您需要更改以下两个参数，
# 请参阅 https://pytorch.org/docs/stable/elastic/run.html
HOST_NODE_ADDR="localhost:0"  # 主节点地址
num_nodes=1  # 节点数量
job_id=2023  # 作业ID# AIShell 数据集位置，请将此路径更改为您自己的路径
# 请确保使用绝对路径，不要使用相对路径
data=/s6home/lnj524/module/data/opensource_data/aishell
data_url=www.openslr.org/resources/33  # 数据集下载地址nj=16  # 并行作业数量
dict=data/dict/lang_char.txt  # 字典文件路径# 数据类型可以是 `raw` 或 `shard`。通常，raw 用于小型数据集，
# shard 用于超过 1k 小时的大型数据集，shard 在读取数据和训练时更快。
data_type=raw  # 数据类型设置为 raw
num_utts_per_shard=1000  # 每个 shard 包含的 utt 数量train_set=train  # 训练集名称
# 可选的训练配置文件
# 1. conf/train_transformer.yaml: 标准 transformer
# 2. conf/train_conformer.yaml: 标准 conformer
# 3. conf/train_unified_conformer.yaml: 统一动态块因果 conformer
# 4. conf/train_unified_transformer.yaml: 统一动态块 transformer
# 5. conf/train_u2++_conformer.yaml: U2++ conformer
# 6. conf/train_u2++_transformer.yaml: U2++ transformer
# 7. conf/train_u2++_conformer.yaml: U2++ lite conformer，必须加载一个训练好的模型，并冻结编码器模块，否则会出现自动梯度错误
train_config=conf/train_conformer.yaml  # 选择训练配置文件
dir=exp/conformer  # 模型保存目录
tensorboard_dir=tensorboard  # Tensorboard 日志目录
checkpoint=  # 检查点文件
num_workers=8  # 数据加载线程数
prefetch=10  # 数据预取数量# 使用 average_checkpoint 将获得更好的结果
average_checkpoint=true  # 启用检查点平均
decode_checkpoint=$dir/final.pt  # 解码使用的检查点
average_num=30  # 平均的检查点数量
decode_modes="ctc_greedy_search ctc_prefix_beam_search attention attention_rescoring"  # 解码模式train_engine=torch_ddp  # 训练引擎deepspeed_config=conf/ds_stage2.json  # DeepSpeed 配置文件
deepspeed_save_states="model_only"  # DeepSpeed 保存状态. tools/parse_options.sh || exit 1;  # 解析脚本选项# 阶段 -1：数据下载
if [ ${stage} -le -1 ] && [ ${stop_stage} -ge -1 ]; thenecho "stage -1: Data Download"local/download_and_untar.sh ${data} ${data_url} data_aishell  # 下载并解压数据集local/download_and_untar.sh ${data} ${data_url} resource_aishell  # 下载并解压资源文件
fi# 阶段 0：数据准备
if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; thenlocal/aishell_data_prep.sh ${data}/data_aishell/wav \${data}/data_aishell/transcript  # 准备数据
fi# 阶段 1：文本标签处理和计算 CMVN 统计信息
if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then# 删除汉语数据集中文本标签之间的空格for x in train dev test; docp data/${x}/text data/${x}/text.org  # 备份原始文本标签文件paste -d " " <(cut -f 1 -d" " data/${x}/text.org) \<(cut -f 2- -d" " data/${x}/text.org | tr -d " ") \> data/${x}/text  # 删除空格后生成新文本标签文件rm data/${x}/text.org  # 删除备份文件donetools/compute_cmvn_stats.py --num_workers 16 --train_config $train_config \--in_scp data/${train_set}/wav.scp \--out_cmvn data/$train_set/global_cmvn  # 计算 CMVN 统计信息
fi# 阶段 2：生成字典文件
if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; thenecho "Make a dictionary"mkdir -p $(dirname $dict)  # 创建字典目录echo "<blank> 0" > ${dict}  # 为 CTC 生成 <blank> 标签echo "<unk> 1"  >> ${dict}  # 为未知标签生成 <unk>echo "<sos/eos> 2" >> $dict  # 为开始/结束生成 <sos/eos>tools/text2token.py -s 1 -n 1 data/train/text | cut -f 2- -d" " \| tr " " "\n" | sort | uniq | grep -a -v -e '^\s*$' | \awk '{print $0 " " NR+2}' >> ${dict}  # 生成标签令牌与整数索引的映射
fi# 阶段 3：准备数据的所需格式
if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; thenecho "Prepare data, prepare required format"for x in dev test ${train_set}; doif [ $data_type == "shard" ]; thentools/make_shard_list.py --num_utts_per_shard $num_utts_per_shard \--num_threads 16 data/$x/wav.scp data/$x/text \$(realpath data/$x/shards) data/$x/data.list  # 生成 shard 格式的数据列表elsetools/make_raw_list.py data/$x/wav.scp data/$x/text \data/$x/data.list  # 生成 raw 格式的数据列表fidone
fi# 阶段 4：模型训练
if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; thenmkdir -p $dir  # 创建模型保存目录num_gpus=$(echo $CUDA_VISIBLE_DEVICES | awk -F "," '{print NF}')  # 计算使用的 GPU 数量# 如果可用，使用 "nccl"，否则使用 "gloo"dist_backend="nccl"# train.py 将 $train_config 重写为 $dir/train.yaml，包括模型输入和输出维度# $dir/train.yaml 将用于推理和导出。if [ ${train_engine} == "deepspeed" ]; thenecho "$0: using deepspeed"elseecho "$0: using torch ddp"fi# 注：torchrun 可以同时启动 ddp 和 deepspeed# 为了统一单节点和多节点训练，我们添加了所有相关参数。# 您应该更改 `nnodes` 和 `rdzv_endpoint` 以进行多节点训练，# 参见 https://pytorch.org/docs/stable/elastic/run.html#usage# 和 https://github.com/wenet-e2e/wenet/pull/2055#issuecomment-1766055406# `rdzv_id` - 用户定义的 ID，用于唯一标识作业的工作组。# `rdzv_endpoint` - rendezvous 后端端点，通常形式为 <host>:<port>。# 注：在多节点训练中，一些集群需要在训练前设置特殊的 NCCL 变量。# 例如：`NCCL_IB_DISABLE=1` + `NCCL_SOCKET_IFNAME=enp` + `NCCL_DEBUG=INFO`# 如果没有 NCCL_IB_DISABLE=1# 运行时错误：NCCL 错误：内部错误，NCCL 版本 xxx# 如果没有 NCCL_SOCKET_IFNAME=enp  (IFNAME 可通过 `ifconfig` 获取)# 运行时错误：服务器套接字无法监听任何本地网络地址。服务器套接字无法绑定到 [::]:xxx# 参考：https://github.com/google/jax/issues/13559#issuecomment-1343573764echo "$0: num_nodes is $num_nodes, proc_per_node is $num_gpus"torchrun --nnodes=$num_nodes --nproc_per_node=$num_gpus \--rdzv_id=$job_id --rdzv_backend="c10d" --rdzv_endpoint=$HOST_NODE_ADDR \wenet/bin/train.py \--train_engine ${train_engine} \--config $train_config \--data_type  $data_type \--train_data data/$train_set/data.list \--cv_data data/dev/data.list \${checkpoint:+--checkpoint $checkpoint} \--model_dir $dir \--tensorboard_dir ${tensorboard_dir} \--ddp.dist_backend $dist_backend \--num_workers ${num_workers} \--prefetch ${prefetch} \--pin_memory \--deepspeed_config ${deepspeed_config} \--deepspeed.save_states ${deepspeed_save_states}
fi# 阶段 5：模型测试
if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then# 测试模型，请通过 --checkpoint 指定要测试的模型if [ ${average_checkpoint} == true ]; thendecode_checkpoint=$dir/avg_${average_num}.ptecho "do model average and final checkpoint is $decode_checkpoint"python wenet/bin/average_model.py \--dst_model $decode_checkpoint \--src_path $dir  \--num ${average_num} \--val_best  # 进行模型检查点平均fi# 请为统一流式和非流式模型指定 decoding_chunk_size。默认值为 -1，表示全块非流式推理。decoding_chunk_size=ctc_weight=0.3reverse_weight=0.5python wenet/bin/recognize.py --gpu 0 \--modes $decode_modes \--config $dir/train.yaml \--data_type $data_type \--test_data data/test/data.list \--checkpoint $decode_checkpoint \--beam_size 10 \--batch_size 32 \--blank_penalty 0.0 \--ctc_weight $ctc_weight \--reverse_weight $reverse_weight \--result_dir $dir \${decoding_chunk_size:+--decoding_chunk_size $decoding_chunk_size}for mode in ${decode_modes}; dopython tools/compute-wer.py --char=1 --v=1 \data/test/text $dir/$mode/text > $dir/$mode/wer  # 计算词错误率（WER）done
fi# 阶段 6：导出模型
if [ ${stage} -le 6 ] && [ ${stop_stage} -ge 6 ]; then# 导出最佳模型python wenet/bin/export_jit.py \--config $dir/train.yaml \--checkpoint $dir/avg_${average_num}.pt \--output_file $dir/final.zip \--output_quant_file $dir/final_quant.zip  # 导出量化模型
fi# 可选，您可以添加语言模型（LM）并在运行时测试。
if [ ${stage} -le 7 ] && [ ${stop_stage} -ge 7 ]; then# 7.1 准备字典unit_file=$dictmkdir -p data/local/dictcp $unit_file data/local/dict/units.txttools/fst/prepare_dict.py $unit_file ${data}/resource_aishell/lexicon.txt \data/local/dict/lexicon.txt  # 准备词典# 7.2 训练语言模型（LM）lm=data/local/lmmkdir -p $lmtools/filter_scp.pl data/train/text \$data/data_aishell/transcript/aishell_transcript_v0.8.txt > $lm/textlocal/aishell_train_lms.sh  # 训练语言模型# 7.3 构建解码 TLG 图tools/fst/compile_lexicon_token_fst.sh \data/local/dict data/local/tmp data/local/langtools/fst/make_tlg.sh data/local/lm data/local/lang data/lang_test || exit 1;# 7.4 运行时解码chunk_size=-1./tools/decode.sh --nj 16 \--beam 15.0 --lattice_beam 7.5 --max_active 7000 \--blank_skip_thresh 0.98 --ctc_weight 0.5 --rescoring_weight 1.0 \--chunk_size $chunk_size \--fst_path data/lang_test/TLG.fst \--dict_path data/lang_test/words.txt \data/test/wav.scp data/test/text $dir/final.zip \data/lang_test/units.txt $dir/lm_with_runtime  # 运行时解码# 请查看 $dir/lm_with_runtime 中的 WER
fi# 可选，您可以使用 k2 HLG 进行解码
if [ ${stage} -le 8 ] && [ ${stop_stage} -ge 8 ]; thenif [ ! -f data/local/lm/lm.arpa ]; thenecho "Please run prepare dict and train lm in Stage 7" || exit 1;fi# 8.1 构建解码 HLG 图required="data/local/hlg/HLG.pt data/local/hlg/words.txt"for f in $required; doif [ ! -f $f ]; thentools/k2/make_hlg.sh data/local/dict/ data/local/lm/ data/local/hlgbreakfidone# 8.2 使用 HLG 进行解码decoding_chunk_size=lm_scale=0.7decoder_scale=0.1r_decoder_scale=0.7decode_modes="hlg_onebest hlg_rescore"python wenet/bin/recognize.py --gpu 0 \--modes $decode_modes \--config $dir/train.yaml \--data_type $data_type \--test_data data/test/data.list \--checkpoint $decode_checkpoint \--beam_size 10 \--batch_size 16 \--blank_penalty 0.0 \--dict $dict \--word data/local/hlg/words.txt \--hlg data/local/hlg/HLG.pt \--lm_scale $lm_scale \--decoder_scale $decoder_scale \--r_decoder_scale $r_decoder_scale \--result_dir $dir \${decoding_chunk_size:+--decoding_chunk_size $decoding_chunk_size}for mode in ${decode_modes}; dopython tools/compute-wer.py --char=1 --v=1 \data/test/text $dir/$mode/text > $dir/$mode/wer  # 计算词错误率（WER）done
fi# 可选，您可以使用 k2 进行 LF-MMI 训练
# 基于 20210601_u2++_conformer_exp/final.pt，我们训练 50 轮，学习率为 1e-5
# 平均 10 个最佳模型，使用 HLG 解码，达到 4.11 的 CER
# 实际上，通过调整 lm_scale/decoder_scale/r_decoder_scale，可以达到更低的 CER
if [ ${stage} -le 9 ] && [ ${stop_stage} -ge 9 ]; then# 9.1 构建 LF-MMI 训练的二元 FSTtools/k2/prepare_mmi.sh data/train/ data/dev data/local/lfmmi# 9.2 从阶段 4 开始运行 LF-MMI 训练，修改 train.yaml 中的以下参数# model: k2_model# model_conf:#   lfmmi_dir data/local/lfmmi# 9.3 从阶段 8.2 运行 HLG 解码
fi

2.2训练配置文件train_conformer.yaml

# 网络架构
# 编码器相关设置
encoder: conformer
encoder_conf:output_size: 256    # 注意力机制的输出维度attention_heads: 4  # 注意力头的数量linear_units: 2048  # 位置前馈网络的隐藏层单元数num_blocks: 12      # 编码器块的数量dropout_rate: 0.1  # Dropout 概率，用于防止过拟合positional_dropout_rate: 0.1  # 位置编码的 Dropout 概率attention_dropout_rate: 0.0  # 注意力机制的 Dropout 概率input_layer: conv2d # 编码器的输入类型，可以选择 conv2d, conv2d6 和 conv2d8normalize_before: true  # 是否在每个子层之前应用层归一化cnn_module_kernel: 15  # CNN 模块的卷积核大小use_cnn_module: True  # 是否使用 CNN 模块activation_type: 'swish'  # 激活函数类型pos_enc_layer_type: 'rel_pos'  # 位置编码层的类型selfattention_layer_type: 'rel_selfattn'  # 自注意力层的类型# 解码器相关设置
decoder: transformer
decoder_conf:attention_heads: 4  # 注意力头的数量linear_units: 2048  # 位置前馈网络的隐藏层单元数num_blocks: 6  # 解码器块的数量dropout_rate: 0.1  # Dropout 概率，用于防止过拟合positional_dropout_rate: 0.1  # 位置编码的 Dropout 概率self_attention_dropout_rate: 0.0  # 自注意力机制的 Dropout 概率src_attention_dropout_rate: 0.0  # 来源注意力机制的 Dropout 概率# 分词器设置
tokenizer: char
tokenizer_conf:symbol_table_path: 'data/dict/lang_char.txt'  # 符号表路径split_with_space: false  # 是否以空格分割bpe_path: null  # BPE（Byte-Pair Encoding）模型路径non_lang_syms_path: null  # 非语言符号路径is_multilingual: false  # 是否支持多语言num_languages: 1  # 语言数量special_tokens:  # 特殊符号<blank>: 0  # 空白符<unk>: 1  # 未知符号<sos>: 2  # 句子开始符<eos>: 2  # 句子结束符# CTC（连接时间分类）相关设置
ctc: ctc
ctc_conf:ctc_blank_id: 0  # CTC 空白符的 ID# CMVN（倒谱均值方差归一化）设置
cmvn: global_cmvn
cmvn_conf:cmvn_file: 'data/train/global_cmvn'  # CMVN 文件路径is_json_cmvn: true  # CMVN 文件是否为 JSON 格式# 混合 CTC/注意力模型设置
model: asr_model
model_conf:ctc_weight: 0.3  # CTC 损失的权重lsm_weight: 0.1  # 标签平滑（Label Smoothing）权重length_normalized_loss: false  # 是否使用长度归一化的损失# 数据集设置
dataset: asr
dataset_conf:filter_conf:  # 数据过滤配置max_length: 40960  # 数据最大长度min_length: 0  # 数据最小长度token_max_length: 200  # 令牌最大长度token_min_length: 1  # 令牌最小长度resample_conf:  # 重采样配置resample_rate: 16000  # 重采样率speed_perturb: true  # 是否使用语速扰动fbank_conf:  # 过滤器组配置num_mel_bins: 80  # 梅尔频率倒谱系数（MFCC）数量frame_shift: 10  # 帧移（毫秒）frame_length: 25  # 帧长（毫秒）dither: 0.1  # 添加噪声的强度spec_aug: true  # 是否使用频谱增强spec_aug_conf:  # 频谱增强配置num_t_mask: 2  # 时间掩码数量num_f_mask: 2  # 频率掩码数量max_t: 50  # 最大时间掩码宽度max_f: 10  # 最大频率掩码宽度shuffle: true  # 是否打乱数据shuffle_conf:  # 数据打乱配置shuffle_size: 1500  # 打乱缓冲区大小sort: true  # 是否排序数据sort_conf:  # 数据排序配置sort_size: 500  # 排序缓冲区大小，应该小于 shuffle_sizebatch_conf:  # 批处理配置batch_type: 'static' # 批处理类型，可选 static 或 dynamicbatch_size: 16  # 批处理大小grad_clip: 5  # 梯度剪裁阈值
accum_grad: 4  # 梯度累加步数
max_epoch: 240  # 最大训练轮数
log_interval: 100  # 日志间隔optim: adam  # 优化器设置
optim_conf:lr: 0.002  # 学习率
# 学习率调度器设置
scheduler: warmuplr  # 需要 pytorch v1.1.0 及以上版本
scheduler_conf:warmup_steps: 25000  # 预热步数

3训练结果和预测（尚未结束，后续完善）

在这里插入图片描述