
迁移后训练与推理说明Mig_Readme【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills用途说明迁移完成后如何在当前仓库/环境中做训练若适用与推理便于他人按文档复现。若本项目仅推理、不涉及 NPU 训练删除或标注「不适用」对应章节即可。1. 适用范围仓库路径推理入口脚本路径或命令训练入口如有无则写「本项目不在昇腾上训练」2. 环境准备2.1 依赖安装# 示例按项目实际修改 # pip install -r requirements.txt2.2 昇腾/CANN 环境变量以当前 CANN 安装文档为准下列仅为占位。# source CANN_INSTALL_PATH/set_env.sh # 或项目内自定义 CANN 激活脚本路径非本 skill 的 environment 快照文件2.3 设备检查在IDE/沙箱内执行时npu-smi info与框架 Ascend 插件导入可能检测不到设备或版本无输出、命令不存在、偶发失败须在本机终端沙箱外用同一组检查复检后再认定环境是否就绪并写入mig_docs/working/environment.md与 skillpart-03§4.0.1 阶段 B 一致。npu-smi info python -c import torch; import torch_npu; print(torch_npu ok) # 或 MindSpore 等等价检查2.4 环境准备目标清单与environment.md本仓库不再附带可执行的「一键环境配置」脚本只约定目标详见docs/environment-setup-objectives.md与 skillpart-03§4.0、§4.2 一致。交叉引用数据根目录 / 短测·冒烟路径须与§3.1数据集对照表中对应行的本地路径一致或写明团队约定的映射关系下载与目录约定见§3.2。环境快照见§2.5mig_docs/working/environment.md命令级自检示例若需要见 skill part-07-commands.md。2.5 环境快照environment.md推荐路径固定为mig_docs/working/environment.md。迁移开始时应已存在mig_docs/无则创建。历史快照若存在旧版mig_docs/env.md或误命名的env.md.exe将有效内容合并入mig_docs/working/environment.md后删除旧文件避免双份并存或二进制合规问题。已有快照文件若需刷新内容应重新执行part-03门禁与docs/environment-setup-objectives.md所列检测目标并覆盖更新environment.md避免与过期事实混用。2.6 基线侧 GPU 训练与推理调用接口无完整训练日志时补齐何时需要本节项目内已有完整训练日志且指标满足Compare.md§2.1 时直接引用日志本节可填N/A或仅补日志中缺失的推理性能项。填写时机推荐短测、冒烟、约定性能路径已在昇腾 NPU跑通并写入Compare.md至少 NPU 列或等价日志之后若无可用训练日志在本节给出GPU默认 baseline上的可复现入口供用户自行执行并回填Compare.md基线列。目的与§4§5的 NPU 推理/训练说明对称专门承载「非昇腾、默认 GPU」基线命令避免与 NPU 侧入口混在同一小节难以检索。场景设备入口脚本或命令关键参数如--device、CUDA_VISIBLE_DEVICES、batch、权重路径与 §3.1 哪一行数据集对齐备注推理 baseline默认GPU训练 baseline若适用默认GPUCPU 对照可选CPU环境GPU 栈的 conda/venv、框架版本与Compare.md§2.1 一致处请互链。与 Golden同一固定输入时建议先落 NPU 输出再由用户按上表在GPU或日志已含基线则引用日志补跑基线误差阈值见Compare.md§3.1。3. 数据与预处理交叉引用数据根目录自检见§2.4须与本章§3.1表中「本地路径」对齐或写明相对关系。基线 GPU 调用见§2.6无完整训练日志时默认 GPU有日志则优先引用由用户自行执行补采。迁移报告中的数据集摘要见Mig_report.md§2.1。精度/性能表中的数据集列见Compare.md§2.4。命令与自检模板见 skill part-07-commands.md。3.1 数据集与测试用途对照必填说明分别在哪个数据集上完成短测、冒烟、训练与推理若某类测试与另一项共用同一数据集须写明「与 xxx 相同」并给出唯一数据源标识名称、版本、校验和。测试类型使用的数据集子集/规模如样本数、划分与基线/全量是否一致本地路径相对仓库根或绝对路径短测推理向最小前向如 13 样本。训练向若适用代码迁移后少 step/短子集上观测loss是否稳定明显下降约 30%50%相对短测起点达到即停止本阶段短测不重复多轮见 skillpart-05 §8.1.1、part-02 §3.6冒烟测试推理 smoke跑通、shape/无 NaNGolden / 数值对齐若单独数据集全量精度 / 性能评测训练若适用推理线上/验收口径训练数据路径、格式、划分与上表「训练」行一致推理输入尺寸、NCHW/NHWC、归一化参数须与Mig_report.md中 IO 契约一致与上表「推理」行一致3.2 数据集获取方式与下载过程必填按实际来源填写其一或多项无公开链接时写「内网/需权限」并给出申请入口或对接人勿写账号密码。官方名称 / 版本 / 许可证下载入口官网、论文附录、Hugging Face、ModelScope、Kaggle、企业内部对象存储等 URL 或文档章节推荐下载方式浏览器步骤摘要注册、同意协议、获取直链等命令行示例按项目替换# 示例wget / curl / huggingface-cli / git lfs 等二选一或组合 # wget -O local_archive download_url # huggingface-cli download repo_id --local-dir ./data/name校验可选但强烈建议sha256sum/certutil -hashfile等与官方公布校验值比对解压与目录结构解压命令、期望得到的顶层目录名与代码/脚本的对接环境变量名或配置文件键如DATA_ROOT若推理/训练命令使用--input或数据根目录须与§3.1一致。与数据路径自检环境准备目标清单中的「数据路径核对」仅做存在性/可读性类结论取值须与§3.1中用于环境自检或冒烟的数据路径一致并在environment.md或Mig_report中互链。脱敏说明若不能提交真实路径写占位规则与团队内约定路径4. 推理部署后4.1 推理命令示例# 示例替换为实际 NPU 推理命令 # python infer_npu.py --config configs/infer_npu.yaml --checkpoint path --device npu:04.2 参数说明参数含义默认值4.3 checkpoint / 权重路径生产/测试使用的权重或 checkpoint 路径与Mig_report.md中代码级迁移要点对应关系5. 训练若在昇腾或混合环境训练若无训练本节可写本项目推理部署在昇腾训练仍在 GPU/CPU见原训练文档。5.1 启动命令# 示例5.2 与迁移前差异分布式/单卡策略精度策略AMP/FP16checkpoint 保存与加载流程5.3 训练迭代策略与「步数不够 vs 代码/模型问题」推荐默认与训练短测区分part-05 §8.1.1的训练短测以loss相对起点稳定下降约 30%50%为短测通过并即停禁止同配置下多余重复短测。本节仅针对正式训练仍长期不明显改善时的加iteration与500步排查勿用本节对「已通过短测」再堆短跑。与 skill part-05-performance-accuracy.md§8.2一致可按项目改写数值与指标名loss 或其它约定指标改善不明显时在资源允许下适当增大 iteration或 epoch /max_steps并记录每次调整与 tensorboard/日志路径。若累计 iteration或等价总优化步 500 仍无明显效果按默认准则视为高概率模型实现或训练代码问题应检查并修复代码数据与标签、loss、学习率、模型 head、NPU 相关替换层等而非继续盲目加步数结论记入Mig_report.md§7。本项目约定可覆盖上条默认实际采用的「无明显改善」判定指标如验证 loss / mAP / …实际累计步数上限或等价阈值若与 500 不同请写明相关训练命令与日志路径6. 常见问题现象可能原因处理NPU 初始化或权重加载失败CANN/驱动与框架插件版本不一致对齐版本并重试输出与基线不一致预处理或输出头接错对照 Mig_report IO 与 Golden 样本训练已加大 iteration 仍 loss/指标不动步数已 500或本项目 §5.3 约定阈值仍无改善按 §5.3 转查模型与代码见Mig_report§77. 可选测试策略由本机检测结果决定可直接执行NPU/框架插件/依赖/数据均已就绪按第 45 节直接跑推理或训练 smoke。暂不执行任一前置条件缺失先按docs/environment-setup-objectives.md与part-03补齐环境并更新environment.md再执行测试。建议记录在Mig_report.md中附上检测结果表检测项、通过/失败、补齐动作。8. 相关文档Mig_report.md — 迁移变更与产物Compare.md — 精度与性能对比Summary.md — 测试完成后归档总结environment.md— 环境快照本 skill 内为占位骨架复制到目标工程后覆盖填写environment-setup-objectives.md、docs-index.md— 环境准备操作目标无仓库内一键脚本9. 测试后归档指引交接必读训练/推理测试完成后将最终结论回填到Mig_report.md的“归档总结”章节。若本项目仅推理请在归档中明确“训练不适用”的原因与替代验证方式。将可直接复现的最终命令、模型版本、数据版本固定到文档避免口头交接。若存在异常或回滚确保Mig_report.md§7与归档结论一致。【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考