大模型开发_基础001 应用层技术栈2025–2026 推荐组合核心组件模块推荐工具核心职责RAG 知识检索LlamaIndex处理文档索引、向量检索、混合搜索为 Agent 提供精准上下文MCP 工具封装FastMCP通过mcp.tool装饰器将任意函数/API 一行代码转为标准工具流程编排 / Agent 大脑LangGraph基于图的智能工作流天然支持循环、条件分支、人机协同业务员聊天界面ChainlitPython 原生零配置生成生产级聊天 UI支持文件上传、对话历史一句话架构修正版LlamaIndex做检索FastMCP造工具LangGraph编排大脑Chainlit做界面 ——四个库在同一后端进程中直接调用无需 REST API 串联。⚠️ 重要提醒Chainlit原团队已于 2025 年 5 月暂停积极开发但项目稳定可用备选方案Gradio ChatInterface、Streamlit 自定义组件。LangGraph v1.0已于 2025 年 10 月发布生产就绪建议直接使用。二、模型优化技术从压缩到训练1. 量化Quantization—— 最快瘦身方案适用场景推荐工具AWQ / GPTQGPU 推理4-bit 精度vLLM, TGIGGUFCPU / 边缘端推理Ollama, llama.cpp2. 剪枝Pruning—— 移除冗余权重核心方法SparseGPT一次剪枝百亿参数工具支持PyTorch 原生剪枝 API、Intel Neural Compressor3. 蒸馏Distillation—— 大教小代表技术MiniLLM反向 KL 散度、BitNet1.58-bit 极致压缩实现框架Hugging Face Trainer 自定义蒸馏损失4. 预训练Pre-training—— 从零造基座现状MoE混合专家为主流如 DeepSeek-R1分布式框架DeepSpeed, Megatron-LM5. 微调Fine-tuning—— 领域专家方法显存占用推荐框架全量微调极高DeepSpeed ZeRO-3QLoRA推荐极低4-bit 基座 少量参数LLaMA-Factory, PEFT bitsandbytes选型决策树快速参考追求极致精度→ 全量微调需 A100/H100 集群显存受限 / 快速落地→ QLoRA消费级 GPU 可跑 7B~13B推理太慢→ AWQ/GPTQ 4-bit 量化部署到 CPU / 移动端→ GGUF 或 蒸馏至小模型极端压缩内存1GB→ 剪枝 1-bit 量化组合三、总体建议若你从零搭建一个业务内部用的 AI 助手直接采用第 1 部分的“LlamaIndex FastMCP LangGraph Chainlit”组合并用QLoRA微调一个 7B~13B 模型做 Agent 大脑。若你需要把模型嵌入手机/嵌入式设备优先考虑GGUF 量化 蒸馏。若你手上有千亿参数模型需要长期维护建议建立“预训练 → 指令微调 → RLHF”全流程并定期做剪枝量化。