基于RAG与Qwen大模型构建金融问答机器人：从原理到工程实践

发布时间：2026/7/4 23:49:52

30款热门AI模型一站整合DeepSeek/GLM/Claude 随心用限时 5 折。点击领海量免费额度1. 先搞清楚“新手入门”到底要解决什么问题看到“80K星标”和“最适合新手入门”这种标题很多人的第一反应是去找一个“手把手、保姆级、从零到一”的安装配置教程。但如果你真这么做了大概率会陷入“教程从入门到放弃”的循环跟着教程装了一堆环境跑了个“Hello World”示例然后呢面对一个真实项目需求依然不知道从哪里下手。所以在动手之前我们必须先明确目标。一个真正适合新手的AI大模型教程核心不是教你如何安装Python、配置CUDA或者跑通一个最简单的文本生成。它的核心价值在于帮你建立一套“从问题到解决方案”的工程化思维框架。让你知道当你拿到一个需求比如“做一个金融问答机器人”时你应该思考什么、选择什么、按什么顺序去实现。基于这个目标这篇教程会围绕一个具体的项目案例——金融大模型问答机器人——来展开。我不会只给你一堆零散的命令和代码片段而是会带你走完一个应用开发工程师的完整思考和实践路径。你会看到从技术选型、环境搭建到核心模块实现、效果优化再到最后的部署上线每一步背后的“为什么”和“怎么做”。2. 项目拆解从需求到技术栈的映射在开始写任何一行代码之前我们必须把模糊的需求翻译成清晰的技术任务。假设我们接到的需求是“开发一个金融领域的智能问答机器人能基于公司内部文档如产品手册、财报、研报和公开金融知识准确、安全地回答用户问题。”这个需求可以拆解为以下几个核心子任务理解用户问题将自然语言问题转化为机器可处理的形式。检索相关知识从海量文档中快速找到与问题最相关的片段。生成可信答案结合检索到的知识和模型自身能力生成专业、准确的回答。保障安全与可控避免模型“胡说八道”幻觉并确保不泄露敏感信息。提供稳定服务构建一个可供外部调用的API服务。现在我们把技术栈映射到这些任务上需求任务对应技术方案常用技术栈/工具理解与生成大语言模型 (LLM)Qwen(开源中文能力强性价比高)、GPT、Claude、文心一言等API知识检索检索增强生成 (RAG)LangChain(应用框架)、LangIndex(向量索引)、FAISS/Chroma(向量数据库)知识处理文本向量化与重排序Embedding模型(如text-embedding-ada-002,BGE)、Rerank模型(如bge-reranker)服务化Web API 框架FastAPI(异步、高性能、自动生成文档)垂直领域优化模型微调LoRA(轻量微调)、SFT(监督微调)效果与成本优化模型量化、知识蒸馏GPTQ、AWQ(量化)、模型蒸馏技术流程编排AI应用开发平台/Agent框架Dify(低代码)、LangGraph(工作流)为什么选这个技术栈LLM选Qwen对于新手和国内团队Qwen系列如Qwen2.5-7B/14B是极佳的起点。它完全开源、中文能力强、社区活跃且对硬件要求相对友好。用API如OpenAI虽然省事但成本高、数据出境有风险且不利于理解底层原理。从学习角度强烈建议从开源模型开始。框架选LangChain FastAPILangChain封装了LLM应用开发的常见模式如RAG、Agent能极大减少重复劳动。FastAPI则能快速构建出高性能、易调试的API。这个组合能让你快速搭建出可用的原型。核心机制选RAG对于金融、法律等强知识依赖的领域RAG是目前平衡效果、成本和安全性的最佳实践。它避免了重新训练大模型的巨大成本又能通过更新知识库来保证信息的时效性和准确性。3. 环境准备不只是安装Python和CUDA很多教程把环境准备简化为“安装Anaconda和PyTorch”。但对于大模型应用这远远不够。你需要的是一个可复现、可管理、资源清晰的环境。3.1 硬件与系统资源评估这是新手最容易踩坑的地方。不是所有机器都能跑所有模型。GPU显存这是硬门槛。一个粗略的估算公式是模型运行所需显存 ≈ 模型参数量B × 量化后参数位数Bytes × 1.5。例如运行Qwen2.5-7B的INT4量化版。7B参数INT4即每个参数占0.5字节。理论显存7 * 0.5 * 1.5 ≈ 5.25 GB。这意味着你至少需要一张6GB以上显存的显卡如RTX 2060 12G, RTX 3060 12G。如果想跑Qwen2.5-14B的INT4量化版14 * 0.5 * 1.5 ≈ 10.5 GB需要11GB以上显存的卡如RTX 3080 12G, RTX 4080 16G。重要提示这个公式只估算模型加载的显存。实际运行时输入文本上下文、中间计算KV Cache还会占用额外显存。保险起见预留2-4GB的余量。如果你的问题很长比如超过4000个token余量要留得更多。内存RAM至少需要16GB。加载向量数据库、处理文档时内存占用会飙升。推荐32GB以上。磁盘空间模型文件很大。一个7B的FP16模型约14GBINT4量化后约4GB。加上Python环境、依赖包、知识库文档建议预留50GB以上的可用空间。3.2 软件环境搭建以Linux/Windows WSL2为例我建议使用Conda进行环境隔离用Ollama或vLLM来运行模型这比直接调用PyTorch原生日志更清晰、部署更简单。# 1. 创建并激活Conda环境 conda create -n finance_qa python3.10 conda activate finance_qa # 2. 安装PyTorch根据你的CUDA版本去官网复制命令 # 例如CUDA 11.8 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 3. 安装核心应用框架和库 pip install langchain langchain-community langchain-chroma # LangChain核心及Chroma向量库 pip install fastapi uvicorn[standard] # API服务 pip install sentence-transformers # 用于Embedding模型 pip install pypdf python-docx markdown # 文档加载器支持 pip install tiktoken # Token计数 # 4. 安装模型运行框架二选一 # 方案A使用Ollama最简单适合快速原型 # 先去 https://ollama.com 下载安装Ollama # 然后在终端拉取并运行模型 ollama pull qwen2.5:7b ollama run qwen2.5:7b # Ollama会启动一个本地API服务默认11434端口 # 方案B使用vLLM性能更高适合生产部署 pip install vllm # 启动vLLM服务 python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen2.5-7B-Instruct \ --served-model-name qwen2.5-7b \ --api-key token-abc123 \ --port 8000 # vLLM提供了OpenAI兼容的API接口环境选择建议纯新手/快速验证用Ollama。它帮你处理了模型下载、加载、GPU内存优化等所有脏活累活你只需要关心调用API。追求性能/生产部署用vLLM。它的连续批处理Continuous Batching技术能极大提高吞吐量节省显存但配置稍复杂。4. 核心实现一步步构建金融问答机器人现在我们开始用代码把项目搭起来。我会把整个过程拆解成几个独立的模块你可以逐个实现和测试。4.1 第一步搭建知识库RAG的核心知识库不是简单的一堆TXT文件而是需要被向量化并建立索引的数据库。# file: knowledge_base.py import os from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader, TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain_community.embeddings import HuggingFaceEmbeddings from langchain_community.vectorstores import Chroma from langchain_community.embeddings import OllamaEmbeddings # 如果用Ollama class KnowledgeBase: def __init__(self, persist_directory./chroma_db, embedding_model_nameBAAI/bge-small-zh-v1.5): 初始化知识库 :param persist_directory: 向量数据库持久化目录 :param embedding_model_name: 用于生成向量的模型 self.persist_directory persist_directory # 使用开源的BGE模型做Embedding中文效果好 self.embeddings HuggingFaceEmbeddings( model_nameembedding_model_name, model_kwargs{device: cuda}, # 如果有GPU encode_kwargs{normalize_embeddings: True} # 归一化提升检索效果 ) # 或者如果你用Ollama可以用它的Embedding # self.embeddings OllamaEmbeddings(modelnomic-embed-text) self.vectorstore None self.text_splitter RecursiveCharacterTextSplitter( chunk_size500, # 每个文本块的长度 chunk_overlap50, # 块之间的重叠避免上下文断裂 separators[\n\n, \n, 。, , , , , , ] # 中文优先的分隔符 ) def load_and_split_documents(self, data_dir./data): 加载并分割文档 loaders [] # 支持多种格式 if os.path.exists(os.path.join(data_dir, pdf)): loaders.append(DirectoryLoader(os.path.join(data_dir, pdf), glob**/*.pdf, loader_clsPyPDFLoader)) if os.path.exists(os.path.join(data_dir, txt)): loaders.append(DirectoryLoader(os.path.join(data_dir, txt), glob**/*.txt, loader_clsTextLoader)) all_docs [] for loader in loaders: docs loader.load() all_docs.extend(docs) print(f共加载 {len(all_docs)} 个原始文档) # 分割文档 split_docs self.text_splitter.split_documents(all_docs) print(f分割后得到 {len(split_docs)} 个文本块) return split_docs def create_vectorstore(self, documents, force_recreateFalse): 创建向量存储 if not force_recreate and os.path.exists(self.persist_directory): # 加载已存在的向量库 print(f加载已存在的向量库从 {self.persist_directory}) self.vectorstore Chroma( persist_directoryself.persist_directory, embedding_functionself.embeddings ) else: # 创建新的向量库 print(创建新的向量库...) self.vectorstore Chroma.from_documents( documentsdocuments, embeddingself.embeddings, persist_directoryself.persist_directory ) self.vectorstore.persist() print(向量库就绪。) return self.vectorstore def similarity_search(self, query, k4): 在知识库中检索相似内容 if self.vectorstore is None: raise ValueError(请先创建或加载向量库。) docs self.vectorstore.similarity_search(query, kk) return docs # 使用示例 if __name__ __main__: kb KnowledgeBase() # 1. 把你的金融文档PDF、TXT放到 ./data/pdf 或 ./data/txt 目录下 # 2. 加载并分割文档 docs kb.load_and_split_documents(./data) # 3. 创建向量库第一次运行会慢因为要生成向量 vectorstore kb.create_vectorstore(docs, force_recreateTrue) # 4. 测试检索 test_query 什么是市盈率 results kb.similarity_search(test_query, k2) for i, doc in enumerate(results): print(f\n--- 结果 {i1} ---) print(doc.page_content[:200]) # 打印前200个字符关键点解析文档分割Chunking这是RAG效果的基石。chunk_size500意味着每个文本块约500个字符。太小会丢失上下文太大会引入噪声。金融文档如财报中表格和数字多可能需要更精细的分割策略。Embedding模型我们选了BAAI/bge-small-zh-v1.5这是一个在中文语义相似度任务上表现很好的开源模型。它的作用是把一段文本变成一个固定长度的向量一串数字语义相似的文本其向量在空间中的距离也更近。向量数据库Chroma是一个轻量级、易用的选择数据直接保存在本地./chroma_db目录。生产环境可以考虑Qdrant、Weaviate或Milvus它们支持分布式和更高级的检索功能。4.2 第二步连接大语言模型LLM我们将通过LangChain来统一调用不同的模型这样以后切换模型比如从Qwen换成GPT只需要改一行配置。# file: llm_client.py import os from langchain_openai import ChatOpenAI from langchain_community.chat_models import ChatOllama from langchain_core.prompts import ChatPromptTemplate from langchain_core.output_parsers import StrOutputParser class LLMClient: def __init__(self, model_typeollama, base_urlNone, api_keyNone, model_nameNone): 初始化LLM客户端 :param model_type: ollama 或 openai (兼容vLLM) :param base_url: API基础地址如 http://localhost:11434 或 http://localhost:8000/v1 :param api_key: API密钥对于OpenAI格式的API :param model_name: 模型名称 self.model_type model_type if model_type ollama: # 连接本地Ollama服务 self.llm ChatOllama( base_urlbase_url or http://localhost:11434, modelmodel_name or qwen2.5:7b, temperature0.1, # 温度越低输出越确定。金融问答需要稳定性。 num_predict512, # 最大生成token数 ) elif model_type openai: # 连接OpenAI API或兼容OpenAI的API如vLLM、通义千问API self.llm ChatOpenAI( base_urlbase_url, # 例如 vLLM: http://localhost:8000/v1 api_keyapi_key or your-api-key, # 如果是vLLM可随意填 modelmodel_name or Qwen2.5-7B-Instruct, temperature0.1, max_tokens512, ) else: raise ValueError(f不支持的model_type: {model_type}) # 定义一个简单的提示词模板 self.prompt_template ChatPromptTemplate.from_messages([ (system, 你是一个专业的金融领域助手请根据提供的上下文信息用中文清晰、准确地回答用户的问题。如果上下文信息不足以回答问题请如实告知不要编造信息。), (human, 上下文\n{context}\n\n问题{question}) ]) # 构建一个简单的链提示词 - 模型 - 字符串输出 self.chain self.prompt_template | self.llm | StrOutputParser() def generate_with_context(self, context, question): 结合上下文生成答案 return self.chain.invoke({context: context, question: question}) def generate(self, question): 直接生成答案无上下文 # 这里可以定义另一个不依赖上下文的提示词 direct_prompt ChatPromptTemplate.from_messages([ (system, 你是一个专业的金融领域助手请用中文清晰、准确地回答用户的问题。如果你不知道答案请如实告知。), (human, {question}) ]) direct_chain direct_prompt | self.llm | StrOutputParser() return direct_chain.invoke({question: question}) # 使用示例 if __name__ __main__: # 使用Ollama client LLMClient(model_typeollama, model_nameqwen2.5:7b) # 使用vLLM (假设已启动在8000端口) # client LLMClient(model_typeopenai, base_urlhttp://localhost:8000/v1, model_nameQwen2.5-7B-Instruct) # 测试直接生成 answer client.generate(请解释一下什么是货币政策) print(直接生成答案, answer[:200]) # 测试结合上下文生成 fake_context 货币政策是中央银行为实现特定经济目标如稳定物价、促进经济增长而采用的控制和调节货币供应量和信用量的方针、政策和措施的总称。主要工具包括公开市场操作、存款准备金率、再贴现率等。 answer_with_ctx client.generate_with_context(fake_context, 货币政策的主要工具有哪些) print(\n结合上下文答案, answer_with_ctx)关键点解析统一接口无论底层是Ollama、vLLM还是云厂商API我们都通过LangChain的ChatOpenAI或ChatOllama来调用这大大提高了代码的可移植性。提示词工程Prompt Engineeringprompt_template是核心。我们明确告诉模型1) 你的角色2) 答案来源上下文3) 行为准则不胡编。这是控制模型输出质量、减少“幻觉”的最有效手段之一。温度Temperature设置为0.1这是一个较低的值让模型的输出更确定、更保守适合金融这类需要准确性的领域。如果做创意写作可以调到0.7或更高。4.3 第三步组装RAG链现在我们把知识库检索和LLM生成组装起来形成一个完整的“提问-检索-回答”管道。# file: rag_chain.py from knowledge_base import KnowledgeBase from llm_client import LLMClient class FinancialQABot: def __init__(self, kb_persist_dir./chroma_db, llm_configNone): 初始化金融问答机器人 :param kb_persist_dir: 知识库向量存储路径 :param llm_config: LLM客户端配置字典 if llm_config is None: llm_config {model_type: ollama, model_name: qwen2.5:7b} self.knowledge_base KnowledgeBase(persist_directorykb_persist_dir) # 尝试加载现有向量库 try: self.knowledge_base.create_vectorstore([], force_recreateFalse) except Exception as e: print(f加载现有向量库失败可能需要重新创建: {e}) self.knowledge_base.vectorstore None self.llm_client LLMClient(**llm_config) def answer_question(self, question, use_knowledgeTrue, top_k4): 回答问题 :param question: 用户问题 :param use_knowledge: 是否使用知识库 :param top_k: 从知识库中检索几条相关内容 :return: 答案以及使用的上下文用于溯源 context if use_knowledge and self.knowledge_base.vectorstore: try: # 1. 检索相关知识 relevant_docs self.knowledge_base.similarity_search(question, ktop_k) # 2. 将检索到的文档内容拼接成上下文 context \n\n.join([doc.page_content for doc in relevant_docs]) print(f[检索到 {len(relevant_docs)} 条相关上下文]) # 3. 结合上下文生成答案 answer self.llm_client.generate_with_context(context, question) return answer, context except Exception as e: print(f知识库检索或生成失败: {e}将退化为直接生成。) # 降级处理直接问模型 return self.llm_client.generate(question), else: # 不使用知识库直接生成 print([未使用知识库直接生成]) return self.llm_client.generate(question), # 使用示例 if __name__ __main__: # 初始化机器人 bot FinancialQABot() questions [ 公司的净资产收益率ROE是如何计算的, 请简述一下美联储加息对A股市场可能产生的影响。, 什么是绿色债券, ] for q in questions: print(f\n{*50}) print(f问题{q}) answer, used_context bot.answer_question(q, use_knowledgeTrue) print(f答案{answer}) if used_context: print(f\n答案基于以下上下文生成\n{used_context[:300]}...) # 只打印前300字符关键点解析降级策略在answer_question方法中如果知识库检索失败比如向量库不存在我们会自动降级为让模型直接生成答案。这是一个重要的工程鲁棒性设计确保服务不会因为某个模块故障而完全不可用。可解释性我们返回了used_context即模型生成答案时所依据的原文片段。这对于金融、医疗等严肃领域至关重要用户可以追溯答案来源验证可信度。检索数量top_ktop_k4是一个经验值。太少可能信息不足太多可能引入无关噪声。你可以根据答案质量进行调整。4.4 第四步用FastAPI封装成服务一个本地脚本还不够我们需要一个能通过网络被调用的API服务。# file: api_server.py from fastapi import FastAPI, HTTPException from pydantic import BaseModel from rag_chain import FinancialQABot import uvicorn # 定义请求和响应的数据模型 class QuestionRequest(BaseModel): question: str use_knowledge: bool True top_k: int 4 class AnswerResponse(BaseModel): answer: str success: bool error_message: str context_used: str # 初始化FastAPI应用和机器人 app FastAPI(title金融问答机器人API, version1.0.0) # 注意全局初始化启动时加载模型和向量库会有启动时间 bot FinancialQABot() app.post(/ask, response_modelAnswerResponse) async def ask_question(request: QuestionRequest): 接收问题返回答案 try: answer, context bot.answer_question( questionrequest.question, use_knowledgerequest.use_knowledge, top_krequest.top_k ) return AnswerResponse( answeranswer, successTrue, context_usedcontext[:1000] # 限制返回上下文长度 ) except Exception as e: # 记录详细日志到文件或监控系统 print(f处理问题 {request.question} 时出错: {e}) raise HTTPException(status_code500, detailstr(e)) app.get(/health) async def health_check(): 健康检查端点 return {status: healthy, service: financial_qa_bot} if __name__ __main__: # 启动服务监听所有网络接口的8000端口 uvicorn.run(app, host0.0.0.0, port8000)关键点解析API设计我们定义了一个简单的/ask端点。使用POST方法并接收JSON body是RESTful API的常见做法。同时提供了/health端点用于健康检查这在部署到云服务或容器编排如K8s时非常有用。错误处理用try...except包裹核心逻辑并将异常转化为HTTP 500错误和友好的JSON响应避免服务崩溃。全局初始化在服务启动时bot FinancialQABot()就加载模型和知识库。虽然这会增加启动时间但避免了每次请求都重复加载显著提升了响应速度。对于大型模型和知识库这是标准做法。启动与测试确保你的模型服务Ollama或vLLM已经在运行。确保你的知识库已经构建好运行过knowledge_base.py的create_vectorstore。在终端运行python api_server.py使用curl或 Postman 测试curl -X POST http://localhost:8000/ask \ -H Content-Type: application/json \ -d {question: 什么是市盈率, use_knowledge: true}你应该会收到一个包含answer和context_used字段的JSON响应。5. 从“能跑”到“好用”效果优化与进阶思考让机器人跑起来只是第一步。要让它在实际场景中“好用”我们还需要考虑以下问题5.1 效果优化解决“答非所问”和“幻觉”问题1检索不准。用户问“苹果公司财报”结果检索出“吃苹果的好处”。优化方案优化Embedding模型尝试BAAI/bge-large-zh-v1.5或text-embedding-ada-002如果可用它们对语义的理解更精准。使用重排序Rerank在Embedding初步检索出Top K比如20个结果后再用一个更精细的Rerank模型如BAAI/bge-reranker-large对这20个结果重新打分排序只取最相关的Top 3给LLM。这能显著提升精度但会增加一点延迟。优化文本分割Chunking尝试按段落、按章节分割或者使用更智能的语义分割器如LangChain的SemanticChunker。问题2模型“幻觉”。即使给了正确的上下文模型还是自己编造数字或事实。优化方案强化系统提示词System Prompt在提示词中更严厉地约束模型例如“你必须严格依据提供的上下文信息回答问题。上下文中没有提及的信息一律回答‘根据已知信息无法回答该问题’。禁止任何形式的捏造和推测。”使用思维链Chain-of-Thought在提示词中要求模型先复述或引用上下文中的关键证据再基于此推导答案。这增加了可解释性也能让模型更“专注”。后处理校验对于关键事实如财报数字、日期可以尝试用规则或小模型进行二次提取和校验。5.2 性能与成本优化模型量化如果你在本地运行INT4量化是性价比最高的选择。它几乎不损失精度却能减少50%-75%的显存占用和提升推理速度。使用AutoGPTQ或llama.cpp可以轻松量化大多数开源模型。缓存对于常见、重复的问题如“公司简介”可以将问答对缓存起来用Redis或内存缓存下次直接返回避免重复调用LLM和检索。异步处理FastAPI天然支持异步。如果你的知识库检索或LLM调用有网络I/O使用async/await可以大幅提高并发处理能力。5.3 走向生产安全、监控与迭代输入输出过滤对用户输入进行敏感词过滤、长度限制防止提示词注入攻击。对模型输出也要进行合规性检查。访问控制鉴权给你的API加上API Key验证避免被滥用。FastAPI可以很方便地集成HTTPBearer等安全中间件。日志与监控记录每一个问题的请求和响应、耗时、Token使用量。这不仅是排查问题的依据更是你优化效果和评估成本的数据基础。可以接入Prometheus Grafana。知识库更新金融信息日新月异。你需要设计一个流程定期或触发式地更新你的知识库向量。可以考虑监听文件目录变化或者提供一个管理API来增量更新。A/B测试当你尝试新的提示词、新的Embedding模型或新的LLM时不要直接全量替换。可以通过用户ID哈希等方式进行小流量A/B测试用数据回答准确率、用户满意度来决定哪个方案更好。6. 总结新手入门的正确路径回过头看一个“神级”的入门教程其价值不在于它收集了多少命令而在于它是否提供了一条清晰的、可复现的、能引发深度思考的路径。通过这个“金融问答机器人”项目你走过的路径是定义问题将模糊需求拆解为“检索”和“生成”等具体技术任务。技术选型根据任务和资源显存、预算选择合适的技术栈Qwen LangChain FastAPI RAG。环境搭建理解硬件门槛选择正确的工具链Ollama/vLLM搭建可复现的环境。模块化实现分而治之先构建知识库再连接LLM然后组装成RAG链最后封装为API服务。每一步都独立可测试。效果优化从“能跑”到“好用”针对准确性和幻觉问题运用提示词工程、重排序等策略进行优化。生产化思考提前考虑安全、监控、成本、迭代等工程问题。这个项目案例就像一个“最小可行产品”MVP它包含了AI大模型应用开发的核心要素。你可以在此基础上无限扩展加入Function Calling让机器人不仅能回答还能调用计算器算利率、调用新闻API查行情。引入LangGraph来编排更复杂的多步骤工作流比如“先检索知识再联网搜索最后综合生成报告”。对特定金融子领域如财报分析的数据进行LoRA微调让模型成为这个领域的“专家”。使用Dify这样的低代码平台通过可视化拖拽快速搭建更复杂的AI Agent。最后给新手的建议不要一开始就追求大而全。先用这个最简单的框架把你自己的文档比如你的学习笔记、公司产品手册灌进去跑通整个流程。在真实的数据和问题上你会遇到最具体的问题而解决这些问题的过程就是你真正入门和提升的过程。记住在AI应用开发里“动手跑起来”的价值远大于“纸上谈兵”。 30款热门AI模型一站整合DeepSeek/GLM/Claude 随心用限时 5 折。点击领海量免费额度

文章详情

基于RAG与Qwen大模型构建金融问答机器人：从原理到工程实践

相关新闻

最新新闻

日新闻

周新闻

月新闻