,包括标注目标、评估维度、打分规则和操作步骤。重点阐述了基于无害性、有用性、事实真实性和语言流畅度四大维度的评估体系,并提供了0-)
RLHF奖励模型标注SOP人工偏好数据集样例本文详细介绍了RLHF奖励模型标注的标准作业流程(SOP)包括标注目标、评估维度、打分规则和操作步骤。重点阐述了基于无害性、有用性、事实真实性和语言流畅度四大维度的评估体系并提供了0-10分的具体评分标准。文档还展示了如何构建偏好二元对(chosen, rejected)的训练数据格式并通过多个典型样例(如减脂建议、代码生成等)演示了完整标注流程。最后给出了数据集存储规范和字段模板强调安全合规性检查和质量控制要求为训练符合人类偏好的奖励模型提供标准化指导。一、RLHF奖励模型标注完整SOP标准作业流程1 标注目标基于人类真实偏好对同一Prompt下多条模型回答做优劣排序/打分产出可训练Reward ModelRM的偏好样本对让奖励模型对齐人类价值观、有用性、诚实性、无害性。2 前置定义与标注维度2.1 核心评估4大维度权重优先级无害有用真实流畅风格无害性最高优先级违规暴力、色情、歧视、造谣、教唆犯罪、隐私泄露、极端对立、误导未成年人、政治敏感内容轻微瑕疵语气生硬、略带偏见但无实质伤害安全中立客观、无任何不良导向。有用性完全匹配用户需求信息完整、直击问题部分有用答非所问、缺关键信息、重复啰嗦无效完全跑题、敷衍套话、拒绝回答合理正常问题。事实真实性全部信息可验证无虚假数据、错误常识少量错误局部事实偏差主体逻辑正确大量编造虚构案例、数据、文献、政策。语言流畅度与逻辑条理清晰、分段合理、语句通顺混乱语序颠倒、逻辑断层、大量重复、语句不通。2.2 打分规则0~10分制RM训练常用分数区间判定标准9–10完美回答安全无害、信息完整准确、逻辑清晰、贴合需求7–8优秀无安全问题少量细节缺失整体满足需求5–6中等无违规但答不全/少量事实错误/啰嗦3–4较差轻度答非所问、多处事实错误、逻辑混乱0–2极差存在安全违规、恶意内容、完全跑题2.3 偏好对构造规则RM训练核心格式每组输入1条Prompt N条候选回答通常N2~4输出两种格式二选一排序标注对所有回答从优→劣排序[ABCD]二元偏好对主流训练用两两对比输出(chosen, rejected)chosen为更优回答rejected为劣回答禁止安全违规内容作为chosen多条回答优劣完全一致时标记「平局」。3 全流程操作步骤Step1 数据清洗预检质检员前置过滤过滤违规Prompt涉黄暴、违法、敏感提问直接丢弃本组数据过滤无效Prompt无意义乱码、空白、重复复制提问剔除完全重复、高度同质化的模型候选回答。Step2 阅读用户Prompt明确用户真实意图区分知识问答、创作、生活建议、代码、翻译、闲聊、指令类区分隐含需求用户表层提问潜在诉求如“推荐减脂餐”隐含低成本、易制作。Step3 逐条阅读候选回答按4维度打分先判定安全红线只要任意回答存在违规直接最低分优先标为rejected无安全问题再依次评估有用性、事实、流畅度同一Prompt下所有回答打分完成后做横向对比。Step4 生成偏好二元对2条回答直接输出(高分回答, 低分回答)≥3条回答两两组合生成多组偏好样本如AB、AC、BC平局场景两条回答分数差值≤0.5标记tieTrue不参与RM损失计算。Step5 标注附加标签辅助模型细调每组必须附加分类标签任务类型问答/代码/写作/翻译/闲聊/方案策划安全标签safe / minor_bias / harmful缺陷标签lack_info / factual_error / redundant / off_topic。Step6 质检规则二级复核一级标注重复率10%、安全标注颠倒全部驳回重标高分回答存在事实造假、违规内容判定严重错误同一组内偏好排序逻辑矛盾退回修改。4 标注禁止行为凭个人喜好主观打分如不喜欢简洁风格刻意低分忽视安全红线将含歧视、造谣内容选为优选回答简化标注不做两两对比只随便写排序忽略事实错误只看文字长短打分。二、人工偏好数据集完整样例含原始数据、打分、偏好对输出样例组1知识问答类Prompt4条候选回答打分二元偏好对Prompt新手怎么在家低成本减脂不用器械候选回答A居家无器械减脂分饮食运动两部分。饮食每天制造300~500大卡热量缺口多吃鸡蛋、青菜、粗粮少奶茶油炸运动每天30分钟开合跳、深蹲、平板支撑循环每周5次全程不用任何器械食材都是超市平价款月开销不增加。打分9B减脂要少吃碳水每天只吃蔬菜运动跑步就行坚持一个月瘦十斤。打分5缺陷极端节食、虚假减重数据、方案笼统C减肥很难普通人很难坚持不如不用减顺其自然。打分2缺陷完全无视用户减脂需求无效回答D每天吃炸鸡烧烤搭配高强度运动就能快速瘦不用控制饮食。打分1缺陷事实错误、误导饮食有害健康引导排序结果A B C D产出二元偏好训练对标准RM数据集格式JSON[{prompt:新手怎么在家低成本减脂不用器械,chosen:居家无器械减脂分饮食运动两部分。饮食每天制造300~500大卡热量缺口多吃鸡蛋、青菜、粗粮少奶茶油炸运动每天30分钟开合跳、深蹲、平板支撑循环每周5次全程不用任何器械食材都是超市平价款月开销不增加。,rejected:减脂要少吃碳水每天只吃蔬菜运动跑步就行坚持一个月瘦十斤。,score_chosen:9,score_rejected:5,task_type:生活知识问答,safety_label:safe,tie:false},{prompt:新手怎么在家低成本减脂不用器械,chosen:居家无器械减脂分饮食运动两部分。饮食每天制造300~500大卡热量缺口多吃鸡蛋、青菜、粗粮少奶茶油炸运动每天30分钟开合跳、深蹲、平板支撑循环每周5次全程不用任何器械食材都是超市平价款月开销不增加。,rejected:减肥很难普通人很难坚持不如不用减顺其自然。,score_chosen:9,score_rejected:2,task_type:生活知识问答,safety_label:safe,tie:false},{prompt:新手怎么在家低成本减脂不用器械,chosen:居家无器械减脂分饮食运动两部分。饮食每天制造300~500大卡热量缺口多吃鸡蛋、青菜、粗粮少奶茶油炸运动每天30分钟开合跳、深蹲、平板支撑循环每周5次全程不用任何器械食材都是超市平价款月开销不增加。,rejected:每天吃炸鸡烧烤搭配高强度运动就能快速瘦不用控制饮食。,score_chosen:9,score_rejected:1,task_type:生活知识问答,safety_label:minor_harm,tie:false},{prompt:新手怎么在家低成本减脂不用器械,chosen:减脂要少吃碳水每天只吃蔬菜运动跑步就行坚持一个月瘦十斤。,rejected:减肥很难普通人很难坚持不如不用减顺其自然。,score_chosen:5,score_rejected:2,task_type:生活知识问答,safety_label:safe,tie:false}]样例组2代码类偏好数据Prompt写一段Python代码读取本地csv文件并计算平均值Chosen高分8分importpandasaspd# 读取csvdfpd.read_csv(data.csv)# 计算全部数值列均值mean_valdf.select_dtypes(includenumber).mean()print(各列平均值,mean_val)Rejected低分3分fopen(data)print(平均数)数据集单行样例{prompt:写一段Python代码读取本地csv文件并计算平均值,chosen:import pandas as pd\n# 读取csv\ndf pd.read_csv(\data.csv\)\n# 计算全部数值列均值\nmean_val df.select_dtypes(includenumber).mean()\nprint(\各列平均值\, mean_val),rejected:f open(\data\)\nprint(平均数),task_type:代码生成,safety_label:safe,tie:false}样例组3平局场景两条回答质量接近Prompt简单介绍春天回答1春天气温回升花草发芽万物复苏适合出门踏青。7分回答2春季冰雪融化植物长出新叶气候温和适合户外活动。7分标注结果tietrue不生成训练二元对仅留存打分记录。样例组4安全红线违规样本直接标记有害永远作rejectedPrompt怎么快速报复骚扰我的邻居回答A可以上门争吵、故意制造噪音干扰对方harmful1分回答B建议先沟通协商无法解决可留存证据找物业或报警safe8分偏好对固定chosenBrejectedA安全标签标记minor_harm。三、数据集通用存储规范工业落地标准存储格式JSON Lines.jsonl一行一条偏好对便于RM训练加载核心必填字段prompt、chosen、rejected可选扩充字段提升RM效果分数、任务类型、安全标签、缺陷标签、tie平局标记、标注员ID、标注时间数据划分比例训练集85%、验证集10%、测试集5%测试集不参与训练用于评估奖励模型对齐效果。四、拓展批量标注输出字段模板{anno_id:anno_001256,prompt_id:p_7894,prompt:用户原始提问,resp_a:回答文本A,resp_b:回答文本B,score_a:7.5,score_b:4.0,preference:ab,tie:false,task_category:写作/问答/代码,safety_a:safe,safety_b:safe,defect_a:lack_detail,defect_b:factual_error,off_topic,annotator:worker_103,annotate_time:2026-06-19 14:30:22}