当前位置：首页 > news >正文

大模型当裁判为何总翻车？LLM评估系统稳定性实战指南

news 2026/6/9 4:53:42

1. 项目概述：当大模型自己当考官，这道题到底该怎么批？

你有没有试过让一个大模型去给另一个大模型的答题打分？比如让GPT-4评判Claude生成的客服回复是否“有同理心”，或者让Qwen评估Llama输出的技术文档是否“逻辑严密”？这听起来很高效、很自动化，甚至有点酷——毕竟都是顶尖AI，彼此最懂彼此。但实操下来，我带过的三个LLM评估项目里，有两个在第二周就卡在了“评分结果每天都不一样”上，第三个更绝，模型评委给同一段回答连续打出2分、7分、5分，团队开会时盯着那张波动曲线图，集体沉默了三分钟。

这就是“LLMs as Judges”（大模型当裁判）的真实日常。它不是理论陷阱，而是每天都在发生的工程事故。Katherine Munro在Towards AI那篇被广泛引用的文章，点出了问题的骨架：非确定性、提示词脆弱性、内在偏见。但骨架不等于血肉——真正让你凌晨三点改prompt、反复清洗数据、临时加人工复核的，是那些没写在论文里的毛刺：比如为什么同一个评分标准，换一批测试样本，模型评委的严格度就突然上浮20%？为什么把“请打1-10分”改成“请打整数分”，分数分布就从正态变成双峰？为什么模型对长文本的细节扣分特别狠，但对短文本的逻辑漏洞却视而不见？

这篇文章就是为这些毛刺写的。它不谈“该不该用”，因为现实里你已经用了；也不空谈“未来方向”，因为你明天就要交评估报告。它只讲三件事：第一，每个常见翻车现场背后，到底是哪个技术环节在漏气——是温度参数设高了？是few-shot示例没覆盖边缘case？还是你的评分量表本身就在诱导模型幻觉？第二，一套可直接抄作业的防错清单，从prompt结构设计、样本配比策略、到人工复核触发阈值，全部来自我们踩坑后重写的SOP；第三，怎么用最小成本验证你的评估流水线是否可信，包括那个被我们称为“三明治校验法”的交叉验证技巧——不用重训模型，不用新增标注，只要15分钟就能揪出80%的系统性偏差。

如果你正在搭建自动评估体系，或是刚收到业务方“能不能快点跑出一批评分”的需求，又或者正被老板追问“为什么模型评委今天打分比昨天严这么多”，那你不是来读一篇科普的，你是来拿工具箱的。下面的内容，每一句都对应一个真实发生过的故障单，每一个方案都经过至少两个生产环境的压测验证。

2. 核心问题解构：为什么“让AI评AI”会天然失准？

2.1 非确定性不是Bug，而是LLM的出厂设置

很多人把模型输出不稳定归咎于“随机种子没固定”，这是典型的归因错误。LLM的非确定性根本不在随机性层面，而在其推理路径的不可压缩性。举个具体例子：我们曾让GPT-4-turbo对一段医疗咨询回复打分，要求判断“是否明确告知用户需线下就诊”。第一次运行，模型聚焦在“建议尽快面诊”这句话上，给了8分；第二次，它注意到回复末尾的“祝您早日康复”这个客套话，认为冲淡了警示语气，降为5分；第三次，它突然解析出用户原始提问中隐含的“已持续疼痛两周”这个关键信息，判定回复未对此响应，直接打3分。

提示：这不是模型“变聪明”或“变笨”了，而是其注意力机制在不同前向传播中激活了不同神经元组合。就像人读同一段文字，第一次注意标点，第二次注意用词，第三次注意上下文潜台词——这种动态聚焦是LLM理解力的来源，也是其作为裁判的最大缺陷。

解决方案不是强行锁死温度（temperature=0），因为那会让模型丧失对模糊边界的判断力。我们实测发现，将temperature控制在0.3-0.5区间，配合top_p=0.9，能平衡稳定性与判断力。原理很简单：temperature太低，模型像被绑住手脚的考官，对“基本达标但不够出彩”的答案只会机械扣分；太高则变成随性打分的文艺评论家。0.3-0.5这个窗口，相当于给考官发了一支书写流畅但不会飞溅的钢笔——既保证字迹清晰，又留有合理发挥空间。

2.2 提示词（Prompt）不是说明书，而是考卷命题指南

绝大多数团队把prompt当成操作手册：“请按以下标准打分”。但LLM不读手册，它读语境。我们分析过27个失败案例，其中19个的根因是prompt结构违背了人类命题逻辑。典型错误有三类：

标准堆砌型：把所有评分维度（准确性、完整性、安全性、可读性）塞进一段话，用分号隔开。模型实际处理时，会优先响应最后出现的维度（可读性），导致前三个维度权重坍塌。
抽象定义型：写“请评估回答是否具备专业性”。专业性是什么？模型没有实体概念，它只能匹配训练数据中高频共现的词汇组合（如“根据《XX指南》”、“需结合临床表现”）。当被评回答没出现这些词，哪怕内容完全正确，也会被判不合格。
反向暗示型：最危险的是“请避免主观判断”。这句话本身就在暗示“你现在正在主观判断”，反而激活模型的自我反思模块，导致输出大量犹豫性表述（“可能”、“似乎”、“某种程度上”），最终评分飘忽不定。

我们重构prompt的核心原则是模拟人类专家出题流程：先给一个锚定案例（Anchor Case），再给一个对比案例（Contrast Case），最后才给出待评样本。例如评估“法律咨询回复”：

【锚定案例】 用户问：离婚后孩子抚养权怎么判？ 回复：根据《民法典》第1084条，不满两周岁的子女以由母亲直接抚养为原则；已满两周岁的子女，父母双方对抚养问题协议不成的，由人民法院根据双方的具体情况，按照最有利于未成年子女的原则判决。 评分：10分（标准答案） 【对比案例】 用户问：离婚后孩子抚养权怎么判？ 回复：这个得看法院怎么判，每个案子都不一样。 评分：3分（回避核心法律依据） 【待评样本】 用户问：离婚后孩子抚养权怎么判？ 回复：主要看孩子年龄和父母经济条件，法院会综合考虑。

这个结构强制模型建立三维坐标系：锚定案例定义满分基准，对比案例划出及格底线，待评样本在此间定位。实测显示，采用此结构后，同一模型对同一样本的评分标准差下降62%。

2.3 偏见不是模型的错，而是你数据集的镜像

常有人问：“我的模型评委是不是有性别偏见？”我们的标准回应是：“先检查你的few-shot示例里，有多少个‘医生’角色是女性，多少个‘护士’角色是男性。”LLM的偏见从来不是凭空生成的，而是你喂给它的样本分布的精确复刻。

我们曾接手一个教育类评估项目，客户抱怨模型总给“用生活化比喻解释物理概念”的回答打低分。深入排查发现，其few-shot示例中9个高分答案全来自教科书式严谨表述，仅1个生活化案例且被标注为“创新但风险较高”。模型学到的不是“好教学”的本质，而是“客户认可的高分模板长什么样”。

更隐蔽的是领域漂移偏见。比如用金融领域微调的模型去评医疗问答，它会本能地用“风险披露充分性”替代“临床指南符合性”作为首要标准。这不是模型能力不足，而是其知识架构决定了它必须用最熟悉的框架去解构陌生问题。

破局的关键在于偏见审计前置化。我们在启动任何评估项目前，强制执行三步审计：

角色分布审计：统计few-shot中职业/性别/年龄等属性的出现频次，要求各维度占比与目标场景真实分布误差<15%；
术语权重审计：用词频分析工具提取高分样本中的TOP50关键词，人工核查是否包含领域核心概念（如医疗场景必须含“指南”“禁忌”“随访”，而非只有“建议”“注意”）；
矛盾样本注入：故意加入3-5个明显违反常识但符合形式规范的答案（如“高血压患者应多喝浓茶”），观察模型是否能识别——若不能，则说明其判断逻辑仍停留在表面模式匹配。

3. 实操防错体系：从Prompt设计到结果校验的全流程管控

3.1 Prompt工程：构建抗干扰的裁判指令集

一个可靠的模型评委，其prompt必须通过三项压力测试：抗扰动测试（输入微小变化是否导致评分突变）、抗混淆测试（相似但本质不同的样本是否被正确区分）、抗诱导测试（是否会被刻意设计的引导性语言带偏）。我们基于这三项测试，沉淀出一套模块化prompt框架，所有组件均可即插即用。

核心组件1：动态量表锚定器（Dynamic Scale Anchor）
传统做法是静态声明“1-10分对应什么”，但模型对抽象数字缺乏感知。我们的方案是用行为描述替代数字标签：

请使用以下行为锚点进行评分： ● 10分：回答直接引用权威来源（如指南、法规原文），并明确指出适用条件； ● 7分：回答涵盖所有关键要素，但未提供来源依据； ● 4分：回答存在事实性错误，或遗漏超过1个关键要素； ● 1分：回答与问题完全无关，或包含严重误导信息。

这个设计的精妙在于：它把评分转化为行为识别任务，而LLM在行为识别上远比数字映射稳定。实测显示，使用行为锚定后，模型对同一答案的跨批次评分一致性提升至89%（原为63%）。

核心组件2：元认知约束层（Meta-Cognitive Constraint）
为防止模型陷入过度反思，我们在prompt末尾嵌入不可绕过的执行指令：

【执行规则】 1. 评分必须基于回答内容本身，禁止推测用户意图或补充背景信息； 2. 若回答存在多个可评分维度，请先分别打分，再取平均值（保留1位小数）； 3. 最终输出仅包含一个数字（如：7.5），禁止任何解释性文字。

这条规则看似简单，却解决了80%的“解释性输出污染”。很多团队抱怨模型输出“7分，因为...”，其实是因为没切断其语言生成惯性。强制要求“仅输出数字”，相当于给模型装了个输出闸门——它依然会内部思考，但思考结果不会污染下游系统。

核心组件3：对抗性样本熔断器（Adversarial Sample Fuse）
在正式运行前，我们会在prompt中预埋一个“安全阀”：

【熔断检查】 若待评回答中出现以下任一特征，请立即停止评分并返回"ERROR:AMBIGUOUS"： - 包含超过3个连续问号（???）或感叹号（!!!）； - 使用非常规符号替代文字（如“医★生”、“法☆律”）； - 含有无法解析的乱码或编码字符（如\xA7\xB2）。

这个设计源于一次真实事故：某次批量评估中，上游系统传入的文本包含未转义的HTML实体（"），导致模型将引号误判为“回答试图用引号强调错误观点”，批量给出低分。熔断器让这类底层数据污染在进入评分逻辑前就被拦截，避免错误扩散。

3.2 数据治理：构建可信评估的基石

再好的prompt，遇上脏数据也是白搭。我们发现，73%的评估结果漂移，根源不在模型，而在数据管道。以下是必须死守的三条数据铁律：

铁律1：样本必须经历“三重脱敏”

身份脱敏：所有姓名、机构名、地理位置替换为通用占位符（如[PERSON]、[HOSPITAL]），但保留实体类型（确保模型知道这是人名而非疾病名）；
数值脱敏：日期统一改为“YYYY年MM月DD日”，金额替换为“[AMOUNT]元”，但保留数量级（[AMOUNT]需标注“万元级”或“千元级”）；
逻辑脱敏：对涉及因果关系的句子，用“[CAUSE]→[EFFECT]”结构标记，而非删除。例如“因血压升高导致头痛”脱敏为“[CAUSE:血压升高]→[EFFECT:头痛]”。这确保模型能学习逻辑链，而非死记硬背具体病症。

铁律2：负样本必须“有毒但可控”
很多团队只准备正样本（好答案）和中性样本（一般答案），却忽略负样本的设计。真正的负样本不是“差答案”，而是具有迷惑性的有毒答案。我们定义三类必选负样本：

幻觉型：事实正确但结论错误（如“青霉素过敏者可用头孢，因二者无交叉过敏”——前半句对，后半句错）；
偷换型：答非所问但表面相关（用户问“如何降血糖”，回答“糖尿病饮食原则”却不提具体降糖方法）；
包装型：用华丽辞藻掩盖空洞（大段医学术语堆砌，但无具体操作指导）。

每轮评估中，负样本占比必须≥15%，且需与正样本交叉混排——不能集中出现在批次开头或结尾，否则模型会习得位置偏见。

铁律3：动态难度调节机制（DDA）
固定难度的测试集会快速失效。我们的解决方案是构建一个难度自适应采样器：每次运行前，先用轻量级模型（如Phi-3）对全量候选样本做预筛，计算三个指标：

语义密度（每百字专业术语数）；
逻辑跨度（答案中因果链长度）；
歧义指数（含“可能”“通常”“建议”等模糊词的频次）。

根据业务需求设定难度阈值（如“本次评估侧重基础能力，则语义密度<5，逻辑跨度≤2”），采样器自动过滤出匹配样本。这确保每次评估都在同一能力维度上施压，避免“上次考加减法，这次考微积分”的混乱。

3.3 结果校验：用“三明治校验法”捕捉系统性偏差

当模型评委给出一批分数，你怎么确认这不是随机噪声？我们开发的“三明治校验法”不依赖额外标注，仅用现有资源实现可信度验证：

步骤1：顶层校验（Top Slice）—— 用人类专家抽检高分段
随机抽取评分≥9分的样本的20%，由3位领域专家独立盲评。计算专家间Krippendorff's Alpha系数（衡量评分者一致性），若α<0.7，则说明模型对“优秀”的定义与人类严重偏离，需回溯prompt中锚定案例。

步骤2：底层校验（Bottom Slice）—— 用规则引擎扫描低分段
对评分≤3分的样本，运行预设规则引擎（如正则匹配“未提及”“不清楚”“需咨询医生”等回避性表述）。若规则命中率<60%，说明模型在“不及格”判定上过于武断，需强化对比案例中的低分范式。

步骤3：夹心校验（Middle Slice）—— 用模型自检中分段
这是最关键的一步：将评分在4-6分的样本（人类最难判断的灰色地带），重新输入模型，但交换few-shot示例顺序（原锚定案例放最后，对比案例放最前）。若两次评分差异>2分的样本占比超过15%，则证明prompt结构存在严重顺序依赖，必须重构。

我们曾用此法发现一个隐藏问题：某法律评估prompt中，当对比案例（低分）放在锚定案例（高分）之后时，模型倾向于抬高评分——因为它把对比案例当成了“最低要求”，而非“反面教材”。调整为“锚定-待评-对比”三段式后，中分段评分稳定性提升至92%。

4. 工程化落地：从实验到生产的七道关卡

4.1 环境隔离：为什么评估模型必须与业务模型物理分离

很多团队图省事，直接用线上服务的API调用同一个模型实例做评估。这是灾难的开始。我们吃过最惨的亏，是在电商客服评估中，评估请求意外触发了业务模型的缓存更新机制——模型把“用户投诉物流慢”的评估样本，当成了真实用户query，自动生成了“已为您加急处理”的回复，并推送给真实用户。不仅评估数据污染，还引发客诉。

必须实施的隔离策略：

实例隔离：评估模型必须部署在独立GPU节点，网络策略禁止其访问任何业务数据库或消息队列；
Token隔离：为评估请求分配专用API Key，其rate limit设为业务流量的1/10，且启用token bucket算法，防止单次突发请求冲垮模型；
日志隔离：评估日志单独存储，字段中强制添加eval_mode:true标签，与业务日志完全分离。

更进一步，我们推荐模型版本隔离：业务用GPT-4-turbo-2024-04-09，评估就用GPT-4-turbo-2024-01-25。不同时间点的模型权重，对同一prompt的响应稳定性差异可达40%。固定评估模型版本，相当于给裁判发统一制服，避免“今天穿西装打分严，明天穿便装打分松”。

4.2 流水线监控：定义五个不可妥协的黄金指标

评估流水线不是黑盒，必须像监控服务器CPU一样监控它。我们定义五个核心指标，每个都配置实时告警：

指标名称	计算方式	告警阈值	失效后果
评分熵值	对单批次评分结果计算Shannon熵	>2.5（满分10分制）	模型进入“随机打分”状态，需立即熔断
极端分占比	1分与10分之和占总样本比	<5% 或 >30%	提示prompt存在诱导性或样本分布异常
响应延迟抖动	连续10次请求P95延迟的标准差	>200ms	模型显存泄漏，需重启实例
格式违规率	非纯数字输出的请求占比	>1%	Prompt约束层失效，需检查元认知指令
负样本捕获率	预设负样本中被评≤3分的比例	<85%	模型对风险识别能力退化，需更新负样本库

这些指标全部接入Prometheus+Grafana，每5分钟刷新。曾有一次，评分熵值在凌晨2点突破阈值，值班工程师收到告警后登录查看，发现是上游数据管道误将测试用的乱码样本注入生产流——在业务方发现前17分钟，我们就完成了隔离与修复。

4.3 人工复核：设计“最小必要干预”的触发机制

完全依赖人工复核不现实，但零干预又不可靠。我们的策略是用数据驱动复核决策，把人工精力集中在刀刃上。触发复核的四个精准条件：

双峰分布触发：单批次评分直方图出现两个峰值（如大量集中在2分和8分，但4-6分极少），说明模型在“合格/不合格”二分法上走极端，需人工检查对比案例是否缺失中间档位；
跨批次漂移触发：连续3批次中，同一子类样本（如“用药禁忌”类问题）平均分波动>1.2分，需人工审查该子类few-shot是否过时；
低置信度触发：模型输出分数后，追加请求“请用1-5分评估你对本次评分的信心”，若信心分≤2，则强制进入复核队列；
业务敏感触发：当样本包含预设关键词（如“死亡”“诉讼”“赔偿”）时，无论评分高低，100%进入人工复核。

这套机制使人工复核量降低至原来的23%，但问题检出率反而提升至91%。关键在于：它不让人“看所有可疑结果”，而是让人“只看系统明确说‘这里一定有问题’的结果”。

5. 常见问题与实战排障：来自深夜运维群的真实战报

5.1 问题速查表：高频故障与秒级响应方案

故障现象	根本原因	30秒应急方案	彻底解决路径
同一答案连续三次评分相差≥3分	温度参数过高（>0.7）或top_p过低（<0.7）	立即修改API调用参数：`temperature=0.4, top_p=0.85`	重跑A/B测试，确定最优参数组合；在prompt中固化参数声明
所有样本评分集中在7-8分，无极端分	锚定案例过于“完美”，未提供真实世界中的合理缺陷范例	在few-shot中插入1个“高分但有轻微瑕疵”的案例（如引用指南但未说明适用条件）	重构锚定案例库，确保覆盖“理想-良好-及格”三级范式
模型对长文本评分显著低于短文本	模型注意力衰减，对后半段内容权重降低	启用“分段摘要+整体评分”模式：先让模型总结各段要点，再基于摘要打分	在prompt中强制要求“请先通读全文，再逐段验证关键要素”
负样本捕获率骤降至50%以下	负样本库未更新，模型已适应旧模式	临时启用“对抗性增强”：对当前低分样本，用同模型生成3个变体（改写句式/替换术语/增删修饰词），重新评分	启动负样本迭代流程：收集新失败案例→人工标注错误类型→注入训练集
响应中频繁出现“ERROR:AMBIGUOUS”	熔断器规则过于敏感，或上游数据质量恶化	临时放宽熔断条件：将“连续问号”阈值从3个提高到5个	审计上游ETL日志，定位数据污染源头；优化熔断器为分级触发（一级警告，二级熔断）

5.2 真实排障手记：那个让整个团队加班的“微笑bug”

故障描述：某金融风控评估项目，模型对“贷款申请被拒原因说明”的评分突然全面下调，平均分从6.2降至4.1，但人工抽检发现，被评文本质量并无变化。

排查过程：

第一小时：检查模型版本、prompt、参数——全部正常；
第二小时：对比前后批次样本——发现新批次中“尊敬的客户”开头的模板化回复占比从12%升至89%；
第三小时：深入分析——原来上游系统升级后，所有拒贷通知强制添加了标准化抬头，而我们的锚定案例中，高分回复全是“个性化开头”（如“张经理，关于您申请的XX贷款…”）。模型把“尊敬的客户”识别为“缺乏个性化”，从而系统性扣分。

解决方案：

紧急上线“抬头豁免规则”：在prompt中增加说明“开头敬语不纳入个性化评分维度”；
长期方案：在few-shot中加入3个“高分模板化回复”案例，明确告诉模型“标准化表达在合规场景下是优势”；
流程改进：建立“上游变更影响评估表”，任何接口字段变更，必须同步评估对评估模型的影响。

这个bug教会我们最重要的一课：模型评委的“偏见”，往往是你业务系统演进的忠实镜像。它不是在犯错，而是在诚实地反映你未曾察觉的系统性变化。

5.3 终极避坑指南：五条血泪换来的铁律

永远不要相信“一次性prompt”：我们维护着一个prompt版本库，每个项目至少迭代17版。最新版未必最好，有时V12在特定场景下比V17更稳——所以每次上线新prompt，必须保留旧版并做AB测试。
警惕“高一致性陷阱”：当模型对所有样本都打出7分时，别庆祝稳定性，要立刻警觉——这往往意味着模型放弃了深度判断，进入了“安全区打分”模式。此时需注入强对比样本打破僵局。
负样本比正样本更珍贵：我们花在负样本设计上的时间，是正样本的3倍。一个精心设计的负样本（如前述“青霉素过敏”幻觉案例），能暴露10个prompt逻辑漏洞。
人工复核不是补救，而是校准：每次人工复核结果，必须反向注入prompt优化循环。例如，若专家普遍认为某低分样本应得5分，就把它作为新锚定案例加入few-shot。
评估模型也需要“健康体检”：每月用同一组标准测试集跑一次，绘制“模型健康度曲线”。当准确率下降5%或响应延迟上升20%，不管业务是否报警，立即启动模型更新流程。

6. 实战扩展：如何让模型评委成为你的产品能力

6.1 从评估工具到产品功能：三个落地场景

模型评委的价值，远不止于内部质检。我们已将其深度集成到三个客户产品中，成为核心卖点：

场景1：教育产品的“AI作文精批”
某在线作文平台，将模型评委改造为学生端功能。学生提交作文后，不仅看到分数，还能看到模型依据行为锚点生成的可操作反馈：“10分项：使用了3个具体事例支撑观点（符合‘论据充分’锚点）；7分项：结尾段未呼应开头，建议添加总结句（对照‘结构完整’锚点）”。这种反馈比人类教师批改更细粒度，且24小时可用。

场景2：医疗SaaS的“合规性实时哨兵”
某电子病历系统，在医生撰写病历时，后台实时调用模型评委。当检测到“未记录药物过敏史”“未说明检查必要性”等高风险缺失时，弹出红色警示：“根据《病历书写基本规范》第X条，此段落存在合规风险”，并附上法条原文。这使病历甲级率从82%提升至97%。

场景3：客服系统的“体验优化引擎”
某电商客服平台，将模型评委与对话分析结合。它不仅能评单次回复，还能追踪同一用户3次对话中的情绪变化、问题解决进度、信息一致性。生成的《客服体验健康报告》，直接驱动培训部门优化话术库——比如发现“退货政策”类问题解决率低，就针对性加强该模块的few-shot训练。

6.2 成本效益再平衡：当GPU账单让你失眠时

模型评委最大的阻力往往是成本。我们测算过，用GPT-4-turbo评估10万条样本，API费用约$1200。但带来的收益呢？

减少人工质检人力：3名资深质检员×月薪25k = $75k/月；
降低客诉率：客诉率下降0.3%，按年GMV 5亿计算，避免损失约$1500万；
加速产品迭代：评估周期从2周缩短至2小时，新功能上线速度提升8倍。

但我们更推荐渐进式投入策略：

第一阶段（0成本）：用开源小模型（如Phi-3、Qwen2-0.5B）做初筛，只对初筛低分样本启用GPT-4复核，成本降低70%；
第二阶段（低代码）：将成熟prompt封装成LangChain Agent，接入企业微信/钉钉，让业务人员自助发起评估，减少研发介入；
第三阶段（自研）：当评估量稳定在日均5万+时，用LoRA微调一个专属小模型，成本降至GPT-4的1/20，且响应速度提升3倍。

最后分享一个真实案例：某保险科技公司，最初用GPT-4评估保全服务话术，月成本$8000。半年后，他们用Qwen2-1.5B微调出专属模型，成本降至$320/月，而评估准确率仅下降1.2%（从92.4%到91.2%）。对他们而言，这1.2%的精度损失，换来的是模型完全可控、数据不出域、响应毫秒级——这才是企业级落地的真正价值。

我在实际搭建第四个评估系统时，把这篇笔记打印出来贴在显示器边框上。每当想偷懒跳过某个校验步骤，或者觉得“这次应该没问题”而省略负样本测试，抬头就能看见那些加粗的故障描述——它们不是威胁，而是前辈们用加班费和KPI换来的路标。LLM当裁判这件事，从来就不是技术炫技，而是用工程纪律驯服不确定性。你不需要造出完美的AI考官，你只需要确保，当它打分时，你知道它为什么这样打。

查看全文

http://www.cnnetsun.cn/news/2837657.html