当前位置：首页 > news >正文

CPQS-TUNING 论文引文阅读

news 2026/7/4 16:41:18

文章目录

一、引言 / 指令微调基础（必看 5 篇）
二、相关工作：数据过滤 / 数据选择（核心对标 4 篇）
三、方法动机：隐状态 / 模型内部信号（关键 3 篇）
四、实验与基准（打榜必引 4 篇）
五、模型与工程（可选但规范）
- 极简总结（写论文直接用）

我直接按你这篇CPQS‑Tuning原文的章节逻辑，把参考文献里最值得读、最经典、最能支撑你论文的论文，按章节整理好，标题+年份+一句话推荐理由，你写综述直接抄。

一、引言 / 指令微调基础（必看 5 篇）

Training language models to follow instructions with human feedback（InstructGPT, 2022）
推荐：指令微调 + RLHF 开山之作，所有对齐工作的源头，必须引。
Stanford Alpaca: An instruction-following LLaMA model（Alpaca, 2023）
推荐：开源指令微调范式鼻祖，你用的 Alpaca‑GPT4 就是它的延伸。
Language models are few‑shot learners（GPT‑3, 2020）
推荐：基座大模型预训练的里程碑，解释“基座模型为什么需要微调”。
LIMA: Less is more for alignment（2023）
推荐：高质量小数据胜过大数据，直接支撑你“数据过滤/精选”的动机。
The Flan Collection: Designing data and methods for effective instruction tuning（2023）
推荐：指令微调数据工程最系统工作，奠定数据质量重要性。

二、相关工作：数据过滤 / 数据选择（核心对标 4 篇）

Alpagasus: Training a better alpaca with fewer data（ICLR 2024）
推荐：用强 LLM 打分做数据过滤，你论文里直接对比的 SOTA。
MoDS: Model‑oriented data selection for instruction tuning（2023）
推荐：面向目标模型的数据选择，和你“模型自感知”思路最接近。
Superfiltering: Weak‑to‑strong data filtering for fast instruction tuning（ACL 2024）
推荐：小模型替大模型过滤，低成本数据筛选标杆，你必对比。
What makes good data for alignment?（ICLR 2024）
推荐：自动数据选择最全面综述类工作，适合写相关工作。

三、方法动机：隐状态 / 模型内部信号（关键 3 篇）

I’ve got the “answer”! Interpretation of LLM hidden states in QA（2024）
推荐：证明隐状态包含质量/正确性信号，直接支撑你 CPQS 核心假设。
Latent space chain‑of‑embedding enables output‑free LLM self‑evaluation（2024）
推荐：不用生成答案，用隐状态做自我评估，和你思路高度一致。
HSF: Defending against jailbreak attacks with hidden state filtering（WWW 2025）
推荐：用隐状态做过滤/筛选的实例，证明隐状态可用于数据判别。

四、实验与基准（打榜必引 4 篇）

Measuring Massive Multitask Language Understanding（MMLU, 2021）
推荐：大模型知识能力最通用基准，你论文必测。
Training verifiers to solve math word problems（GSM8K, 2021）
推荐：数学推理标准集，你下游任务核心基准。
Evaluating large language models trained on code（HumanEval, 2021）
推荐：代码生成权威基准，你代码实验必引。
AlpacaEval: An automatic evaluator of instruction‑following models（2023）
推荐：指令跟随能力自动评测标准，你对话类效果必用。

五、模型与工程（可选但规范）

LLaMA 2: Open foundation and fine‑tuned chat models（2023）
推荐：开源基座模型标杆，你实验用的 Llama2 来源。
Qwen2.5 technical report（2024）
推荐：你实验用到的强中文基座，必须标注来源。

极简总结（写论文直接用）

想讲为什么要指令微调：读 InstructGPT、Alpaca、LIMA
想讲为什么要数据过滤：读 Alpagasus、Superfiltering、MoDS
想讲为什么能用隐状态：读隐状态解读 + 自评估那 3 篇
想做评测打榜：读 MMLU、GSM8K、HumanEval、AlpacaEval

需要我把这些整理成可直接粘贴进论文的“Related Work”标准段落吗？

http://www.cnnetsun.cn/news/2145424.html

相关文章：

【PHP 8.9命名空间隔离终极指南】：20年核心架构师亲授7大隔离陷阱与5步零兼容风险升级法

每日60秒读懂世界：4月28日、五一出行、人口就业、教育开放与全球风险，5张图带你快速看懂今日重点

TrollInstallerX终极指南：iOS 14-16.6.1一键安装TrollStore的完整解决方案

Java应用日志如何优雅推送？手把手教你配置syslog4j对接Syslog服务器（Windows/Linux都适用）

软件交互式查询化的即时反馈与探索

告别IDE！用OpenHarmony 4.1源码自带的build.sh脚本编译HAP应用（以Launcher为例）

从英文到中文：3分钟搞定GTNH整合包汉化的魔法之旅

React 状态管理与性能优化方法

告别网卡瓶颈：用Xilinx KU060 FPGA和10G/25G Ethernet Subsystem打造你的专属高速UDP网卡（附4套源码）

从STM32 HAL到Autosar MCAL：给传统嵌入式开发者的平滑过渡指南

BiliTools：跨平台哔哩哔哩资源下载与管理终极指南

工业现场数据采集失效的5大隐形杀手，第3个90%工程师至今未察觉——PHP网关健壮性加固白皮书

终极AI瞄准辅助：用YOLOv8技术打造专业级游戏体验

终极指南：ArduPilot开源自动驾驶系统完整解析与实战应用

深度解析：VisualCppRedist AIO如何一站式解决Windows依赖库管理难题

智慧农业之番茄成熟度识别西红柿成熟度检测西红柿早期中期西红柿收获阶段识别农作物成熟度识别高清图像数据集第10333期

如何告别环世界模组混乱：RimSort终极免费管理指南

别再手动注释@EnableSwagger2了！Knife4j动态启停API文档的3种实战策略

SHAP值统计显著性检验终极指南：如何判断特征重要性是否可靠

Vue项目调试踩坑记：手把手教你配置VSCode + Chrome，告别Unbound Breakpoint灰点

SAP ABAP日期计算踩坑实录：工厂日历、夏令时与RP_CALC_DATE_IN_INTERVAL的隐藏细节

告别官网！在PyCharm里直接调ChatGPT写Python代码，亲测可用（附完整配置流程）

3D高斯泼溅技术：动态场景建模与实时渲染新突破

如何用RS ASIO技术彻底解决《摇滚史密斯2014》的音频延迟问题：完整低延迟配置终极指南

不只是跑包：用EWSA Pro中文版做一次完整的家庭Wi-Fi安全自检（附防破解建议）

OpCore Simplify实战指南：黑苹果OpenCore自动化配置的高效方案

从TraceRecorder数据到清晰图表：手把手教你用Python解析FreeRTOS跟踪文件

从BERT到ALBERT：我们真的需要那么多参数吗？聊聊模型‘减肥’背后的设计哲学

漫画图像翻译工具：一键智能翻译各类图片中的文字

告别臃肿数字资产：CompressO如何重新定义本地媒体压缩工作流