内部学术成果 SOP · v2.0 修订版

公开数据集型科研成果生产流程 SOP

核心修订:从 WWH 的读文献框架,升级为真实论文生产闭环:找 baseline 缺陷 → 验证 What → 描述 How → 深思 Why → 凝练 Ideas。

Public Dataset Research Pipeline · HTML PPT
01 / 56
本次更新
02 / 56

为什么必须重写 WWH → Ideas

原来的 WWH 适合“读文献理解论文”;但用于“生产论文”时,必须区分 What、How、Why 的层级。

旧理解

Why:为什么做
What:发现什么
How:怎么做

关键问题

它没有区分“结果好”“方法讲清”“原理讲透”三个不同等级。

新修正

What 是结果是否超越 baseline;How 是怎么做到;Why 是为什么这样做合理。

总公式
03 / 56

真实科研生产顺序:从缺陷出发,而不是从口号出发

找 baseline 缺陷验证 What描述 How深思 Why凝练 Ideas
做研究时:先看到可验证的失败和改进,再追问方法与原理。写论文时:必须反过来呈现成“问题结构自然推出方法”。
双顺序
04 / 56

研究生产顺序 ≠ 论文呈现顺序

研究生产顺序

  1. 找 baseline 缺陷
  2. 验证 What:结果是否更好
  3. 描述 How:怎么做到
  4. 深思 Why:为什么合理
  5. 凝练 Ideas:形成贡献

论文呈现顺序

  1. Why:问题重要且现有方法不足
  2. Problem:明确任务和挑战
  3. How:提出方法
  4. What:实验验证
  5. Contribution:总结学术推进
工程上允许“先跑出来”;论文中必须写成“由问题自然推出”。
论文分级
05 / 56

What / How / Why 决定论文级别

层级核心问题论文形态常见风险可能级别
只有 What结果是否更好?性能报告 / 刷榜像调参,贡献弱三四区 / 弱会
What + How怎么做到更好?方法改进论文机制不足,像拼模块二区 / 一般一区
What + How + Why为什么这样做合理?机制驱动论文论证要求高一区 / 顶会潜力
Why 驱动 How,How 支撑 What从问题结构推出方法高质量研究论文难度最高高水平一区 / 顶会
核心金句
06 / 56

What 决定有没有结果,How 决定有没有方法,Why 决定有没有高度

What

是否在公开数据集、标准 benchmark、强 baseline 上取得可验证提升。

How

是否能讲清方法结构、模块作用、训练策略、优化路径和复现流程。

Why

是否能解释 baseline 失败原因,以及你的方法为什么正好解决它。

没有 What,论文没有结果;没有 How,论文没有方法;没有 Why,论文没有学术高度。
Step 1
07 / 56

找 baseline 缺陷:不是找缺点,而是找可验证的失败机制

要找的不是

  • “它没有用我的方法”
  • “它指标还可以再高一点”
  • “它没有考虑某个很小因素”
  • “我想换个模块试试”

真正要找的是

  • 在哪类样本上稳定失败?
  • 哪个指标暴露了结构性短板?
  • 哪个任务假设不成立?
  • 哪种现实约束被忽略?
baseline 缺陷 = 可复现失败 + 有普遍性 + 能被方法针对 + 能被实验验证。
Baseline 缺陷类型
08 / 56

公开数据集研究最常见的 12 类 baseline 缺陷

噪声敏感

轻微扰动后性能明显下降。

泛化不足

跨域、跨数据集、跨时间失效。

在线适应差

离线表现好,在线变化下差。

约束违反

生成结果/决策结果不满足规则。

成本过高

性能提升依赖高算力或高标注成本。

多目标冲突

只优化 accuracy,忽略风险/成本。

长尾失败

整体分数高,少数类别很差。

不确定性缺失

无法表达置信度和风险边界。

因果链弱

只相关不解释,证据结构不强。

鲁棒性弱

对缺失、异常、攻击、扰动脆弱。

评测不充分

指标不能覆盖真实应用。

不可复现

代码、配置、随机种子不完整。

缺陷证据
09 / 56

baseline 缺陷必须用证据抓住

证据类型要做什么产物
错误样本分析收集失败案例,按类型聚类failure taxonomy
分组指标按类别、长度、场景、难度、时间分组slice performance table
鲁棒性测试加入噪声、缺失、扰动、分布漂移robustness curve
成本分析比较算力、时间、标注、调用成本cost-performance curve
约束检查统计 violation rate / invalid rateconstraint table
可复现检查记录环境、随机种子、结果波动reproduction log
缺陷卡片
10 / 56

每个选题先写一张 Baseline Defect Card

Baseline Defect Card
1. 母文 / baseline:________
2. 数据集 / benchmark:________
3. 复现结果:原文 ____,复现 ____,差距 ____
4. 观察到的失败:________
5. 失败出现在哪些数据切片:________
6. 失败是否稳定复现:是 / 否
7. 可能原因 R:________
8. 可针对的技术入口 M:________
9. 预期指标变化:________
10. 是否值得进入 What 验证:是 / 否
Gate 1
11 / 56

缺陷进入下一步的四个标准

可复现

不是一次偶然现象。

可解释

能提出初步原因假设。

可干预

能找到方法入口。

可发表

问题有领域价值。

如果缺陷只存在于极少数样本、不可复现、没有领域意义,立即换题。
Step 2
12 / 56

验证 What:先证明结果能不能站住

What = 我的方案是否在公开数据集、标准 benchmark 或强 baseline 上带来可验证提升。

性能提升

accuracy / F1 / MAE / reward / success rate 等。

质量提升

invalid rate、violation rate、hallucination rate、failure rate 下降。

效率提升

更低成本、更少标注、更快推理、更少调用。

What 不等于一个数字
13 / 56

公开数据集论文的 What 至少要覆盖四类结果

结果类型意义实验形式
主结果证明比 baseline 好主表 + 强对比
消融结果证明不是偶然拼接remove each module
鲁棒结果证明在困难场景更有价值noise / drift / OOD / stress test
效率结果证明方法具有现实可用性cost / latency / memory / annotation
失败边界证明作者理解方法限制case study / error taxonomy
What 验证顺序
14 / 56

不要一上来大规模跑,先做最小可行实验

复现 baseline最小改动小样本验证完整主实验消融鲁棒性多种子

最小可行实验

只改一个关键点,验证缺陷是否可被改善。

完整实验证明

主结果、消融、鲁棒、跨数据集、多指标一起形成证据链。

What 的实验矩阵
15 / 56

实验不是越多越好,而是要对应缺陷假设

缺陷假设应该出现的 What实验设计
噪声敏感噪声越强,本文优势越明显noise level curve
泛化不足跨域或新 split 上提升更明显cross-domain test
约束违反violation rate 显著下降constraint checker
成本过高同等效果下成本更低budget-performance curve
在线适应差时间切分/流式测试更稳online evaluation
多目标冲突Pareto 前沿更优multi-objective evaluation
What 的失败处理
16 / 56

结果不够好时,不要硬写,先判断能否换场景

不能做

改数据、挑结果、隐藏失败、伪造图表。

可以做

换指标、换切片、换场景、加约束、重新定义任务边界。

更高级

把失败变成边界分析,形成方法适用条件。

性能不好不一定换题;没有可解释失败机制才应该换题。
Gate 2
17 / 56

What 通过的最低标准

超过 baseline

至少在核心指标上稳定超过。

不是偶然

多随机种子或置信区间。

对准缺陷

提升发生在目标失败切片。

可解释

有进入 How / Why 的线索。

Step 3
18 / 56

描述 How:把有效改动组织成可复现方法

How = 我通过什么结构、算法、训练策略、数据设计或优化机制取得了 What。

结构

模块如何连接?输入输出是什么?

机制

每个模块解决哪个缺陷?

复现

别人按步骤能不能跑出来?

How 不是 A+B+C 拼盘
19 / 56

每个模块必须对应 baseline 的具体缺陷

模块对应缺陷预期效果验证实验
A:基础模型解决主任务建立可比性能main baseline
B:约束/风险模块减少违规或失败violation rate 下降ablation -B
C:预算/调度模块降低成本cost-performance 更优budget curve
D:鲁棒训练/评测抵抗噪声或漂移stress test 更稳noise/OOD test
没有对应缺陷的模块,宁愿删掉;删掉后论文更清楚。
How 的写法
20 / 56

方法章节要让审稿人看见“自然性”

坏写法

本文提出 A、B、C 三个模块。A 用于……B 用于……C 用于……

问题:像堆模块。

好写法

baseline 的失败来自 R1/R2/R3。为分别处理这些原因,本文设计 A/B/C,并形成统一框架。

优点:方法由问题推出。

Method Card
21 / 56

写方法前先填 Method Card

Method Card
1. 方法名称:________
2. 输入 / 输出:________
3. 目标 baseline 缺陷:________
4. 模块 A:解决 ________
5. 模块 B:解决 ________
6. 模块 C:解决 ________
7. 训练 / 优化流程:________
8. 推理 / 决策流程:________
9. 复杂度 / 成本:________
10. 预期消融结果:________
How 的图表
22 / 56

方法框架图必须展示逻辑,而不是只画模块框

问题入口

从 baseline 缺陷进入,而不是从模型名字进入。

模块对应

每个模块旁边标注解决的问题。

输出验证

图中显示最终对应哪个指标改善。

好图 = 缺陷 → 模块 → 指标;坏图 = 方框 → 箭头 → 更多方框。
Gate 3
23 / 56

How 通过的最低标准

讲得清

输入、输出、流程完整。

对得上

模块对应 baseline 缺陷。

拆得开

消融能证明模块有效。

跑得出

代码和配置可复现。

Step 4
24 / 56

深思 Why:论文高度来自原因解释

Why = 为什么这个方法设计是合理的,为什么它正好解决 baseline 的核心失败机制。

不是

“因为我们试了有效”。

而是

“baseline 失败来自 R,本文方法改变了 R 对结果的影响路径”。

最终

让审稿人相信提升不是偶然。

Why 的证据类型
25 / 56

Why 可以来自理论、机制、诊断和实验闭环

Why 类型说明适用论文
理论证明收敛性、边界、复杂度、近似比优化 / 算法 / 理论型
机制解释方法改变了错误来源或决策路径工程 AI / 应用 AI
任务结构方法符合数据分布、约束、因果链公开数据集 / benchmark
误差分解把整体误差拆成可解释部分预测 / 估计 / 生成
诊断实验证明提升集中在理论预期场景大多数实验论文
反事实/对照换条件后优势消失或减弱强解释性论文
从 What 反推 Why
26 / 56

结果出现在哪里,原因就要解释到哪里

观察

本文方法在高噪声样本上提升最大。

Why

方法降低了对局部异常特征的依赖。

观察

本文方法 violation rate 明显下降,但 accuracy 提升不大。

Why

方法主要贡献是约束满足,而非判别性能。

观察

本文方法在跨时间 split 更稳。

Why

方法缓解了分布漂移下的历史模式过拟合。

观察

预算较低时本文优势更明显。

Why

方法改进了验证资源分配效率。

Why 的写作模板
27 / 56

把 Why 写成可以被反驳、也可以被验证的假设

Why Hypothesis
我们观察到 baseline 在 P 场景下失败。
该失败可能来自原因 R:________。
因此,如果 R 是主要原因,那么引入方法 M 后,应该出现结果 W:________。
实验 E1/E2/E3 验证了 W,并且消融实验显示去掉 M 后 W 消失或明显减弱。
因此,本文认为 M 的有效性来自于对 R 的缓解,而不是偶然调参。
Why 与目标期刊
28 / 56

不同出口对 Why 的要求不同

目标Why 要求实验/论证要求
三区/四区能说明基本合理性主结果 + 简单消融
二区方法动机清楚主结果 + 消融 + 对比
一般一区有机制解释或充分诊断多数据集 + 鲁棒 + 失败分析
高水平一区/顶会Why 驱动方法设计理论/机制/诊断/泛化完整闭环
Gate 4
29 / 56

Why 通过的最低标准

原因清楚

baseline 为什么失败。

方法对因

方法为什么能缓解失败。

实验闭环

提升发生在预期场景。

可被反驳

不是无法证伪的空话。

Step 5
30 / 56

凝练 Ideas:把结果、方法和原因变成学术贡献

Ideas 不是“我提出一个新方法”,而是“我在某个已有研究障碍上推进了一步”。
现有 baseline 在 P 问题上存在 D 缺陷。本文通过 H 方法解决该缺陷,并在公开数据集上验证了 W 结果。进一步分析表明,该提升来自 Y 机制。因此,本文在 I 方向上推进了已有研究。
Ideas 与四新
31 / 56

最终贡献要落到“四新”中的至少一项

四新对应论文贡献典型表达
新问题新任务 / 新 benchmark / 新约束首次系统研究 ________
新解决路径从分类到决策,从离线到在线将问题重构为 ________
新方法技术新算法 / 新框架 / 新评测器提出 ________ 框架以解决 ________
新奇有趣反直觉发现 / 新失败模式 / 新规律揭示了 ________ 条件下的 ________ 现象
对手句
32 / 56

没有对手句,就没有清晰贡献

定义型对手

对核心概念给出奠基定义。赢点:细分、修正、扩展。

结论型对手

给出强结论。赢点:限定条件、例外、边界。

方法/证据型对手

形成主流证据链。赢点:更强数据、更强方法、更强评测。

对手认为:________。
我的赢点是:________。
我推进一步的证据是:What + How + Why。
从 Ideas 到标题
33 / 56

标题要把对手和赢点压缩成一句话

模糊标题

某某任务中的深度学习方法研究

问题:没有对象、没有赢点、没有贡献。

精准标题

Beyond Offline Accuracy: Budget-Aware Verification Orchestration for Compliance-Critical Report Generation

优点:有对象、有场景、有方法、有价值。

题目不是宣传语,而是审稿人第一眼看到的贡献压缩包。
总流程图
34 / 56

v2.0 完整 SOP:从公开数据集到论文资产

方向筛选母文捕捉数据集审查baseline 复现缺陷卡片What 验证How 整理Why 解释Ideas 凝练论文写作开源发布
这不是线性一次完成,而是循环迭代:What 不稳回到缺陷;How 讲不清回到方法;Why 不够强回到诊断实验。
方向筛选
35 / 56

不要做一般性问题,要做特殊场景、特殊约束、特殊数据

避免

  • 大模型通用能力
  • 扩散模型通用生成
  • 通用目标检测/分割
  • 大厂大团队主导赛道

优先

  • 离线转在线
  • 确定转不确定
  • 干净数据转噪声数据
  • 单目标转多目标

原因

特殊场景更容易形成清晰对手句、可验证缺陷和高价值 Why。

母文选择
36 / 56

母文必须同时满足学术强度和复现可行性

检查项合格标准不合格处理
发表位置顶刊/顶会/目标期刊近年论文降低优先级
数据公开、可下载、许可证清楚放弃或换数据
代码能安装、能运行、指标接近最多花 2–3 天排查
缺陷能找到可验证失败场景只可作为参考文献
出口与目标期刊近两年风格一致换投稿方向
数据集审查
37 / 56

公开数据集不是能下载就能用

数据质量

  • 规模与类别分布
  • 缺失、噪声、异常
  • 标注一致性
  • split 是否合理

合法与伦理

  • 许可证是否允许研究使用
  • 是否含个人隐私
  • 是否可再发布
  • 是否需要脱敏
数据集论文尤其要防止:数据泄漏、重复样本、标签泄漏、时间泄漏、主体泄漏。
baseline 复现
38 / 56

复现不是准备工作,而是研究地基

复现任务最低要求产物
环境记录 OS/CUDA/Python/依赖版本environment.yml
数据下载、预处理、split 与原文一致data README
训练参数、随机种子、日志完整train logs
评测指标脚本与原文一致eval script
结果与原文差距可解释reproduction table
实验矩阵
39 / 56

所有实验都要服务于 What/How/Why

实验回答问题对应层级
主对比实验本文是否比 baseline 好?What
消融实验提升来自哪个模块?How
参数敏感性方法是否稳定?How/Why
鲁棒性测试是否解决目标缺陷?What/Why
失败案例分析方法边界在哪里?Why
复杂度/成本分析是否可用?What/How
论文写作
40 / 56

做研究的顺序和写论文的顺序要刻意反转

做的时候

缺陷 → What → How → Why → Ideas

强调效率和确定性。

写的时候

Why → Problem → How → What → Contribution

强调逻辑和说服力。

真正的写作能力,是把“实验试出来的东西”重构成“问题自然推出的方案”。
Introduction
41 / 56

引言要先铺 Why,再引出 baseline 缺陷

段落内容目标
P1大背景:这个领域为什么重要建立必要性
P2具体任务:公开数据集和评价场景收窄问题
P3主流 baseline:已有方法解决了什么承认前人
P4关键缺陷:仍然存在什么失败机制提出对手句
P5本文方案:How + What + Why 简述展示贡献
Related Work
42 / 56

相关工作不是列文献,而是为对手句服务

任务定义类

说明问题如何被提出,本文如何重构。

方法路线类

说明 baseline 属于哪条路线,缺陷在哪里。

评测/数据类

说明现有 benchmark 不能覆盖什么。

每一小节结尾必须收束到:已有研究解决了 _____,但仍然缺少 _____。
Method
43 / 56

方法章节必须同时承担 How 和 Why

How 内容

  • 符号定义
  • 总体框架
  • 模块细节
  • 训练/推理算法
  • 复杂度分析

Why 内容

  • 设计动机
  • 对应缺陷
  • 任务结构适配
  • 理论或机制解释
  • 预期实验现象
Results & Discussion
44 / 56

结果部分不是贴表,而是完成 What→How→Why 的闭环

主结果证明 What消融解释 How诊断支撑 Why案例展示边界讨论形成 Ideas
每张图表四句话:这是什么 → 有什么趋势 → 为什么这样 → 对本文贡献意味着什么。
图表清单
45 / 56

v2.0 论文图表最小集合

图表作用对应层级
Fig. 1 问题与缺陷示意图让审稿人看到 baseline 失败在哪里Why
Fig. 2 方法框架图展示缺陷到模块的映射How
Table 1 数据集统计说明数据与任务Problem
Table 2 主结果证明超过 baselineWhat
Table 3 消融证明模块必要性How
Fig. 3 鲁棒/成本曲线证明困难场景优势What/Why
Fig. 4 失败案例说明边界与机制Why
公开发布
46 / 56

公开数据集型成果必须沉淀为 release 包

release-package/
  README.md                  # 任务说明与快速开始
  LICENSE                    # 数据/代码许可
  CITATION.cff               # 引用方式
  data_card.md               # 数据来源、统计、风险、限制
  model_card.md              # 模型设置与适用边界
  environment.yml            # 复现环境
  scripts/
    reproduce_main.sh
    reproduce_ablation.sh
    reproduce_robustness.sh
  src/
    datasets/ models/ evaluation/
  results/
    raw_logs/ tables/ figures/
项目管理
47 / 56

每个阶段必须有 Gate,而不是无限试错

Gate通过标准不通过处理
G0 立项母文、数据、代码、目标出口齐全换题
G1 复现baseline 指标接近原文换实现或换母文
G2 缺陷发现可复现失败机制换切片或换问题
G3 What核心结果稳定提升换场景/指标/方法
G4 How方法讲得清且可消融删模块或重构方法
G5 Why机制解释和实验闭环成立补诊断实验
G6 投稿图表、引用、开源、伦理完成延期投稿
时间表
48 / 56

8 周形成高质量初稿的推荐节奏

周次目标交付物
第 1 周母文与数据集筛选10 张论文卡 + 3 张数据卡
第 2 周baseline 复现环境、日志、复现表
第 3 周缺陷诊断Defect Card + 错误分析
第 4 周What 最小验证核心结果初版
第 5 周How 方法整理方法图 + 消融设计
第 6 周Why 诊断实验鲁棒、切片、案例
第 7 周论文初稿图表齐全,正文 70%
第 8 周内部评审与投稿准备修改清单 + release 包
风险控制
49 / 56

最常见的失败不是方法不强,而是流程失控

风险 1

baseline 跑不通还继续做。

风险 2

没有缺陷,只是堆模块。

风险 3

只看平均指标,不看切片失败。

风险 4

What 有了,但 How 讲不清。

风险 5

How 有了,但 Why 只是口号。

风险 6

写作时暴露出“先试出来”的痕迹。

学术诚信
50 / 56

高确定性产出不等于突破学术红线

绝对禁止

  • 伪造/篡改数据
  • 选择性隐藏关键失败
  • 图片重复使用或 PS
  • 伪造引用和实验设置
  • 无授权发布数据

鼓励做到

  • 完整记录实验日志
  • 报告失败边界
  • 公开代码与配置
  • 保留随机种子和原始结果
  • 清楚写明数据许可
AI 协作
51 / 56

AI 可以做加速器,不能做责任主体

可以用 AI不能用 AI
总结文献、生成论文卡片初稿编造不存在的文献
辅助代码、排错、生成脚本伪造实验结果
润色语言、压缩摘要替代作者判断贡献
生成图表草稿篡改真实图像或数据
生成 checklist决定是否隐瞒失败结果
研究日志
52 / 56

Obsidian / 周记是 Why 的孵化器

每日记录

  • 今天跑了什么?
  • 结果支持了哪个 What?
  • 暴露了哪个缺陷?
  • How 是否需要重构?
  • 可能的 Why 是什么?

每周复盘

  • 本周最大有效发现
  • 本周最大失败
  • 下周要验证的 Why 假设
  • 可以写进论文的句子
  • 是否通过当前 Gate
四个长期习惯
53 / 56

稳定产出论文,首先要稳定认知系统

冥想

每天 5–10 分钟,恢复注意力和判断力。

读书

选好书、新领域、根本性理论、传记。

日志/周记

把研究过程变成论文素材库。

有氧运动

每周 2–3 次,每次 30 分钟以上。

身体和情绪不稳定,研究判断就会不稳定。
一页纸立项模板
54 / 56

所有公开数据集论文开题前必须填完

1. 模糊主题:________
2. 母文 / baseline:________
3. 公开数据集:________
4. baseline 复现状态:________
5. baseline 缺陷:________
6. What:预期在哪些指标/场景提升?________
7. How:用什么方法做到?________
8. Why:为什么这个方法合理?________
9. Ideas:形成哪类四新贡献?________
10. 目标期刊/会议:________
11. 实验矩阵:________
12. release 包计划:________
最终检查清单
55 / 56

投稿前用 12 个问题自查

1

母文足够强吗?

2

数据集公开合法吗?

3

baseline 复现了吗?

4

缺陷可复现吗?

5

What 稳定提升吗?

6

How 不是拼盘吗?

7

Why 讲得透吗?

8

消融完整吗?

9

鲁棒/泛化有吗?

10

失败边界写了吗?

11

代码 release 了吗?

12

贡献句尖锐吗?

结语
56 / 56

从论文速成,升级到高质量论文生产

公开数据集型科研的高确定性,不来自“随便改一点刷分”,而来自一条闭环:找到 baseline 的结构性缺陷,用 What 验证结果,用 How 组织方法,用 Why 解释机制,最后凝练成可被审稿人认可的 Ideas。
最终目标:不是“我做了一个新方法”,而是“我在已有研究的关键障碍上,完成了一次可验证、可解释、可复现的推进”。
← / → 翻页 · Print 可导出 PDF