科研方法论¶

🎯 学习目标¶

完成本章学习后，你将能够： - 理解什么是好的研究，掌握研究质量评估标准 - 学会科学选题，从文献、实际问题和讨论中发现研究方向 - 掌握实证研究、实验研究等主要研究方法 - 设计严谨的实验方案，避免常见的科研误区 - 撰写研究计划书，合理管理科研时间

一、什么是好的研究¶

好的研究不是闭门造车，而是在前人基础上做出有意义的贡献。评价一项研究是否"好"，可以从以下三个核心维度考量：

1.1 创新性（Novelty）¶

创新性是学术研究最核心的要求。创新不意味着凭空创造，而是在已有知识体系中提出新的视角、方法或发现。

创新性可以体现在多个层面：

问题新：发现一个前人未曾注意到的问题或现象
方法新：提出解决已有问题的新方法、新框架
视角新：用新的理论框架或跨学科方法重新审视已有问题
数据新：构建新的数据集或基准测试
应用新：将已有方法成功应用于新的领域

💡 提示：创新性不是"推倒重来"，大部分优秀论文都是站在巨人肩膀上做出增量创新。关键是你的工作是否填补了某个空白（Gap）。

1.2 重要性（Significance）¶

一项研究需要对学术界或产业界产生实质性的影响。评估重要性的标准包括：

学术价值：是否推动了对某个问题的理解？是否开辟了新的研究方向？
实用价值：研究成果是否能解决实际问题？
影响范围：研究结果是否对广泛的群体和领域有启发意义？

⚠️ 注意：一个研究课题越重要，通常竞争也越激烈。新手需要在重要性和自身能力之间找到平衡。

1.3 可行性（Feasibility）¶

再好的想法，如果无法在有限时间和资源内完成，也不是好的选题。可行性需要考虑：

时间约束：硕士通常2-3年，博士3-5年，课题需要在毕业前完成
资源约束：计算资源（GPU）、数据获取、实验设备
技术约束：自己和团队的技术能力是否支撑课题
数据约束：是否能获取到足够质量和数量的数据

二、如何选题¶

选题是科研中最关键也最困难的一步。一个好的选题决定了你研究的上限。以下是四种主要的选题方法：

2.1 从文献综述中发现Gap¶

这是最经典、最可靠的选题方法。通过大量阅读领域论文，寻找尚未被充分研究的问题。

操作步骤：

选定大方向：例如"大模型的安全对齐"
广泛阅读：阅读该方向近3年的顶会论文（50-100篇）
绘制知识地图：整理已有方法的分类和演进路线
寻找Gap：
某类方法尚未被应用于某个场景
某个假设是否成立尚缺乏验证
已有方法在某些条件下表现不佳
两个相关领域尚未被联系起来

Text Only

文献综述选题流程：
大方向 → 广泛阅读 → 分类整理 → 发现Gap → 验证可行性 → 确定课题

💡 提示：很多优秀论文的Related Work或Conclusion部分会明确指出"Future Work"，这些都是潜在的选题方向。

2.2 从实际问题出发¶

从工业界或日常生活中发现的实际问题出发，往往能产出既有学术价值又有实用意义的研究。

实习或工作中遇到的技术难题
开源项目中尚未解决的Issue
行业报告中提到的技术瓶颈
社会问题中需要技术手段解决的挑战

2.3 与导师/同行讨论¶

与导师讨论：导师通常对领域有更深入的理解，能帮你判断方向的价值和可行性
参加学术研讨：Seminar、Reading Group、学术会议都是激发想法的好场所
与同学交流：不同背景的同学可能提供跨学科的视角
关注社交平台：Twitter/X上的学术社区经常有前沿的讨论

2.4 评估选题标准¶

确定了几个候选方向后，用以下标准综合评估：

标准	说明	权重
创新性	与已有工作的区别度，是否有明确的Gap	⭐⭐⭐⭐⭐
可行性	时间、资源、技术是否可支撑	⭐⭐⭐⭐⭐
时效性	是否是当前热点或即将成为热点	⭐⭐⭐⭐
影响力	潜在的学术和实际影响	⭐⭐⭐⭐
个人兴趣	你是否对这个方向有热情	⭐⭐⭐
导师匹配	是否符合导师的研究方向和资源	⭐⭐⭐

⚠️ 注意：不要单纯追热点。热点方向竞争激烈，如果你没有独特的优势（数据、方法、视角），很容易被卷。选择一个自己真正感兴趣且能做出差异化的方向更重要。

三、研究方法分类¶

不同的研究问题适合不同的研究方法。了解各种研究方法的特点，有助于选择最合适的方法论。

3.1 实证研究（Empirical Research）¶

通过收集和分析数据来验证假设或回答研究问题。

定量研究：通过统计分析验证假设（如A/B测试、问卷调查）
定性研究：通过访谈、案例分析等方法深入理解现象
混合方法：结合定量和定性方法

适用场景：需要验证某个假设是否成立，或需要对现象进行测量和比较。

3.2 理论分析（Theoretical Analysis）¶

通过数学推导、逻辑推理等方法建立或验证理论。

提出新的理论框架或模型
对已有算法进行时间/空间复杂度分析
证明某个方法的收敛性、最优性等性质

适用场景：需要从理论上证明某个方法的有效性或局限性。

3.3 实验研究（Experimental Research）¶

在CS/AI领域最常见的研究方法，通过设计实验来验证方法的有效性。

提出新方法，在标准数据集上与Baseline比较
设计消融实验验证各个组件的贡献
分析不同参数、配置对性能的影响

适用场景：提出新的算法、模型或系统，需要实验验证其效果。

3.4 综述研究（Survey/Review）¶

系统地整理、分析和综合某个领域的已有研究。

系统综述（Systematic Review）：按照严格的纳入/排除标准筛选文献
元分析（Meta-analysis）：对多项研究结果进行统计综合
叙述性综述（Narrative Review）：对领域进行整体描述和评述

适用场景：领域已积累大量研究，需要系统性的总结和展望。

四、实验设计原则¶

严谨的实验设计是得出可靠结论的基础。以下是AI/CS领域常用的实验设计原则：

4.1 对照实验设计¶

对照实验是最基本的实验范式：设置实验组和对照组，通过比较二者的差异来验证你的方法是否有效。

关键要素：

实验组：使用你提出的方法
对照组（Baseline）：使用已有的经典方法或当前SOTA方法
公平对比：确保实验组和对照组在其他条件上尽可能一致

Python

# 对照实验示例结构
实验设计 = {
    "数据集": ["Dataset_A", "Dataset_B", "Dataset_C"],
    "基线方法": ["Method_1", "Method_2", "SOTA_Method"],
    "我们的方法": "Proposed_Method",
    "评估指标": ["Accuracy", "F1-Score", "Inference Time"],
    "重复次数": 3,  # 多次运行取平均
    "随机种子": [42, 123, 456]
}

💡 提示：Baseline的选择很重要。要选择公认的强Baseline，否则审稿人会质疑你的实验说服力。

4.2 消融实验（Ablation Study）¶

消融实验是验证模型中各个组件贡献的标准方法。通过逐一移除模型的各个组件，观察性能变化，来证明每个组件的必要性。

实验配置	Component A	Component B	Component C	性能
Full Model	✓	✓	✓	92.5%
w/o A	✗	✓	✓	89.3%
w/o B	✓	✗	✓	90.1%
w/o C	✓	✓	✗	91.0%

⚠️ 注意：消融实验不仅仅是简单地去掉组件。你需要分析为什么去掉某个组件会导致性能下降，这才是消融实验的价值所在。

4.3 控制变量法¶

在比较不同方法时，必须严格控制变量，确保公平性：

相同的数据集和数据划分：训练集/验证集/测试集划分一致
相同的评估协议：使用相同的评估指标和评估方式
相同的计算资源：当比较效率时，在相同硬件上测试
相同的超参数搜索预算：不要给自己的方法更多调参预算
相同的预处理：数据预处理方式保持一致

4.4 统计显著性检验¶

单次实验结果可能受随机因素影响，需要通过统计检验来确认结果的可靠性。

p-value（p值）¶

p值表示在零假设为真的情况下，观察到当前结果或更极端结果的概率。

p < 0.05：通常认为结果具有统计显著性
p < 0.01：具有高度显著性
p < 0.001：具有极高显著性

常用检验方法¶

方法	适用场景	说明
t-test	两组数据比较	比较两种方法的性能差异是否显著
Paired t-test	配对样本	同一数据集上两种方法的配对比较
ANOVA	多组数据比较	比较三种及以上方法的性能差异
Wilcoxon signed-rank test	非参数检验	当数据不满足正态分布假设时使用

Python

from scipy import stats

# 两种方法在5次实验中的准确率
method_a = [92.1, 92.5, 91.8, 92.3, 92.0]
method_b = [90.5, 91.0, 90.3, 90.8, 90.7]

# 配对t检验
t_stat, p_value = stats.ttest_rel(method_a, method_b)
print(f"t-statistic: {t_stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print("差异具有统计显著性（p < 0.05）")

五、研究计划书撰写¶

研究计划书（Research Proposal）是开题报告的核心文档，也是申请基金、奖学金时的必备材料。

研究计划书基本结构¶

Text Only

1. 题目（Title）
2. 研究背景与动机（Background & Motivation）
3. 文献综述（Literature Review）
4. 研究问题（Research Questions）
5. 研究方法（Methodology）
   - 方法概述
   - 技术路线
   - 实验方案
6. 预期贡献（Expected Contributions）
7. 时间计划（Timeline）
8. 参考文献（References）

写作要点¶

研究背景：从大到小，先介绍大背景，再聚焦到具体问题
文献综述：不是简单罗列，而是要分析已有工作的不足
研究问题：明确、具体、可验证的问题陈述
研究方法：详细描述技术路线，最好配有框架图
时间计划：用甘特图展示各阶段的时间安排

💡 提示：一份好的研究计划书应该让审阅者在10分钟内理解你要做什么、为什么做、怎么做。

六、时间管理与科研效率¶

科研是一场马拉松，良好的时间管理直接影响科研产出。

6.1 番茄工作法（Pomodoro Technique）¶

工作25分钟，休息5分钟，为一个番茄钟
每4个番茄钟后休息15-30分钟
适合需要深度思考的工作（写论文、读论文、写代码）

Text Only

科研一天时间分配示例：
09:00-10:30  深度工作（写论文/做实验）🍅🍅🍅
10:30-11:00  休息+回复邮件
11:00-12:00  阅读论文 🍅🍅
14:00-16:00  编程实验 🍅🍅🍅🍅
16:00-16:30  休息+讨论
16:30-18:00  整理笔记/写文档 🍅🍅🍅

6.2 甘特图（Gantt Chart）¶

用甘特图规划研究的各个阶段，可视化时间进度：

阶段	M1	M2	M3	M4	M5	M6	M7	M8	M9	M10	M11	M12
文献调研	█	█	█
方法设计		█	█	█
实验实施				█	█	█	█
论文撰写							█	█	█
投稿修改									█	█	█	█

6.3 GTD（Getting Things Done）¶

GTD方法的核心是把所有任务从大脑中清出来，放入一个可信赖的系统中管理：

收集（Capture）：记录所有任务和想法到收件箱
理清（Clarify）：逐条判断是否需要行动
组织（Organize）：分类归档（项目、等待、将来/也许）
回顾（Review）：每周回顾所有项目进展
执行（Engage）：根据上下文和优先级选择执行

推荐工具：Notion、Todoist、Obsidian、飞书文档

七、常见科研误区¶

了解常见的科研误区，可以帮助你避免走弯路，产出更可靠的研究成果。

7.1 p-hacking（p值操纵）¶

定义：通过反复尝试不同的统计分析方法、数据子集或变量组合，直到得到显著性结果（p < 0.05）。

表现形式： - 尝试多种统计检验，只报告显著的那个 - 在数据子集上反复测试，找到显著的子集 - 收集数据到p值"刚好"低于0.05就停止

避免方法： - 预注册研究方案（Pre-registration） - 报告所有实验结果，包括不显著的 - 使用Bonferroni校正处理多重比较问题

7.2 过拟合测试集¶

定义：在模型开发过程中反复使用测试集调参，导致模型在测试集上"记住"了答案，性能虚高。

正确做法：

Text Only

数据集划分：
训练集（60-70%） → 用于训练模型
验证集（15-20%） → 用于调参和模型选择
测试集（15-20%） → 只在最终评估时使用一次！

⚠️ 注意：严格来说，测试集应该只使用一次。如果你发现自己多次在测试集上评估并据此调整模型，你的测试结果就不再可信。

7.3 选择性报告（Cherry-picking）¶

定义：只报告对自己有利的实验结果，隐瞒不利的结果。

表现形式： - 只在某些数据集上报告结果（因为在其他数据集上表现不好） - 只报告某些评估指标（因为其他指标不突出） - 只展示成功的案例（case study），隐藏失败的案例

避免方法： - 在所有标准数据集上报告结果 - 使用多种评估指标全面评估 - 展示成功和失败的案例，并分析原因 - 诚实讨论方法的局限性

7.4 其他常见误区¶

误区	说明	建议
盲目追热点	跟风研究热门方向但缺乏自己的见解	在热点中找到自己的独特切入点
闭门造车	不与外界交流，独自工作	多参加学术交流，多与人讨论
完美主义	追求完美导致迟迟不动笔	先完成再完美，iterate fast
忽视写作	把所有时间花在实验上，匆忙写论文	实验和写作应该并行
不做版本管理	代码和论文没有版本控制	用Git管理代码，用Overleaf/Git管理论文

八、研究方法分类详解¶

在第三节中我们概述了四大类研究方法。本节将对定量研究、定性研究和混合方法进行更为深入的探讨，帮助你根据研究问题选择最合适的方法论。

8.1 定量研究方法（Quantitative Research）¶

定量研究通过收集数值化的数据，运用统计分析方法来验证假设或回答研究问题。在AI/CS领域，绝大部分实验研究都属于定量研究。

定量研究的核心特征¶

特征	描述
客观性	通过标准化的数据收集和统计分析减少主观偏见
可重复性	其他研究者按照相同步骤应能得到类似结果
可推广性	基于样本的结论可以推广到更大的群体
假设驱动	通常先提出假设，再通过数据验证

AI领域常见的定量研究设计¶

1. 比较实验（Comparative Study）

Python

# 比较实验的标准框架
experiment_design = {
    "研究问题": "方法A是否优于方法B？",
    "自变量": "不同的方法（A vs B vs C）",
    "因变量": "性能指标（准确率、F1等）",
    "控制变量": ["数据集", "超参数搜索预算", "硬件环境"],
    "数据收集": "在K个数据集上各运行N次",
    "统计分析": "配对t检验或Wilcoxon检验"
}

2. 因子实验（Factorial Design）

因子实验同时研究多个因素（因子）对结果的影响，以及因素之间的交互效应。

Text Only

示例：研究"模型大小"和"数据量"对性能的影响

因子A（模型大小）：Small, Medium, Large
因子B（数据量）：1K, 10K, 100K

完全因子设计需要 3×3 = 9 组实验
如果每组重复3次，共需 27 次实验

	数据量=1K	数据量=10K	数据量=100K
Small Model	72.3	81.5	84.2
Medium Model	75.1	85.3	89.7
Large Model	73.8	86.2	93.1

通过因子实验可以发现：大模型在小数据量下可能还不如中等模型（过拟合），但在大数据量下优势明显（交互效应）。

3. 回归分析（Regression Analysis）

Python

# 研究Scale Law：模型参数量与性能的关系
import numpy as np
from sklearn.linear_model import LinearRegression

# 模型参数量（对数尺度）
log_params = np.array([6, 7, 8, 9, 10, 11]).reshape(-1, 1)
# 对应性能
performance = np.array([45.2, 52.8, 61.3, 68.9, 75.2, 80.1])

model = LinearRegression()
model.fit(log_params, performance)
print(f"R² = {model.score(log_params, performance):.4f}")
print(f"每增加1个数量级参数，性能提升约 {model.coef_[0]:.2f} 点")

4. 问卷调查（Survey）

在HCI（人机交互）和SE（软件工程）领域，问卷调查是常用的定量方法。

Text Only

设计问卷的注意事项：
1. 使用Likert量表（如1-5分或1-7分）
2. 避免引导性问题
3. 预测试（Pilot Study）检验问卷质量
4. 计算Cronbach's Alpha检验问卷信度（α > 0.7为可接受）
5. 报告样本量和回收率

8.2 定性研究方法（Qualitative Research）¶

定性研究通过非数值化的方式深入理解研究现象，在SE和HCI领域广泛使用。

常见的定性研究方法¶

方法	描述	适用场景
半结构化访谈	围绕预设问题进行灵活深入的交流	了解开发者对工具的使用体验
案例研究	深入分析一个或几个具体案例	分析某个大型开源项目的演化
民族志	长期观察和参与某个社区	研究开源社区的协作文化
扎根理论	从数据中归纳出理论	探索新现象的内在机制
内容分析	系统分析文本、图像等	分析GitHub Issue评论的情感

Case Study方法详解¶

Text Only

案例研究的标准流程：
1. 定义研究问题
2. 选择案例（目的性抽样）
3. 定义数据收集方案
   - 访谈
   - 文档分析
   - 观察
4. 数据编码和分析
5. 三角验证（Triangulation）
6. 撰写案例报告

编码分析（Coding）¶

Text Only

定性数据分析常用编码方法：

1. 开放编码（Open Coding）
   → 逐行、逐段分析数据
   → 为每段数据赋予一个标签（代码）

2. 轴心编码（Axial Coding）
   → 将开放编码的结果分类归组
   → 建立类别之间的关系

3. 选择性编码（Selective Coding）
   → 确定核心类别
   → 构建理论框架

工具推荐：NVivo, Atlas.ti, MaxQDA

8.3 混合方法研究（Mixed Methods）¶

混合方法结合定量和定性研究的优势，能更全面地回答研究问题。

混合方法的三种基本设计¶

Text Only

1. 序贯解释设计（Sequential Explanatory）
   定量研究 → 定性研究
   先用实验获得定量结果，再用访谈解释为什么

2. 序贯探索设计（Sequential Exploratory）
   定性研究 → 定量研究
   先用访谈探索现象，再用实验验证发现

3. 并行三角设计（Concurrent Triangulation）
   定量研究 ⇆ 定性研究
   同时进行，用两种方法相互验证

AI领域的混合方法示例：

Text Only

研究问题：大语言模型的输出质量评估

定量部分：
- 在标准基准测试上评估模型性能
- 使用自动化评估指标（BLEU、ROUGE等）
- 统计分析结果的显著性

定性部分：
- 邀请人类评估者对模型输出进行评分
- 进行半结构化访谈了解评估者的判断依据
- 内容分析模型输出的错误类型和模式

整合：
- 对比自动评估和人类评估的一致性
- 用定性发现解释定量结果中的异常
- 提出更完善的评估框架

九、AI领域常用评估方法论¶

在AI领域，实验评估是验证方法有效性的核心手段。本节系统介绍AI各子领域常用的评估体系。

9.1 分类任务评估¶

基本评估指标¶

Python

from sklearn.metrics import (
    accuracy_score, precision_score, recall_score,
    f1_score, confusion_matrix, classification_report
)

# 基本指标
y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 1]
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 0]

print("Accuracy:", accuracy_score(y_true, y_pred))
print("Precision:", precision_score(y_true, y_pred))
print("Recall:", recall_score(y_true, y_pred))
print("F1-Score:", f1_score(y_true, y_pred))
print("\nClassification Report:")
print(classification_report(y_true, y_pred))

各指标适用场景¶

指标	适用场景	不适用场景
Accuracy	类别均衡的分类	类别严重不均衡
Precision	关注"不误报"（如垃圾邮件检测）	关注"不漏报"
Recall	关注"不漏报"（如疾病诊断）	关注"不误报"
F1-Score	需要平衡Precision和Recall	有明确偏好
AUC-ROC	需要阈值无关的评估	类别极度不均衡
AUC-PR	类别不均衡场景	类别均衡
MCC	全面评估二分类性能	-

多分类评估¶

Python

# 多分类的Macro与Micro平均
# Macro：先算每类指标，再取平均（对所有类别同等重要）
# Micro：先汇总所有类TP/FP/FN，再计算（受多数类影响大）
# Weighted：按每类样本量加权平均

f1_macro = f1_score(y_true, y_pred, average='macro')
f1_micro = f1_score(y_true, y_pred, average='micro')
f1_weighted = f1_score(y_true, y_pred, average='weighted')

9.2 生成任务评估¶

NLP生成任务¶

指标	适用任务	说明
BLEU	机器翻译	n-gram精确度，基于参考翻译
ROUGE	摘要生成	n-gram召回率
METEOR	机器翻译	考虑同义词匹配
BERTScore	文本生成	基于BERT一致性计算相似度
Perplexity	语言模型	模型对数据的困惑度
Human Eval	所有生成任务	人类评估（质量金标准）

Python

# BERTScore示例
from bert_score import score as bert_score

# 候选文本和参考文本
cands = ["The cat is on the mat."]
refs = ["A cat is sitting on the mat."]

P, R, F1 = bert_score(cands, refs, lang="en")
print(f"BERTScore F1: {F1.mean():.4f}")

图像生成任务¶

指标	说明	越低/越高越好
FID	Fréchet Inception Distance	越低越好
IS	Inception Score	越高越好
LPIPS	Learned Perceptual Image Patch Similarity	越低越好
CLIP Score	文本-图像一致性	越高越好
Human Preference	人类偏好评估	-

9.3 检索与推荐任务评估¶

指标	说明
Precision@K	Top-K结果中相关结果的比例
Recall@K	Top-K结果覆盖了多少相关结果
MAP	Mean Average Precision，平均精确度均值
MRR	Mean Reciprocal Rank，平均倒数排名
NDCG@K	Normalized Discounted Cumulative Gain，考虑排序位置
Hit Rate@K	Top-K中是否包含至少一个相关结果

Python

import numpy as np

def ndcg_at_k(relevance_scores, k):
    """计算NDCG@K"""
    relevance = np.array(relevance_scores[:k])  # 切片操作：[start:end:step]提取子序列
    # DCG
    dcg = np.sum(relevance / np.log2(np.arange(2, len(relevance) + 2)))
    # Ideal DCG
    ideal_rel = np.sort(relevance_scores)[::-1][:k]
    idcg = np.sum(ideal_rel / np.log2(np.arange(2, len(ideal_rel) + 2)))
    return dcg / idcg if idcg > 0 else 0.0

# 示例：5个检索结果的相关性评分
scores = [3, 2, 0, 1, 3]
print(f"NDCG@5: {ndcg_at_k(scores, 5):.4f}")

9.4 LLM专用评估¶

评估基准	测试能力	说明
MMLU	知识与推理	57个学科的多选题
GSM8K	数学推理	小学数学文字题
HumanEval	代码生成	Python编程题
MBPP	代码生成	基础Python编程
MT-Bench	对话质量	多轮对话评估
AlpacaEval	指令遵循	与参考模型对比
TruthfulQA	真实性	检测幻觉和错误
HellaSwag	常识推理	情景续写

9.5 交叉验证方法¶

Python

from sklearn.model_selection import (
    KFold, StratifiedKFold, LeaveOneOut,
    cross_val_score
)

# K折交叉验证（最常用）
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# 分层K折（适用于类别不均衡）
skfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# 留一法（数据量小时使用）
loo = LeaveOneOut()

# 使用示例
scores = cross_val_score(model, X, y, cv=skfold, scoring='f1_macro')
print(f"Mean F1: {scores.mean():.4f} ± {scores.std():.4f}")

9.6 可复现性最佳实践¶

保证实验的可复现性是科研的基本要求：

Python

import random
import numpy as np
import torch

def set_seed(seed=42):
    """设置所有随机种子，保证可复现性"""
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

# 在实验开始时调用
set_seed(42)

Text Only

可复现性检查清单：
□ 固定所有随机种子
□ 记录完整的超参数配置
□ 记录软件版本（Python、PyTorch、CUDA等）
□ 记录硬件信息（GPU型号、内存）
□ 提供数据预处理的完整流程
□ 开源核心代码
□ 提供训练日志和模型checkpoints（如可能）
□ 多次运行报告均值和标准差

十、Research Proposal撰写详细指南¶

研究计划书（Research Proposal）是开题报告、基金申请、博士申请等场景中的核心文档。本节提供更详细的指导。

10.1 Research Proposal完整结构¶

Text Only

一份完整的Research Proposal包含以下部分：

1. Title（标题）
   - 准确反映研究内容
   - 简洁有力，不超过20个词

2. Abstract（摘要，200-300字）
   - 研究背景、问题、方法、预期贡献

3. Introduction（引言，1-2页）
   - 研究背景和大趋势
   - 具体问题和挑战
   - 研究动机
   - 文章组织结构

4. Literature Review（文献综述，2-3页）
   - 系统总结已有工作
   - 明确指出Gap
   - 说明本研究的定位

5. Research Questions / Hypotheses（研究问题/假设）
   - RQ1: ...
   - RQ2: ...
   - RQ3: ...

6. Methodology（研究方法，3-5页）
   - 6.1 整体框架
   - 6.2 数据收集
   - 6.3 模型/方法设计
   - 6.4 实验方案
   - 6.5 评估方法

7. Expected Contributions（预期贡献）
   - 学术贡献
   - 实际价值

8. Timeline（时间计划）
   - 甘特图展示各阶段

9. Risk Analysis（风险分析）
   - 潜在风险和应对方案

10. References（参考文献）
    - 完整的引用列表

10.2 研究问题的撰写¶

好的研究问题应该是具体、可验证、有价值的：

Text Only

❌ 不好的研究问题：
"如何改进大语言模型？"（太宽泛，不知道具体做什么）

✅ 好的研究问题：
"在多轮对话场景中，如何通过检索增强的方法减少大语言模型的
 事实性幻觉，同时保持响应的流畅度？"

好的研究问题的特征：
1. 具体（specific）：明确研究的范围和边界
2. 可测量（measurable）：可以设计实验来回答
3. 可实现（achievable）：在你的资源约束内可以完成
4. 有关联（relevant）：与领域的重要问题相关
5. 有时限（time-bound）：可以在计划时间内完成

10.3 技术路线图的制作¶

Text Only

技术路线图示例（以RAG系统优化为例）：

Phase 1: 基础调研与原型 (Month 1-3)
┌─────────────────────────────────────┐
│ 文献综述 → 问题形式化 → 基线系统搭建 │
└────────────────┬────────────────────┘
                 ↓
Phase 2: 方法设计与实现 (Month 4-7)
┌─────────────────────────────────────┐
│ 检索优化 → 生成增强 → 系统集成        │
└────────────────┬────────────────────┘
                 ↓
Phase 3: 实验验证 (Month 8-10)
┌─────────────────────────────────────┐
│ 标准基准 → 消融实验 → 人类评估        │
└────────────────┬────────────────────┘
                 ↓
Phase 4: 论文撰写与投稿 (Month 11-12)
┌─────────────────────────────────────┐
│ 论文初稿 → 内部审阅 → 修改投稿        │
└─────────────────────────────────────┘

10.4 风险分析与应对方案¶

风险	概率	影响	应对方案
核心方法不work	中	高	准备Backup Plan B、C
数据获取困难	中	高	提前确认数据来源，备选公开数据集
计算资源不足	低	中	申请学校集群、云计算资源
被同行抢先发表	中	高	关注arXiv动态，差异化自己的贡献
实验结果不显著	中	中	调整评估维度，深入分析原因
论文被拒	高	中	预留修改和再投的时间

10.5 Proposal写作常见建议¶

Text Only

DOs（应该做的）：
✅ 开门见山，第一页内让读者理解你要做什么
✅ 用图表辅助说明技术路线
✅ 文献综述展示你的调研深度
✅ 研究问题明确且可验证
✅ 时间规划现实可行
✅ 主动讨论风险和应对方案

DON'Ts（不应该做的）：
❌ 文献综述变成简单罗列
❌ 研究问题过于宽泛或模糊
❌ 方法描述过于抽象，缺乏技术细节
❌ 时间规划过于乐观
❌ 忽略风险分析
❌ 写成综述论文而不是研究提案

十一、进阶实验设计方法¶

11.1 假设检验框架¶

严格的实验研究需要遵循假设检验框架：

Text Only

假设检验的标准步骤：

1. 提出假设
   H₀（零假设）：方法A和方法B没有显著差异
   H₁（备择假设）：方法A显著优于方法B

2. 选择检验方法
   → 根据数据特征选择合适的统计检验

3. 确定显著性水平
   → 通常 α = 0.05（即5%的误判率）

4. 计算检验统计量和p值

5. 做出决策
   → p < α：拒绝零假设（差异显著）
   → p ≥ α：不能拒绝零假设（差异不显著）

11.2 效应量（Effect Size）¶

p值只告诉你差异是否"存在"，效应量告诉你差异有多"大"。

Python

# Cohen's d：衡量两组均值差异的效应量
import numpy as np

def cohens_d(group1, group2):
    n1, n2 = len(group1), len(group2)
    var1, var2 = np.var(group1, ddof=1), np.var(group2, ddof=1)
    pooled_std = np.sqrt(((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2))
    return (np.mean(group1) - np.mean(group2)) / pooled_std

# 解读：
# |d| < 0.2: 小效应
# 0.2 ≤ |d| < 0.5: 中等效应
# 0.5 ≤ |d| < 0.8: 大效应
# |d| ≥ 0.8: 很大效应

method_a = [92.1, 92.5, 91.8, 92.3, 92.0]
method_b = [90.5, 91.0, 90.3, 90.8, 90.7]
d = cohens_d(method_a, method_b)
print(f"Cohen's d = {d:.4f}")

11.3 多重比较校正¶

当同时进行多次统计检验时，需要校正p值以控制假阳性率。

Python

from scipy import stats
import numpy as np

# Bonferroni校正：最保守的方法
# 校正后的显著性水平 = α / 比较次数
n_comparisons = 5
alpha_corrected = 0.05 / n_comparisons  # 0.01

# Holm-Bonferroni方法：逐步校正（比Bonferroni宽松）
# 按p值从小到大排序，第i个的校正水平为 α / (n-i+1)

# Benjamini-Hochberg FDR控制
from statsmodels.stats.multitest import multipletests

p_values = [0.01, 0.03, 0.05, 0.12, 0.33]
reject, corrected_p, _, _ = multipletests(p_values, method='fdr_bh')
print("原始p值:", p_values)
print("校正p值:", corrected_p)
print("是否拒绝:", reject)

11.4 Power Analysis（统计功效分析）¶

在实验前进行功效分析，确定需要多少样本量才能检测到预期的效应。

Python

from statsmodels.stats.power import TTestIndPower

analysis = TTestIndPower()

# 计算所需样本量
# 参数：效应量、显著性水平、统计功效
sample_size = analysis.solve_power(
    effect_size=0.5,   # 中等效应
    alpha=0.05,        # 5%显著性水平
    power=0.8,         # 80%统计功效
    alternative='two-sided'
)
print(f"每组需要的样本量: {int(np.ceil(sample_size))}")

# 对于ML实验，这意味着你需要足够多次的重复运行

11.5 消融实验设计进阶¶

Text Only

消融实验的多种形式：

1. 组件消融（Component Ablation）
   → 逐一移除模型组件
   → Full model → w/o A → w/o B → w/o C

2. 超参数消融（Hyperparameter Ablation）
   → 研究关键超参数的影响
   → 学习率: {1e-3, 1e-4, 1e-5}
   → 隐藏层大小: {64, 128, 256, 512}

3. 数据消融（Data Ablation）
   → 使用不同比例的训练数据
   → 10%, 25%, 50%, 75%, 100%
   → 展示数据效率（Data Efficiency）

4. 替换消融（Replacement Ablation）
   → 用简单方法替换某个组件
   → 如：用均值池化替代注意力机制

5. 顺序消融（Sequential Ablation）
   → 逐步添加组件
   → Baseline → +A → +A+B → +A+B+C (Full)

✏️ 练习题¶

设计一个因子实验：假设你在研究"预训练模型大小"和"微调数据量"对下游任务性能的影响。设计一个完整的因子实验方案，包括因子水平、实验组数、评估指标和统计分析方法。
统计检验练习：假设你的方法在5次运行中取得了 [91.2, 91.8, 90.9, 91.5, 91.0] 的准确率，Baseline方法取得了 [89.5, 90.2, 89.8, 90.0, 89.7]。进行配对t检验，计算p值和Cohen's d效应量。
Research Proposal写作：选择一个你感兴趣的AI研究方向，撰写一份1-2页的迷你Research Proposal，包含研究问题、文献Gap、方法概述和时间规划。
评估方法选择：对于以下每个任务，选择最合适的评估指标并解释原因：
医学影像中的肿瘤检测 > Recall(灵敏度) + AUC-ROC。漏诊(FN)代价远高于误诊(FP)，Recall衡量"不漏"的能力。辅以Specificity和F2-Score。
新闻摘要生成 > ROUGE-L(与参考摘要的最长公共子序列) + 人工评估(流畅性/信息完整性)。BLEU不适合(摘要允许改述)。辅以BERTScore(语义相似度)。
商品推荐系统 > NDCG@K(排序质量) + CTR/CVR(在线业务指标)。离线还可用Recall@K、MAP。最终以A/B测试的GMV/留存为准。
聊天机器人的对话质量 > 人工评估(相关性/流畅性/安全性/有用性) 为主，辅以自动指标: BERTScore、BLEU-4(多轮一致性)。可用GPT-4自动评分(G-Eval)辅助大规模评估。
消融实验设计：为你正在进行的研究项目（或一篇你读过的论文），设计一套完整的消融实验方案，包括组件消融、超参数消融和数据消融。

📝 本章小结¶

知识点	核心要点
好的研究标准	创新性、重要性、可行性三位一体
选题方法	文献Gap、实际问题、导师讨论、评估标准
研究方法	实证、理论、实验、综述四大类
定量研究	比较实验、因子实验、回归分析、问卷调查
定性研究	访谈、案例研究、扎根理论、编码分析
混合方法	序贯解释、序贯探索、并行三角验证
AI评估方法	分类/生成/检索/LLM各有专用评估体系
实验设计	对照实验、消融实验、控制变量、统计检验
Research Proposal	结构完整、问题具体、方法可行、时间现实
进阶统计	效应量、多重比较校正、功效分析
时间管理	番茄工作法、甘特图、GTD
科研误区	p-hacking、过拟合测试集、选择性报告

🔗 延伸阅读¶

Heilmeier Catechism：评估研究选题的经典框架
《How to Do Research》—Bill Freeman（MIT）
《Research Skills》—University of Leeds
《The Science of Scientific Writing》—George Gopen & Judith Swan
《Research Design: Qualitative, Quantitative, and Mixed Methods》—John Creswell
《Statistical Methods for Machine Learning》—Jason Brownlee
《Experiment Design and Analysis for Machine Learning》—UCI Tutorial