消融实验(ablation study)

前言

在深度学习领域论文的实验设计中,经常看到作者提出的模型与“弱化版”模型(少了某些模块、少了参数的限制…等等)的对比,用于说明idea或者某模块的有效性,这便是直观意义上的消融实验。

定义与解释

Robert Long对消融研究(或消融实验)定义:通常用于神经网络,尤其是相对复杂的神经网络,如R-CNN。我们的想法是通过删除部分网络并研究网络的性能来了解网络
{:.success}

例子

参考知乎:

论文提了3个贡献点,A,B,C

  • 你去掉A,其它保持不变,发现效果降低了,那说明A确实有用。

  • 你去掉B,其它保持不变,发现效果降的比A还多,说明B更重要。

  • 你去掉C,其它保持不变,发现效果没变,那C就是凑字数的

个人想法

消融实验是一种简单直观但符合逻辑的实验方法。相比于选取经典算法作为baseline实验,消融实验排除了trick、其他结构上的不同导致的性能影响,而只专注于检验idea的有效性,相当于论文工作的“自己和自己比”,一边是加入了idea的自己,一边是没有加入idea的自己。

可以把消融实验用“控制变量法”和“正交回归”类比。