今年主要做了这么几件事:科研实习、探索新方向、申请PhD。
科研实习与探索新方向
2023年11月,我被邀请到阿里云去做大模型评估相关的科研实习。这段实习持续时间从从2024年1月4日到8月30日,总共将近9个月。考虑到实习机会的珍贵和导师的期望,这也是我在科研上比较拼的一段时间。在此之前,我的状态正处在低谷之中,论文刚刚遭遇三连拒,一次KDD、一次CIKM和一次ICLR。当时我的研究方向是“认知诊断”,这是一个数据挖掘与心理测量学的交叉领域。因此我一方面想通过科研实习摆脱低谷,另一方面趁着LLM的浪潮,调整一下研究方向。我在LLM评估的研究始于ICLR拒稿的那篇工作。那次投稿不算成功,但审稿意见质量极高,令我收获很大。这也为科研实习的成果买下了伏笔。
在谈论工作内容前,想先回顾一下实习的身体体会。杭州是一个包容的、现代化的城市,同时也是一个冬冷夏热的城市。一月份到三月份,杭州的日间气温在0-5摄氏度左右。为了省钱和保持体力,我每天踩单车通勤,单程约5公里。时常遭遇雨夹雪的天气,我就穿羽绒服、戴围巾、披雨衣出行。虽然天气很冷,但是视野开阔、空气清新,也就不觉得难受。每天路过西湖大学校门口,可惜没能进去参观。每日早餐的标配是一枚三角饭团+一颗茶叶蛋,偶尔换成肉包子。规律的生活方式使得这段时间身体很好。冷空气不仅没有令我感冒,反而增强了抗寒力。不得不说踩单车通勤是性价比最高的日常锻炼。3-5月则是气候最为宜人的时节。每到周末,我会去西溪湿地骑行,中午再去西溪龙湖天街旁的“重庆豆花饭”吃一顿。其辣度对我而言是“威辣”,却总令我欲罢不能。偶尔去迪卡侬吹吹空调。7-8月的杭州是一个大熔炉,空气燥热、阳光灼烫。由于8点半的气温就有足足32度,我不得不打车通勤。还好滴滴有半价通勤优惠。正所谓,四时之景不同也。
实习期间,我的工作内容是设计新型的LLM评估算法。在这条道路上,我花了两个月的时间论证研究问题、3个月的时间组织研究内容和设计实验、1个月的时间完成论文撰写。6个月是我认为比较理想的工作产出速度。虽然随着LLM的浪潮,许多论文的工作周期压缩到3个月以内,但于我而言这难以保证工作的启发性和全面性。这段时间,我面临并最终克服了三个重要困难:1. 如何确定研究的着力点?2. 如何收敛解释海量的实验数据?3. 研究成果应当以何种方式呈现?重点讲一下第二和第三点。LLM评估领域的论文的一个普遍特征是,可以通过控制各种变量获得海量的评估数据。许多研究止步于展示评估数据、给大模型排排坐、打打分,说说谁更犀利。但这并不足以支撑其成为一项“科学研究”。我想,最重要的也是最困难的点在于,如何发掘评估结果中的共性,找到实验结果的恰当解释,从而指导LLM的发展。研究成果的呈现方式是一个同样重要的议题。一般而言,研究成果可以呈现为一个Benchmark,抑或是一个Methodology,抑或是一篇Rethinking paper。每一种呈现方式有其独特的侧重点。例如Benchmark讲究实验结果的全面性;Methodology讲究方法的新颖性;Rethinking paper讲究实验分析的批判性。因此每一项工作因其自身特征,会存在一种最合适的呈现方式。在这篇工作中,我选择的呈现方式是Toolkit——兼顾Benchmark的全面性和Methodology的新颖性。
此外,十分感谢我的实习mentor和合作同学们。除了上述科研方法论上的感悟,我更加学会了如何与人进行科研交流和合作。我想,每个人都有自己的品味、信念和坚持。我可以听取具有不同研究背景、研究品味的合作者的建议。但同时,我们不需要强行说服彼此。当存在建设性意见时,应当积极将意见融入进工作的迭代中。当意见相左时,可以选择坚持自己的判断或听取对方的建议。无论如何,’talk is cheap, show me your code’。在进行高层次抽象的头脑风暴前,应当有一份初步的实验报告,用于论证各种方案的可行性。唯有此,才不至于使得讨论陷入空中楼阁,工作进展停滞不前。在讨论方面,mentor和合作同学们对我十分包容,给我提了许多建设性的意见。
总之这段实习经历给我的最大收获大抵在于科研品味——我逐渐意识到如何选取一个有价值的研究问题,并使用恰当的方式呈现研究成果。至少相比于之前的自己,我感到有很大进步。然而在后续的PhD申请之路上,我意识到这些进步仍然远远不够。我想在研究能力和视野方面,我需要进一步的锤炼。
PhD申请之路
我的PhD申请之路从7月份一直跌跌撞撞持续到12月,构成了我的2024下半年的主旋律。从欧洲、港新,一直到北美。
我想PhD申请之中最大的挑战(也是使得两年前我退缩的原因),就是申请结果极大的不确定性。录取因素一方面取决于申请人的硬实力;另一方面取决于导师的经济因素——是否有足够的funding养一名博士生;最后一方面,则是缘分——研究方向是否匹配,追求是否相似等。所以申请phd注定是一条艰险的道路。许多时候,最初有数十人与你并肩而行。随着时间推移,并肩之人越来越少。这是一条注定孤独的道路,但对于想要走这条路的人而言,它就是有一种致命的吸引力。高中一位搞物竞的学长写过一篇关于竞赛的感悟,标题为《殉道者,道法自然》。现在我认为PhD申请亦是如此。在套瓷阶段,我仔细地阅读意向导师的论文并且定制化套瓷,即便如此仍然回复者寥寥。在网申阶段,针对每个项目定制文书,申请推进新,提交材料,托福送分。流程复杂,工作量庞大。然而如果能找到一个能使自己成长的自洽的学习环境,一切的努力终将值得。
鉴于这条道路的终点尚未抵达,我想明年四月份再讲申请结果也不迟。