LiJT的灵质空间

[PaperReading] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (MLA篇)

发表于 2025-02-24 更新于 2025-02-28 阅读次数：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

从Multi-head Latent Attention（MLA）开始，梳理LLM使用的主流Attention框架。

发表于 2025-02-21 分类于学习笔记阅读次数：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

阅读月之暗面Kimi团队在LLM Foundations领域的新作。只写方法论解析。

发表于 2024-12-24 阅读次数：
本文字数： 2.6k 阅读时长 ≈ 2 分钟

今年主要做了这么几件事：科研实习、探索新方向、申请PhD。

发表于 2024-12-24 阅读次数：
本文字数： 984 阅读时长 ≈ 1 分钟

Mac OS 14.6 的文件夹访问权限变严了，导致clashX无法访问~/.config设置代理文件。

发表于 2024-12-16 阅读次数：
本文字数： 2.5k 阅读时长 ≈ 2 分钟

我没有做过automatic differentiation这一方向。论文阅读嘛，就是要走出舒适区，拓宽认知边界的。这一篇以学习前置知识为主。

发表于 2024-11-24 更新于 2024-11-25 分类于学习笔记阅读次数：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

DPO是一种语言模型（language model）的后训练算法，无需使用RL而使之输出与人类偏好对齐。

发表于 2024-02-01 更新于 2024-11-24 阅读次数：
本文字数： 7.4k 阅读时长 ≈ 7 分钟

个性化学习者能力建模全新范式。

发表于 2024-01-16 更新于 2024-11-24 阅读次数：
本文字数： 1.3k 阅读时长 ≈ 1 分钟

将这次报销过程记录下来，以供后人参考

发表于 2024-01-16 更新于 2024-11-24 分类于随笔阅读次数：
本文字数： 1.4k 阅读时长 ≈ 1 分钟

一些日常。