- 👤 I’m Yan Mi (密言)
- 🎓 4th-year undergraduate student of the School of Future, Beijing University of Posts and Telecommunications, majoring in Computer Science
- 🏫 Research Intern at State Key Laboratory of AI Safety, ICT, CAS
- 📝 Record Knowledge and Life
- 🔎 Research Interests:
LLM Safety,Recommender System Safety,Model Editing,Interpretability,Trustworthy AI,Multimodal, etc.
On-Policy Distillation: 重塑大模型后训练的新范式
本文综合了 Thinking Machines Lab 的 On-Policy Distillation 博客 与 OPD 前沿技术综述的内容,系统梳理同策略蒸馏(OPD)的核心原理、工业实践与最新算法进展。 大语言模型的能力并非一蹴而就——它们通常经历三个训练阶段:预训练(Pre-training) 教会模型语言理解与世界知识;中间训练(Mid-training) 注入领域知识;后训练(Post-training) 引导出指令遵循、数学推理或对话等目标行为。后训练是将基础模型变成有用工具的关键一步,而同策略蒸馏(On-Policy Distillation, OPD)正在以更高的样本效率和更密集的监督信号,重新定义这一阶段的范式。 ...
2025年终总结:在预设之外,跳入旷野
一转眼又年末了,今年对我来说真的是很充实的一年:从年初忙忙碌碌在科研的门外摸索,到 8 月忐忑不安地参加保研夏令营,再到现在有了自己的第一份实习……现在回想起来,真的非常感恩这些机遇能够降临在我头上,也非常感激自己没有安于现状,伸出手努力触碰那些“自以为很遥远”的事情。 ...
Diffusion Model for Video Generation
全文为Weng, Lilian. (Apr 2024). Diffusion Models Video Generation. Lil’Log.的中文翻译版本。 在过去几年里,扩散模型在图像合成方面显示出了优异的效果。现在,研究界已经开始着手一项更加艰巨的任务——将扩散模型用于视频生成。该任务可以看作是图像生成的超集,因为图像可以认为是1帧的视频,但是图像生成更加具有挑战性,原因如下: ...
2024年终总结
序 I used to rule the world Seas would rise when I gave the word Now in the morning I sleep alone Sweep the streets I used to own Viva La Vida ...
What are Diffusion Models?
Update [2024.12.7]:增加条件生成以及潜在扩散模型的介绍。 Update [2024.12.11]:增加评估指标的对比以及超参数调整。 Update [2024.12.12]:增加对于扩散模型个性化生成微调方法的介绍 生成模型 目前主流的生成模型包括生成对抗模型 (GAN)、变分自编码器 (VAE)和基于流的模型 (Flow-based models)。 ...
Diffusers Tutorials
Pipelines, models and schedulers 解构基本pipeline pipeline是一种快速简便运行推理模型的方法,只需要四行代码即可生成图像 from diffusers import DDPMPipeline ddpm = DDPMPipeline.from_pretrained("google/ddpm-cat-256", use_safetensors=True).to("cuda") image = ddpm(num_inference_steps=25).images[0] image ...
DASH实验报告
DASH系统搭建流程 客户端搭建 首先,用git命令将dash.js下载到本地. git clone https://github.com/Dash-Industry-Forum/dash.js.git 在dash.js目录下,编译运行dash.js. ...
2023年终总结
写在开头 别赶路,去感受路。 ...
极大似然技术编码译码
1 实验环境 语言:C++ 2 实验内容 2.1 编程实现 $(m,n)$ 群码 2.1.1 输入输出 输入:$m,n$ 和一致性校验矩阵 $H$ 中的 $H_{m \times r}$ 部分,其中 $r=n-m$. 输出:所有的码字,按原码对应的十进制整数升序排列. ...
机器学习:向量化
Machine Learning: Python, NumPy and Vectorization A brief introduction to some of the scientific computing used in this course. In particular the NumPy scientific computing package and its use with python. ...