速递2026年4月24日2 分钟阅读

速递：开源模型周报 · 更小、更快、更可部署

这一周值得关注的小模型蒸馏、推理优化与嵌入式场景案例。

端侧与应用侧更在意「离线可用 + 成本控制」，因此小参数量的高质量权重与 KV 缓存友好的架构会继续吃香。

另一条主线是把评测从分数推进到 SLA：给定同样的输入抖动与并发，端到端延时与错误率在业务里是否可控。