作者介绍:
王闻宇,PPIO 派欧云联合创始人 & CTO、TGO 鲲鹏会学员
Q:开源策略是否更有利于生态繁荣?闭源模式能否长期维持技术领先?
王闻宇:第一,开源能够快速降低推理成本。 一旦模型向社会开放,众多公司就会参与研究如何部署和优化,从而降低人工成本、提升模型性能,进而迅速拉低处理成本。
第二,开源赋予了开发者更大的灵活性。开发者可以选择在公有云、专有服务器或内网环境中部署模型,不用担心性能限制或数据安全问题,能够更加放心地使用。
第三,开源还具备很强的可玩性。开发者可以使用自己的特色数据进行微调(fine-tuning)或再训练,从而创建出个性化的模型。
第四,社区的贡献也不容忽视。开源项目发布后,会迅速吸引大量开发者参与,他们利用各种数据集进行微调或模型蒸馏(distillation), 创造出适用于不同场景的模型供他人选择。开源的最大价值在于,它将原本只有头部企业(如 OpenAI)才能参与的技术平民化,让更多人能够参与到其中。
开源大模型推动了技术平权。随着更多人参与、更多需求被满足以及不断的迭代优化,开源项目逐渐形成了一个正向循环,其影响力也越来越大。开源项目的核心优势不在于技术壁垒,而在于生态的开放性和包容性。这种开放性吸引了大量参与者,构建了强大的生态壁垒。因此,我预测在 2025 年,会有更多更好的开源模型出现。
开源项目的成功依赖于其开放性和生态建设,最终能够胜出的开源大模型一定是极度开放和包容的,并且能够构建起强大的生态壁垒。
最终,开源大模型可能只会剩下少数几个,甚至只有 1-2 个,就像服务器操作系统的 Linux、移动操作系统的 Android 一样,因为生态的壁垒,不可能容纳很多家。
此外,模型性能的差异并不完全取决于开源或闭源,而更多决定于选择的 GPU、并发参数,还有推理优化技术所共同决定。
这里说得并发参数,例如 Batch Size。在部署推理的时候,往往需要在 Batch Size 和性能指标(延迟,吞掉)之间寻找平衡。如果 Batch Size 过高,总 Token 数吐得更多,Token 单价便宜,但是单用户体验会变差,推理速度也会变慢。相反,如果 Batch Size 过高,虽然用户体验会更好,但总 Token 数吐得慢,导致 Token 单价上升。闭源模型也存在类似平衡问题,所以这点不是决定开源和闭源的区别。
这里,真正的区别在于,部署方式和推理优化技术的方案选择上。首先,推理优化技术对模型性能的影响非常关键,特别是开源模型,任何人都可以去研究,无论是之前 LLaMa 还是最近 DeepSeek,如果未经优化,性能都不会达到最优。通过采用无损优化技术、PD 分离、投机采样、并行方案如 EP、DP、PP 管道并行等方法,模型性能可以大幅提升,甚至有 10 倍的优化空间。
以 DeepSeek 为例,其性能优化的关键在于几个技术点:
首先是 PD 分离。具体来说,如果不做 PD 分离,模型的 Profile 阶段和 Decode 阶段耗时不是一样的,大量的 Profile 操作完成后,需要排队等待 Decode,从而导致推理效率低下。根据官方的建议,这种情况下 Profile 和 Decode 的配置在 H800 下建议在 1:10。换句话说,如果使用一张 GPU 卡进行 Profile,那么搭配 10 张 GPU 来进行 Decode 是比较推荐的。这是 H800 下的建议,如果 GPU 不是 H800,我们实践下来不是 1:10 是最好的。
其次,DeepSeek 采用了 MLA(Multi-head Latent Attention)技术,MTP(Multi- token Prediction)机制也是性能提升的关键。如果这些优化措施不到位,模型的吞吐量和性能都会受到严重影响。
因此,模型的最终性能取决于优化的基础和方法。还有做好 DP(Data Parallelism、 数据并行)、EP(Expert Parallelism、专家并行)、PP(Pipeline Parallelism、流水线并行)等并行方案,也有不小的提升。
对于闭源模型,优化可能仅限于模型公司内部,但对于开源模型,全球的开发者都可以参与优化,探索优化方案,降低成本,从而降低 Token 价格,推动整个行业的发展。
精选留言
2025-07-17 15:24:45
---------
这段话中,两个假设都是“如果 Batch Size 过高,”,表达有歧义。