Q21｜破局：开源霸权还是闭源终局？

作者介绍：
王闻宇，PPIO 派欧云联合创始人 & CTO、TGO 鲲鹏会学员

Q：开源策略是否更有利于生态繁荣？闭源模式能否长期维持技术领先？

王闻宇：第一，开源能够快速降低推理成本。一旦模型向社会开放，众多公司就会参与研究如何部署和优化，从而降低人工成本、提升模型性能，进而迅速拉低处理成本。

第二，开源赋予了开发者更大的灵活性。开发者可以选择在公有云、专有服务器或内网环境中部署模型，不用担心性能限制或数据安全问题，能够更加放心地使用。

第三，开源还具备很强的可玩性。开发者可以使用自己的特色数据进行微调（fine-tuning）或再训练，从而创建出个性化的模型。

第四，社区的贡献也不容忽视。开源项目发布后，会迅速吸引大量开发者参与，他们利用各种数据集进行微调或模型蒸馏（distillation），创造出适用于不同场景的模型供他人选择。开源的最大价值在于，它将原本只有头部企业（如 OpenAI）才能参与的技术平民化，让更多人能够参与到其中。

开源大模型推动了技术平权。随着更多人参与、更多需求被满足以及不断的迭代优化，开源项目逐渐形成了一个正向循环，其影响力也越来越大。开源项目的核心优势不在于技术壁垒，而在于生态的开放性和包容性。这种开放性吸引了大量参与者，构建了强大的生态壁垒。因此，我预测在 2025 年，会有更多更好的开源模型出现。

开源项目的成功依赖于其开放性和生态建设，最终能够胜出的开源大模型一定是极度开放和包容的，并且能够构建起强大的生态壁垒。

最终，开源大模型可能只会剩下少数几个，甚至只有 1-2 个，就像服务器操作系统的 Linux、移动操作系统的 Android 一样，因为生态的壁垒，不可能容纳很多家。

此外，模型性能的差异并不完全取决于开源或闭源，而更多决定于选择的 GPU、并发参数，还有推理优化技术所共同决定。

这里说得并发参数，例如 Batch Size。在部署推理的时候，往往需要在 Batch Size 和性能指标（延迟，吞掉）之间寻找平衡。如果 Batch Size 过高，总 Token 数吐得更多，Token 单价便宜，但是单用户体验会变差，推理速度也会变慢。相反，如果 Batch Size 过高，虽然用户体验会更好，但总 Token 数吐得慢，导致 Token 单价上升。闭源模型也存在类似平衡问题，所以这点不是决定开源和闭源的区别。

这里，真正的区别在于，部署方式和推理优化技术的方案选择上。首先，推理优化技术对模型性能的影响非常关键，特别是开源模型，任何人都可以去研究，无论是之前 LLaMa 还是最近 DeepSeek，如果未经优化，性能都不会达到最优。通过采用无损优化技术、PD 分离、投机采样、并行方案如 EP、DP、PP 管道并行等方法，模型性能可以大幅提升，甚至有 10 倍的优化空间。

以 DeepSeek 为例，其性能优化的关键在于几个技术点：

首先是 PD 分离。具体来说，如果不做 PD 分离，模型的 Profile 阶段和 Decode 阶段耗时不是一样的，大量的 Profile 操作完成后，需要排队等待 Decode，从而导致推理效率低下。根据官方的建议，这种情况下 Profile 和 Decode 的配置在 H800 下建议在 1:10。换句话说，如果使用一张 GPU 卡进行 Profile，那么搭配 10 张 GPU 来进行 Decode 是比较推荐的。这是 H800 下的建议，如果 GPU 不是 H800，我们实践下来不是 1:10 是最好的。

其次，DeepSeek 采用了 MLA（Multi-head Latent Attention）技术，MTP（Multi- token Prediction）机制也是性能提升的关键。如果这些优化措施不到位，模型的吞吐量和性能都会受到严重影响。

因此，模型的最终性能取决于优化的基础和方法。还有做好 DP（Data Parallelism、数据并行）、EP（Expert Parallelism、专家并行）、PP（Pipeline Parallelism、流水线并行）等并行方案，也有不小的提升。

对于闭源模型，优化可能仅限于模型公司内部，但对于开源模型，全球的开发者都可以参与优化，探索优化方案，降低成本，从而降低 Token 价格，推动整个行业的发展。

精选留言

@҈҉҈҉҈҉҈҉҈҉҈҉AI

2025-07-17 15:24:45

这里说得并发参数，例如 Batch Size。在部署推理的时候，往往需要在 Batch Size 和性能指标（延迟，吞掉）之间寻找平衡。如果 Batch Size 过高，总 Token 数吐得更多，Token 单价便宜，但是单用户体验会变差，推理速度也会变慢。相反，如果 Batch Size 过高，虽然用户体验会更好，但总 Token 数吐得慢，导致 Token 单价上升。闭源模型也存在类似平衡问题，所以这点不是决定开源和闭源的区别。

---------
这段话中，两个假设都是“如果 Batch Size 过高，”，表达有歧义。