
年初DeepSeek R1的爆火是中国人工智能发展的标志性事件,获得全球的瞩目。其成功有两个关键因素:一是优秀的产品性能和效率,二是采用了开源的战略。截至2025年9月底,DeepSeek R1依然雄踞人工智能社区Hugging Face历史榜单上最受欢迎的开源模型榜首;根据Artificial Analysis2025年上半年对开发者的调查,DeepSeek已经超过Meta Llama(43%)和 Mistral(22%),成为“使用或考虑使用”率(53%)最高的开源模型系列。
为什么要给AI大模型开源?一方面是理念和情怀,让科技普惠大众;另一方面是企业的竞争战略。本文讨论后者。
开源是为了追求网络效应
科技行业的开源包括两个内容:一是对知识产权的控制,二是对产品的定价。如果企业放弃对知识产权的控制,而是把支配权交给用户;或者,企业以免费或非常低的价格让用户使用自己的产品,我们就说企业采取了开源的战略。最极端的开源是把控制权完全交给用户,同时使用价格为零。学术研究就是这样一种范式:学术研究的成果虽然社会和经济价值非常大,但都是以完全公开的方式发表的,全世界的人都可以免费学习使用,在其基础上进行改造创新。另一种极端是闭源,即控制权和定价权都完全掌握在企业的手里。闭源在商业中是普遍模式,因为企业需要盈利,要盈利就需要客户对自己产品付费,而保持对自己产品的控制权和定价权往往是让客户付费的基础。在闭源和完全开源的中间,是部分开源,即企业只是放弃一部分控制权,或者只是把产品的一部分让用户免费使用。这种开源模式在商业中最常见。
既然闭源是常态,为什么企业要开源?学术界开源是因为学术研究的目的是创造公共产品、社会价值。但企业的经营是为了盈利。所以企业开源的目的往往是牺牲当下的控制和利益,用以获得战略优势,从而获得更大的长远利益。如果开源战略想成功,企业所在的产业一般需要拥有网络效应。网络效应是一种规模效应,指一种产品或服务的用户数量增加时,其对每位用户的价值也随之增加,从而令网络的总价值相对网络规模有超越线性的增长。这是理解软件和互联网产品价值的关键视角。
开源模式会促进网络效应的形成和放大,而网络效应又反过来巩固了开源项目的价值和市场地位。这种正向循环体现在两个层面:
用户端网络构建:开源带来的免费特性,使得在同等质量下,开源产品对用户具有极强的吸引力,有助于快速构建庞大的用户网络。例如,MySQL在美国中小企业中的采用率远超昂贵的Oracle数据库,主要原因就是其开源免费。此外对于一些企业级用户,开源的透明带来的安全可控、可修改带来二次开发的灵活性也是重要吸引力。美国国防部、NASA等对安全要求极高的机构都大量采用开源软件,正是看重其可审计性。
开发者端生态构建:公开的源代码和自由的分发模式会吸引全球范围内的开发者参与进来。例如Linux内核项目历史上累计吸引了超过2万名贡献者。他们提交代码、发现和修复漏洞、开发工具和插件,共同使软件变得更强大、更好用。这种开发者生态的网络效应体现在代码、工具、人才等多个维度,共同增强了整个生态的黏性。
用户端和开发者端的网络效应如同一对飞轮,互相驱动,形成了有竞争力的生态。例如全球超过40%的网站使用的开源建站软件WordPress,其生态系统提供了数万个插件和主题,这极大地增强了它对用户的吸引力,而这些插件绝大部分来自社区开发者的贡献。
一个产业如果具有网络效应,在没有大幅技术突破的情况下,后发者/挑战者(小型网络)很难和领先者(大型网络)竞争,这时候挑战者采取开源策略来构建自己的网络规模和黏性优势是一个可行的竞争手段。2007年iPhone发布时,安卓还只是一个初创项目。通过开源策略,安卓迅速获得了三星、HTC、摩托罗拉等众多硬件厂商的支持,最终占据了全球70%以上的市场份额。微软的IE浏览器曾占据95%以上的市场份额,但基于开源Chromium内核的Chrome、Edge等浏览器联合建设了强大的开发者生态,如今Chromium系浏览器已占据超过80%的市场。
软件行业的开源模式
软件行业有着巨大的网络效应,原因有两个:一是软件虽然有非常高的开发成本,其边际的复制成本非常低,几乎为零。这样免费使用并不会给开发者带来多少增加的成本。二是软件的使用黏性很大,一边有很高的学习成本,另一边又有很高的替代成本。因此一旦获得用户,可以通过多种方式变现。这些因素导致开源变成了软件行业的一个常用策略。很多重要软件是开源的,比如操作系统Linux内核、安卓开源项目(AOSP)、众多主流浏览器的核心Chromium等;重要的关系型数据库MySQL和文档型数据库软件MongoDB都有开源版本;在人工智能发展中扮演重要角色的深度学习框架TensorFlow和PyTorch也分别是由谷歌和Meta主导开发并开源的。
既然企业的开源模式只是一个竞争策略,那么如何才能形成收入,让商业模式闭环?企业具体的做法多种多样,但基本可以分为两大类,一类是对更专业、强大的产品、附加服务或商业用途收费,比如MySQL的双许可证模式,对一般使用给以免费的开源许可证,如果使用者要将软件嵌入到自己的商业化产品中,就需要付费的商业许可证;Gitlab的功能增值模式则是将软件核心开源,但对一些高阶功能收费;Red Hat则以对技术支持、合规认证等服务收费为特点。
另一类是类似流量思维的间接收费,对于大型开源软件,它可以开应用商店,对于其生态内插件等的销售抽成,例如安卓和WordPress;安卓和Chromium的开源使用都为谷歌的搜索、广告等核心业务引流;Confluent、Databricks等将开源软件部署在云端,以SaaS等云计算服务的方式商业闭环。
AI开源的独特性
我们再回过头来看AI大模型开源,由于技术复杂、数据依赖和伦理挑战,大模型开源比传统软件开源要复杂得多。软件开源,核心是开源代码。有了代码,任何人都可以复刻和使用软件。而大模型开源,如果只开源代码,外界虽能了解其架构设计和训练思路,有很高的研究价值,但无法直接获得一个可用的模型。要复现模型性能,还需要投入高昂的成本进行重新训练,并且由于不掌握原始训练数据,复现结果也难以保证。
要达到软件开源那种“即看即用”的效果,大模型理论上需要同时开源代码、模型权重和训练数据。但在现实中,主流的开源大模型并不会这样做。
通常所说的“开源大模型”,主要指开源模型权重。模型权重是大模型“学习”到的所有知识和能力的数学表示,体现为一系列巨大的数字矩阵。它是模型能够进行推理和生成内容的核心。
开源大模型通常还会附带开源推理代码和模型架构代码,社区可以利用这些代码和权重来部署模型,进行推理应用或二次微调。
然而,前沿的开源大模型通常不会开源训练代码和训练数据。这是因为训练过程中的“know-how”(如数据清洗、配比、训练技巧等)是大模型最核心的技术秘密和竞争力来源。公开权重好比给你一道做好的菜,而公开训练数据和代码则相当于将米其林三星厨房的秘方、供应链和厨师团队全盘托出,这将极大削弱其技术和商业护城河。此外,开源训练代码有被滥用的风险,如生成有害内容或训练偏见模型,监管压力(如欧盟AI法案)也鼓励大模型厂商控制核心组件,开源数据则还存在巨大的版权和隐私风险。
值得一提的是,DeepSeek虽然没有开源其训练代码,但在论文、技术文档和活动中,仍然披露了许多训练过程中的创新细节,如关于混合专家架构的优化、改进的多头注意力机制、强化学习上的优化、混合精度训练上的做法等,这为整个行业的技术进步带来了启发。
开源大模型对人工智能应用的发展、大模型产业和技术社区显然有重大的价值,降低了模型的应用成本、繁荣下游应用生态、促进学术研究、加速知识传播等,逻辑比较直接,不需要展开讨论。
开源大模型对中国的意义深远,前作(《中国怎么才能赢得创新的竞争》,刘劲,2022年)曾建议中国应采取“开源”的心态和政策,既包括在软件、硬件等技术上,也包括在贸易、投资、语言、人才政策等方面的大力开源,才更有机会赢得创新的竞争。“开源”的战略意义在于构建一个远超14亿人的全球性网络,放大人才数量和创新效率,打破脱钩陷阱。
具体到大模型开源,DeepSeek、Qwen的优秀开源模型发布后,都迅速在GitHub、Hugging Face等全球社区中传播,吸引数以万计的开发者下载、使用、评估和贡献,这就将中国的创新网络从国内延伸至全球,来自不同国家、不同文化背景的开发者会基于中国开源的模型进行微调、优化和再创造,他们的反馈和贡献,无论是修复bug、优化算法,还是开发全新的应用,都在实质上为中国主导的技术生态添砖加瓦。当一个中国的开源大模型因其性能优越、成本低廉而被全球开发者广泛采用时,它的架构、API接口、数据格式就可能成为事实上的行业标准。这将引导全球的AI应用、硬件(如AI芯片)和下游工具链主动与之适配,从而打破美国在AI领域设下的技术壁垒和生态护城河。一旦全球开发者习惯了在中国的技术生态与网络中进行创新,所谓的“脱钩”就失去了根基。
开源对AI大模型开发者有什么价值?
从DeepSeek的案例看,开源给其带来了巨大的红利。首先是收获了大规模的用户和“间接用户”,飞书、微博、腾讯元宝等大型app上都接入了DeepSeek,海外的Cursor、POE等也将DeepSeek作为可选模型,全球的企业本地部署大模型和大模型下游应用开发者都把DeepSeek作为最主要的模型选项,他们的“间接用户”虽然不是直接连接DeepSeek的服务器,但共同推波助澜放大其品牌价值和影响力。这种影响力非常出圈、跨界,在中国社会可以说无人不知,在美国和全球一度连续登顶苹果App Store和谷歌Play Store下载榜;研究论文登上《Nature》封面,成为首个经过严格同行评审并在权威期刊发表的主流大语言模型(LLM)研究。
为什么这么多企业(甚至包括腾讯元宝、微博这类大型企业的产品)会去采用DeepSeek的开源模型?前提是模型质量拔尖,领先所有的开源模型。在此基础上,开源的优势得以凸显。类似于软件开源带来的免费使用,大模型开源令这些部署的企业不用去负担高昂训练成本,只需要推理的部署成本和token成本,且DeepSeek的模型优化,推理效率高、更令成本降低。类似于软件开源带来的部分控制权让渡,开放权重让企业可以把模型部署在自己的服务器上,对数据可以完全的控制;企业可以微调,为自己的业务场景定制。开源的这些特征,令DeepSeek迅速构建了庞大的用户网络。
另一方面,DeepSeek成为大模型开源社区的明星,迅速构建了生态价值。以DeepSeek R1在代码托管平台GitHub上的页面为例,超过9万的开发者关注,1.1万+的项目副本(fork,体现项目被当做模板或二次开发的热度),58个代码贡献提交申请(Pull Request)。社区成员自发地对模型进行测试、微调、创建应用、修复Bug,极大地拓展了模型的应用边界和影响力。这不仅为DeepSeek节省了测试和探索成本,一个繁荣的生态系统会让用户——特别是企业用户——更愿意选择DeepSeek,因为相关的工具、教程和人才更多。
所以开源有助于优质大模型快速建立用户网络和社区生态,形成网络效应。但对于网络中心(开源者)能从用户网络和社区获得的反哺价值,是有质疑的声音的,如开源大模型的“间接用户”的使用数据和反馈无法回到网络中心,难以构建数据飞轮;市场上出现了更好的模型时,大模型对用户网络有多大的黏性(这既是对开源模型,也是对闭源模型网络效应强度的质疑);还有近期Anthropic CEO达里奥质疑大模型开源权重不同于软件开源,无法获得开发者社区的反向贡献。
这些质疑不无道理。但我们必须认识到,开源通常是后发挑战者的最佳策略。如果没有开源,DeepSeek不可能在短时间内获得如此巨大的网络规模。从竞争角度看,开源也拖慢了领先闭源模型的商业化步伐,为追赶者赢得了宝贵的发展空间。大模型竞争首先是技术驱动的,模型质量是根本。在技术水平相近的前提下,网络效应发挥重要作用。因此,开源者在制定策略时,必须审慎平衡网络规模的扩张与核心技术优势的保护。从这个角度看,DeepSeek开源权重和推理代码是理性的选择,而较多地披露训练技术细节则是一招险棋,虽赢得了巨大的关注度,但也可能加速竞争对手的追赶。
总体来看,大模型开源对人工智能应用发展、大模型产业的技术迭代、技术社区的繁荣有重要的贡献;包括大模型开源在内的“开源”思维对中国的创新竞争意义重大,是打破“脱钩”陷阱的战略抓手;对开源大模型企业而言,开源则是后发挑战者的有利竞争手段,但值得重视的是在开源程度与核心技术保护之间找到平衡,以赢得长期竞争优势;对于中国AI产业而言,继续推进高质量的开源大模型,不仅有助于提升在全球AI竞争中的话语权,更能为构建更加开放、包容、创新的全球AI生态贡献中国智慧和汲取全球智慧。
(作者刘劲系大湾区人工智能应用研究院理事、特聘专家,长江商学院会计与金融学教授、投资研究中心主任;段磊系大湾区人工智能应用研究院研究总监;张禛系大湾区人工智能应用研究院研究员)
股票怎么配资提示:文章来自网络,不代表本站观点。