首先有一个误区,很多人觉得开源就是免费,开源就是没有版权。其实这是完全错误的理解!
开源≠免费。开源≠没有版权。开源≠随意商用。开源≠完全透明。
对开源模型的理解,目前大致有四个 Level,开放程度依次增加:
1. 封闭式“开源”(以 OpenAI 为代表)
- 核心理念:早期以开源和非营利为目标,逐渐转向封闭模式,通过 API 提供服务,不公开模型权重和训练细节。
- 特点:模型权重和训练数据不公开,仅提供黑箱化的 API,通过订阅服务和 API 收费实现盈利,有助于控制模型滥用风险。
- 争议:违背了开源的核心精神,被批评为技术垄断。
2. 自定义开源(以 Meta 为代表)
- 核心理念:开源模型(如 LLaMA),但采用自定义许可证(如 LLaMA 社区许可协议),强调研究和非商业用途,限制商业使用。
- 特点:公开模型权重,但限制商业使用和分发,主要面向学术机构和非营利组织,用户需申请访问权限。
- 争议:自定义许可证限制了模型的广泛使用,不符合完全开源的定义。
3. 传统开源(以 DeepSeek 为代表)
- 核心理念:采用传统开源许可证(如 Apache 2.0),完全开放模型权重和代码,强调自由使用、修改和分发,包括商业用途。
- 特点:模型权重、代码和部分训练数据公开,允许商业使用,无歧视性限制,鼓励社区协作和创新。
- 优势:符合传统开源定义,推动技术普及和创新。
4. 理想开源(以 OSI 为代表)
- 核心理念:OSI 正在制定 OSAID 1.0(Open Source AI Definition),旨在为开源 AI 系统提供明确标准,强调透明度、可访问性和可修改性。
- 特点:要求公开模型权重,允许用户自由使用,尽可能公开训练数据的来源和组成,训练和推理代码必须开源,不得限制特定用户群体或用途。
- 目标:确保开源 AI 系统符合开源精神,推动技术民主化。