最好的开源人工智能模型:所有免费使用选项的解释
以下是针对文本、图像和音频的最佳开源和免费使用的 AI 模型,按类型、应用程序和许可注意事项进行组织。
生成式人工智能(Gen AI)自两年前公开发布以来取得了显着进展。该技术带来了变革性的应用程序,可以以令人印象深刻的准确性和创造力创建文本、图像和其他媒体。
开源生成模型对于希望利用尖端人工智能技术而又不会产生高额许可费用或限制性商业政策的开发人员、研究人员和组织来说非常有价值。让我们了解更多。
开源模型与专有模型
开源人工智能模型具有多种优势,包括定制、透明度和社区驱动的创新。这些模型允许用户根据特定需求进行定制,并从持续的增强中受益。此外,它们通常附带允许商业和非商业使用的许可证,这增强了它们在各种应用程序中的可访问性和适应性。
然而,开源解决方案并不总是最佳选择。在需要严格监管合规、数据隐私和专业支持的行业中,专有模型通常表现更好。它们提供更强大的法律框架、专门的客户支持以及根据行业要求量身定制的优化。由于专为高性能和可靠性而设计的独特功能,闭源解决方案也可能在高度专业化的任务中表现出色。
当组织需要实时更新、高级安全性或专业功能时,专有模型可以提供更强大、更安全的解决方案,有效平衡开放性与对质量和责任的严格要求。
开源人工智能的定义
开源倡议 (OSI) 最近推出了开源人工智能定义 (OSAID),以明确什么才是真正的开源人工智能。为了满足 OSAID 标准,模型的设计和训练数据必须完全透明,使用户能够自由地重新创建、调整和使用它。
然而,一些流行的模型,包括 Meta 的 LLaMA 和 Stability AI 的 Stable Diffusion,存在许可限制或训练数据缺乏透明度,从而无法完全遵守 OSAID。
作为 OSAID 验证过程的一部分,OSI 评估了以下内容:
- 兼容模型:Pythia (Eleuther AI)、OLMo (AI2)、Amber 和 CrystalCoder (LLM360) 以及 T5 (Google)。
- 潜在合规模型:Bloom (BigScience)、Starcoder2 (BigCode) 和 Falcon (TII) 可以通过对许可条款或透明度进行细微调整来满足 OSAID 标准。
- 不合规模型:LLaMA (Meta)、Grok (X/Twitter)、Phi (Microsoft) 和 Mixtral (Mistral) 缺乏必要的透明度或施加限制性许可条款。
OSAID 在著名的开源社区成员中引发了明显的异议。由于它与用于软件的传统开源定义不同,它对开源生成人工智能模型的相关性和影响在社区论坛上引起了激烈的争论,包括开源定义的公告板(OSI 的替代组织)、开发人员邮件列表和 LinkedIn 等公共平台。
LLaMA 和其他不兼容的架构
Meta LLaMA 架构不符合 OSAID,因为其仅限研究的许可证具有限制性,而且训练数据缺乏完全透明度,限制了商业用途和可重复性。派生模型,如 Mistral 的 Mixtral 和 Vicuna Team 的 MiniGPT-4,继承了这些限制,在其他项目中传播 LLaMA 的不合规性。
除了基于 LLaMA 的模型之外,其他广泛使用的架构也面临类似的问题。例如,Stability AI 的 Stability Diffusion 采用了 Creative ML OpenRAIL-M 许可证,其中包括偏离 OSAID 无限制使用要求的道德限制。同样,xAI 的 Grok 将专有元素与使用限制相结合,挑战其与开源理念的一致性。
这些例子强调了满足 OSAID 标准的难度,因为许多人工智能开发人员在开放获取与商业和道德考虑之间取得平衡。
对组织的影响:OSAID 合规性与不合规性
选择符合 OSAID 的模型可为组织提供透明度、法律安全性和全面的可定制功能,这对于负责任和灵活的 AI 使用至关重要。这些合规模型遵守道德实践,并受益于强大的社区支持,促进协作发展。
相反,不合规的模型可能会限制适应性并更加依赖专有资源。对于优先考虑灵活性和与开源价值观保持一致的组织来说,符合 OSAID 的模型是有利的。然而,当需要专有功能时,不合规的模型仍然很有价值。
了解开源 AI 模型中的许可
开源人工智能模型是根据定义使用、修改和共享条件的许可证发布的。虽然一些许可证符合传统的开源标准,但其他许可证则包含限制或道德准则,妨碍完全遵守 OSAID。主要许可证包括:
- Apache 2.0: 一种宽松的许可证,允许免费使用、修改和分发,并授予专利权。 Apache 2.0 已获得 OSI 批准,在开源项目中很受欢迎,提供灵活性和法律保护。
- MIT:另一种宽松的许可证,只需要归属即可重复使用。与 Apache 2.0 一样,MIT 已获得 OSI 批准并被广泛采用,并且提供简单性和最少的限制。
- Creative ML OpenRAIL-M:专为人工智能应用程序设计的许可证,允许广泛使用,但强制实施道德准则以防止有害使用。 OpenRAIL-M 未获得 OSI 批准,因为它包含与 OSI 的无限制自由原则相冲突的使用限制。然而,它受到旨在优先考虑人工智能道德使用的开发人员的重视。
- CC BY-SA:知识共享相同方式共享许可证允许免费使用,并要求衍生作品保持开源。虽然它鼓励开放协作,但它未经 OSI 批准,并且更常用于内容而不是代码,因为它缺乏软件应用程序的灵活性。
- CC BY-NC 4.0: 一种知识共享许可证,允许免费使用并注明归属,但限制商业应用。该许可证用于某些模型权重(例如 Meta 的 MusicGen 和 AudioGen),限制了模型在商业环境中的可用性,并且不符合 OSI 的开源标准。
- 自定义许可证:我们列表中的许多型号(例如 IBM 的 Granite 和 Nvidia 的 NeMo)都在专有或自定义许可证下运行。这些模型通常会施加特定的使用条件或修改传统的开源术语以符合商业目标,从而使其不符合开源原则。
- 仅限研究许可:某些模型,例如 Meta 的 LLaMA 和 Codellama 系列,仅在研究使用条款下提供。这些许可证限制用于学术或非商业目的,并阻止广泛的社区驱动项目,因为它们不符合 OSI 的开源标准。
运行开源人工智能模型的要求
运行开源 Gen AI 模型需要特定的硬件、软件环境和工具集来进行模型训练、微调和部署任务。具有数十亿参数的高性能模型受益于 Nvidia A100 或 H100 等强大的 GPU 设置。
基本环境通常包括 Python 和 PyTorch 或 TensorFlow 等机器学习库。专业工具集,包括 Hugging Face 的 Transformers 库和 Nvidia 的 NeMo,简化了微调和部署的过程。 Docker 有助于在不同系统之间保持一致的环境,而 Ollama 允许在兼容系统上本地执行大型语言模型。
下图重点介绍了管理开源人工智能模型的基本工具集、推荐硬件及其特定功能:
Toolset | Purpose | Requirements | Use |
Python | Primary programming environment | N/A | Essential for scripting and configuring models |
PyTorch | Model training and inference | GPU (e.g., Nvidia A100, H100) | Widely used library for deep learning models |
TensorFlow | Model training and inference | GPU (e.g., Nvidia A100, H100) | Alternative deep learning library |
Hugging Face Transformers | Model deployment and fine-tuning | GPU (preferred) | Library for accessing, fine-tuning, and deploying models |
Nvidia NeMo | Multimodal model support and deployment | Nvidia GPUs | Optimized for Nvidia hardware and multimodal tasks |
Docker | Environment consistency and deployment | Supports GPUs | Containerizes models for easy deployment |
Ollama | Running large language models locally | macOS, Linux, Windows, supports GPUs | Platform to run LLMs locally on compatible systems |
LangChain | Building applications with LLMs | Python 3.7+ | Framework for composing and deploying LLM-powered applications |
LlamaIndex | Connecting LLMs with external data sources | Python 3.7+ | Framework for integrating LLMs with data sources |
此设置建立了一个强大的框架,用于有效管理 Gen AI 模型,从实验到生产就绪部署。每个工具集都具有独特的优势,使开发人员能够根据特定的项目需求定制其环境。
选择正确的型号
选择正确的人工智能模型取决于几个因素,包括许可要求、所需的性能和特定功能。虽然较大的模型往往具有更高的准确性和灵活性,但它们需要大量的计算资源。另一方面,较小的模型更适合资源受限的应用程序和设备。
值得注意的是,这里列出的大多数模型,即使是那些拥有 Apache 2.0 或 MIT 等传统开源许可证的模型,也不符合开源人工智能定义 (OSAID)。这一差距主要是由于训练数据透明度和使用限制方面的限制,OSAID 强调这对于真正的开源人工智能至关重要。然而,某些模型,例如 Bloom 和 Falcon,显示出对其许可证或透明度协议进行细微调整的合规潜力,并且随着时间的推移可能会实现完全合规。
下表提供了领先的开源生成式 AI 模型的组织概述,按类型、发行者和功能进行分类,以帮助您选择最适合您需求的选项,无论是完全透明的、社区驱动的模型还是高度自动化的模型。具有特定功能和许可要求的性能工具。
语言模型
语言模型在聊天机器人、内容创建、翻译和摘要等基于文本的应用程序中至关重要。它们是自然语言处理 (NLP) 的基础,并不断提高对语言结构和上下文的理解。
著名的模型包括 Meta 的 LLaMA、EleutherAI 的 GPT-NeoX 和 Nvidia 的 NVLM 1.0 系列,每个模型都以其在多语言、大规模和多模式任务中的独特优势而闻名。
Issuer & Model | Parameter Sizes | License | Highlights |
---|---|---|---|
Google T5 | Small to XXL | Apache 2.0 | High-performance language model, OSAID Compliant |
EleutherAI Pythia | Various | Apache 2.0 | Interpretability-focused, OSAID Compliant |
Allen Institute for AI (AI2) OLMo | Various | Apache 2.0 | Open language research model, OSAID Compliant |
BigScience BLOOM | 176B | OpenRAIL-M | Multilingual, responsible AI, OSAID Potential |
BigCode Starcoder2 | Various | Apache 2.0 | Code generation, OSAID Potential |
TII Falcon | 7B, 40B | Apache 2.0 | Efficient and high-performance, OSAID Potential |
AI21 Labs Jamba Series | Mini to Large | Custom | Language and chat generation |
AI Singapore Sea-Lion | 7B | Custom | Language and cultural representation |
Alibaba Qwen Series | 7B | Custom | Bilingual model (Chinese, English) |
Databricks Dolly 2.0 | 12B | CC BY-SA 3.0 | Open dataset, commercial use |
EleutherAI GPT-J | 6B | Apache 2.0 | General-purpose language model |
EleutherAI GPT-NeoX | 20B | MIT | Large-scale text generation |
Google Gemma 2 | 2B, 9B, 27B | Apache 2.0 | Language and code generation |
IBM Granite Series | 3B, 8B | Apache 2.0 | Summarization, classification, RAG |
Meta LLaMA 3.2 | 1B to 405B | Research-only | Advanced NLP, multilingual |
Microsoft Phi-3 Series | Mini to Medium | MIT | Reasoning, cost-effective |
Mistral AI Mixtral 8x22B | 8x22B | Apache 2.0 | Sparse model, efficient reasoning |
Mistral AI Mistral 7B | 7B | Apache 2.0 | Dense, multilingual text generation |
Nvidia NVLM 1.0 Family | 72B | CC by SA 3.0 | High-performance multimodal LLM |
Rakuten RakutenAI Series | 7B | Custom | Multilingual chat, NLP |
xAI Grok-1 | 314B | Apache 2.0 | Large-scale language model |
<小时>
图像生成模型
图像生成模型根据文本提示创建高质量的视觉效果或艺术作品,这对于内容创建者、设计师和营销人员来说非常宝贵。
Stability AI 的 Stable Diffusion 因其灵活性和输出质量而被广泛采用,而 DeepFloyd 的 IF 则强调通过对语言的理解来生成逼真的视觉效果。
Issuer & Model | Parameter Sizes | License | Highlights |
---|---|---|---|
Stability AI Stable Diffusion 3.5 | 2.5B to 8B | OpenRAIL-M | High-quality image synthesis |
DeepFloyd IF | 400M to 4.3B | Custom | Realistic visuals with language comprehension |
OpenAI DALL-E 3 | Not disclosed | Custom | State-of-the-art text-to-image synthesis |
Google Imagen | Not disclosed | Custom | High-fidelity image generation from text |
Midjourney | Not disclosed | Custom | Artistic and stylized image generation |
Adobe Firefly | Not disclosed | Custom | Integrated AI image generation within Adobe products |
<小时>
视觉模型
视觉模型分析图像和视频,支持对象检测、分割和根据文本提示生成视觉。
这些技术使多个行业受益,包括医疗保健、自动驾驶汽车和媒体。
Issuer & Model | Parameter Sizes | License | Highlights |
---|---|---|---|
Meta SAM 2.1 | 38.9M to 224.4M | Apache 2.0 | Video editing, segmentation |
NVIDIA Consistency | Not disclosed | Custom | Character consistency across video frames |
NVIDIA VISTA-3D | Not disclosed | Custom | Medical imaging, anatomical segmentation |
NVIDIA NV-DINOv2 | Not disclosed | Non-commercial | Image embedding generation |
Google DeepLab | Not disclosed | Apache 2.0 | High-quality semantic image segmentation |
Microsoft Florence | 0.23B, 0.77B | MIT | General-purpose visual model for computer vision |
OpenAI CLIP | 400M | MIT | Text and image comprehension |
<小时>
音频型号
音频模型处理并生成音频数据,从而实现语音识别、文本到语音合成、音乐创作和音频增强。
Issuer & Model | Sizes | License | Highlights |
---|---|---|---|
Coqui.ai TTS | N/A | MPL 2.0 | Text-to-speech synthesis, multi-language support |
ESPnet ESPnet | N/A | Apache 2.0 | End-to-end speech processing toolkit |
Facebook AI wav2vec 2.0 | Base (95M), Large (317M) | Apache 2.0 | Self-supervised speech recognition |
Hugging Face Transformers (Speech Models) | Various | Apache 2.0 | Collection of ASR and TTS models |
Magenta MusicVAE | N/A | Apache 2.0 | Music generation and interpolation |
Meta MusicGen | N/A | MIT / CC BY-NC 4.0 | Music generation from text prompts |
Meta AudioGen | N/A | MIT / CC BY-NC 4.0 | Sound effect generation from text prompts |
Meta EnCodec | N/A | MIT / CC BY-NC 4.0 | High-quality audio compression |
Mozilla DeepSpeech | N/A | MPL 2.0 | End-to-end speech-to-text engine |
NVIDIA NeMo (Speech Models) | Various | Apache 2.0 | ASR and TTS models optimized for Nvidia GPUs |
OpenAI Jukebox | N/A | MIT | Neural music generation with genre/artist conditioning |
OpenAI Whisper | 39M to 1.6B | MIT | Multilingual speech recognition and transcription |
TensorFlow TFLite Speech Models | N/A | Apache 2.0 | Speech recognition models optimized for mobile devices |
<小时>
多式联运模型
多模式模型结合文本、图像、音频和其他数据类型,从各种输入创建内容。
这些模型在需要语言、视觉和感官理解的应用中非常有效。
Model Name | Parameter Sizes | License | Highlights |
---|---|---|---|
Allen Institute for AI (AI2) Molmo | 1B, 70B | Apache 2.0 | A multimodal AI model that processes text and visual inputs, OSAID-compliant |
Meta ImageBind | N/A | Custom | Integrates six data types: text, images, audio, depth, thermal, and IMU. |
Meta SeamlessM4T | N/A | Custom | Provides multilingual translation and transcription services. |
Meta Spirit LM | N/A | Custom | Combines text and speech to produce natural-sounding outputs. |
Microsoft Florence-2 | 0.23B, 0.77B | MIT | Handles computer vision and language tasks proficiently. |
NVIDIA VILA | N/A | Custom | Processes vision-language tasks effectively. |
OpenAI CLIP | 400M | MIT | Excels in text and image comprehension. |
Vicuna Team MiniGPT-4 | 13B | Apache 2.0 | Capable of understanding both text and images. |
<小时>
检索增强生成 (RAG)
RAG 模型将生成式人工智能与信息检索相结合,使它们能够将广泛数据集中的相关数据合并到其响应中。
Issuer & Model | Parameter Sizes | License | Highlights |
---|---|---|---|
BAAI BGE-M3 | N/A | Custom | Dense and sparse retrieval optimization |
IBM Granite 3.0 Series | 3B, 8B | Apache 2.0 | Advanced retrieval, summarization, RAG |
Nvidia EmbedQA & ReRankQA | 1B | Custom | Multilingual QA, GPU-accelerated retrieval |
<小时>
专业型号
专业模型针对特定领域(例如编程、科学研究和医疗保健)进行了优化,提供适合其领域的增强功能。
Issuer & Model | Parameter Sizes | License | Highlights |
---|---|---|---|
Meta Codellama Series | 7B, 13B, 34B | Custom | Code generation, multilingual programming |
IBM Granite (Specialized Models) | 3B, 8B, 20B, 34B | Apache 2.0 | Code generation, time series, geospatial |
Mistral AI Mamba-Codestral | 7B | Apache 2.0 | Focused on coding and multilingual capabilities |
Mistral AI Mathstral | 7B | Apache 2.0 | Specialized in mathematical reasoning |
<小时>
护栏型号
Guardrail 模型通过检测和减少偏见、不当内容和有害反应来确保安全和负责任的输出。
Issuer & Model | Parameter Sizes | License | Highlights |
---|---|---|---|
NVIDIA NeMo Guardrails | N/A | Apache 2.0 | Open-source toolkit for adding programmable guardrails |
Google ShieldGemma | 2B, 9B, 27B | Custom | Safety classifier models built on Gemma 2 |
IBM Granite-Guardian | 8B | Apache 2.0 | Detects unethical or harmful content |
<小时>
选择开源模型
生成式人工智能的格局正在迅速发展,开源模型对于让所有人都能使用先进技术至关重要。这些模型允许定制和协作,打破了限制大公司人工智能开发的障碍。
开发者可以通过选择开源Gen AI,为全球社区做出贡献并加速技术进步,根据自己的需求定制解决方案。各种可用模型——从语言和视觉到以安全为中心的设计——确保了几乎所有应用的选择。
支持开源人工智能社区对于促进道德和创新人工智能发展、造福单个项目以及负责任地推进技术至关重要。