在人工智能领域,大型语言模型(LLM)技术日新月异,各种工具库层出不穷。为了帮助开发者更好地应对 LLM 开发的挑战,本文整理了一份包含 120 多个实用 LLM 库的工具箱,并按功能类别进行划分,方便工程师们快速查找和应用。

快速导航
为了方便读者快速定位所需资源,以下是各个类别工具库的快速链接:
| 🚀 LLM 训练与微调 | 🧱 LLM 应用开发 | 🩸 LLM 检索增强生成(RAG) |
| 🟩 LLM 推理 | 🚧 LLM 服务部署 | 📤 LLM 数据提取 |
| 🌠 LLM 数据生成 | 💎 LLM 智能体 | ⚖️ LLM 评估 |
| 🔍 LLM 监控 | 📅 LLM 提示词工程 | 📝 LLM 结构化输出 |
| 🛑 LLM 安全 | 💠 LLM 嵌入模型 | ❇️ 其他 |
LLM 训练与微调
| 库名称 | 描述 | 链接 |
|---|---|---|
| unsloth | 以更少的内存更快地微调 LLM。 | 链接 |
| PEFT | 先进的参数高效微调库。 | 链接 |
| TRL | 使用强化学习训练 transformer 语言模型。 | 链接 |
| Transformers | Transformers 提供了数千个预训练模型,用于执行文本、视觉和音频等不同模态的任务。 | 链接 |
| Axolotl | 旨在简化各种 AI 模型后训练的工具。 | 链接 |
| LLMBox | 一个全面的 LLM 库,包括统一的训练管道和全面的模型评估。 | 链接 |
| LitGPT | 快速训练和微调 LLM。 | 链接 |
| Mergoo | 一个用于轻松合并多个 LLM 专家并有效训练合并后的 LLM 的库。 | 链接 |
| Llama-Factory | 简单高效的 LLM 微调工具。 | 链接 |
| Ludwig | 用于构建自定义 LLM、神经网络和其他 AI 模型的低代码框架。 | 链接 |
| Txtinstruct | 一个用于训练指令调优模型的框架。 | 链接 |
| Lamini | 一个集成的 LLM 推理和调优平台。 | 链接 |
| XTuring | XTuring 提供了对 Mistral、LLaMA、GPT-J 等开源 LLM 进行快速、高效和简单微调的功能。 | 链接 |
| RL4LMs | 一个模块化的 RL 库,用于根据人类偏好微调语言模型。 | 链接 |
| DeepSpeed | DeepSpeed 是一个深度学习优化库,使分布式训练和推理变得简单、高效和有效。 | 链接 |
| torchtune | 一个专门为微调 LLM 而设计的 PyTorch 原生库。 | 链接 |
| PyTorch Lightning | 一个为预训练和微调 LLM 提供高级接口的库。 | 链接 |
LLM 应用开发
框架
| 库名称 | 描述 | 链接 |
|---|---|---|
| LangChain | LangChain 是一个用于开发由大型语言模型 (LLM) 驱动的应用程序的框架。 | 链接 |
| Llama Index | LlamaIndex 是 LLM 应用程序的数据框架。 | 链接 |
| HayStack | Haystack 是一个端到端的 LLM 框架,允许用户构建由 LLM、Transformer 模型、向量搜索等驱动的应用程序。 | 链接 |
| Prompt flow | 一套开发工具,旨在简化基于 LLM 的 AI 应用程序的端到端开发周期。 | 链接 |
| Griptape | 一个用于构建 AI 驱动应用程序的模块化 Python 框架。 | 链接 |
| Weave | Weave 是一个用于开发生成式 AI 应用程序的工具包。 | 链接 |
| Llama Stack | 构建 Llama 应用。 | 链接 |
多 API 访问
| 库名称 | 描述 | 链接 |
|---|---|---|
| LiteLLM | 以 OpenAI 格式调用 100 多个 LLM API 的库。 | 链接 |
| AI Gateway | 一个快速 AI 网关,具有集成的护栏。通过 1 个快速友好的 API 路由到 200 多个 LLM、50 多个 AI 护栏。 | 链接 |
路由器
| 库名称 | 描述 | 链接 |
|---|---|---|
| RouteLLM | 用于服务和评估 LLM 路由器的框架 – 在不影响质量的情况下节省 LLM 成本。OpenAI 客户端的直接替代品,用于将更简单的查询路由到更便宜的模型。 | 链接 |
记忆
| 库名称 | 描述 | 链接 |
|---|---|---|
| mem0 | AI 应用的记忆层。 | 链接 |
| Memoripy | 一个 AI 记忆层,具有短期和长期存储、语义聚类以及用于上下文感知应用程序的可选记忆衰减功能。 | 链接 |
界面
| 库名称 | 描述 | 链接 |
|---|---|---|
| Streamlit | 构建和共享数据应用程序的更快方法。Streamlit 让用户在几分钟内将 Python 脚本转换为交互式 web 应用程序。 | 链接 |
| Gradio | 全部用 Python 构建和共享令人愉悦的机器学习应用程序。 | 链接 |
| AI SDK UI | 构建聊天和生成式用户界面。 | 链接 |
| AI-Gradio | 创建由各种 AI 提供商支持的 AI 应用程序。 | 链接 |
| Simpleaichat | Python 包,用于轻松与聊天应用程序交互,具有强大的功能和最小的代码复杂性。 | 链接 |
| Chainlit | 在几分钟内构建可用于生产的对话式 AI 应用程序。 | 链接 |
低代码
| 库名称 | 描述 | 链接 |
|---|---|---|
| LangFlow | LangFlow 是一个用于 RAG 和多代理 AI 应用程序的低代码应用程序构建器。它基于 Python,并且与任何模型、API 或数据库无关。 | 链接 |
缓存
| 库名称 | 描述 | 链接 |
|---|---|---|
| GPTCache | 一个用于为 LLM 查询创建语义缓存的库。将 LLM API 成本降低 10 倍💰,将速度提高 100 倍。与 LangChain 和 LlamaIndex 完全集成。 | 链接 |
LLM RAG
| 库名称 | 描述 | 链接 |
|---|---|---|
| FastGraph RAG | 流线型且可提示的 Fast GraphRAG 框架,专为可解释、高精度、代理驱动的检索工作流程而设计。 | 链接 |
| Chonkie | RAG 分块库,轻量级、极速且易于使用。 | 链接 |
| RAGChecker | 用于诊断 RAG 的细粒度框架。 | 链接 |
| RAG to Riches | 构建、扩展和部署先进的检索增强生成应用程序。 | 链接 |
| BeyondLLM | Beyond LLM 提供了一个一体化工具包,用于检索增强生成 (RAG) 系统的实验、评估和部署。 | 链接 |
| SQLite-Vec | 一个可在任何地方运行的向量搜索 SQLite 扩展! | 链接 |
| fastRAG | fastRAG 是一个研究框架,用于高效和优化的检索增强生成管道,结合了先进的 LLM 和信息检索技术。 | 链接 |
| FlashRAG | 用于高效 RAG 研究的 Python 工具包。 | 链接 |
| Llmware | 用于使用小型、专用模型构建企业 RAG 管道的统一框架。 | 链接 |
| Rerankers | 各种重排序模型的轻量级统一 API。 | 链接 |
| Vectara | 构建 Agentic RAG 应用程序。 | 链接 |
LLM 推理
| 库名称 | 描述 | 链接 |
|---|---|---|
| LLM Compressor | 与 Transformers 兼容的库,用于将各种压缩算法应用于 LLM,以优化部署。 | 链接 |
| LightLLM | 基于 Python 的 LLM 推理和服务框架,以其轻量级设计、易扩展性和高速性能而著称。 | 链接 |
| vLLM | 用于 LLM 的高吞吐量和内存高效的推理和服务引擎。 | 链接 |
| torchchat | 在服务器、桌面和移动设备上本地运行 PyTorch LLM。 | 链接 |
| TensorRT-LLM | TensorRT-LLM 是一个用于优化大型语言模型 (LLM) 推理的库。 | 链接 |
| WebLLM | 高性能浏览器内 LLM 推理引擎。 | 链接 |
LLM 服务部署
| 库名称 | 描述 | 链接 |
|---|---|---|
| Langcorn | 使用 FastAPI 自动服务 LangChain LLM 应用程序和代理。 | 链接 |
| LitServe | 适用于任何大小的任何 AI 模型的极速服务引擎。它使用批量处理、流式传输和 GPU 自动缩放等功能增强了 FastAPI。 | 链接 |
LLM 数据提取
| 库名称 | 描述 | 链接 |
|---|---|---|
| Crawl4AI | 开源 LLM 友好的 Web 爬虫和抓取工具。 | 链接 |
| ScrapeGraphAI | 一个 web 抓取 Python 库,它使用 LLM 和直接图逻辑为网站和本地文档(XML、HTML、JSON、Markdown 等)创建抓取管道。 | 链接 |
| Docling | Docling 解析文档并轻松快速地将它们导出为所需的格式。 | 链接 |
| Llama Parse | GenAI 原生文档解析器,可以为任何下游 LLM 用例(RAG、代理)解析复杂文档数据。 | 链接 |
| PyMuPDF4LLM | PyMuPDF4LLM 库使用户可以更轻松地以 LLM & RAG 环境所需的格式提取 PDF 内容。 | 链接 |
| Crawlee | 一个 web 抓取和浏览器自动化库。 | 链接 |
| MegaParse | 适用于每种文档类型的解析器。 | 链接 |
| ExtractThinker | 用于 LLM 的文档智能库。 | 链接 |
LLM 数据生成
| 库名称 | 描述 | 链接 |
|---|---|---|
| DataDreamer | DataDreamer 是一个强大的开源 Python 库,用于提示、合成数据生成和训练工作流程。 | 链接 |
| fabricator | 一个灵活的开源框架,用于使用大型语言模型生成数据集。 | 链接 |
| Promptwright | 合成数据集生成库。 | 链接 |
| EasyInstruct | 一个易于使用的大型语言模型指令处理框架。 | 链接 |
LLM 智能体
| 库名称 | 描述 | 链接 |
|---|---|---|
| CrewAI | 用于编排角色扮演、自主 AI 代理的框架。 | 链接 |
| LangGraph | 将弹性语言代理构建为图。 | 链接 |
| Agno | 构建具有记忆、知识、工具和推理能力的 AI 代理。使用漂亮的代理 UI 与他们聊天。 | 链接 |
| AutoGen | 一个用于构建 AI 代理系统的开源框架。 | 链接 |
| Smolagents | 在几行代码中构建强大代理的库。 | 链接 |
| Pydantic AI | Python 代理框架,用于使用生成式 AI 构建生产级应用程序。 | 链接 |
| gradio-tools | 一个 Python 库,用于将 Gradio 应用程序转换为可由基于 LLM 的代理利用以完成其任务的工具。 | 链接 |
| Composio | 用于 AI 代理的生产就绪工具集。 | 链接 |
| Atomic Agents | 原子地构建 AI 代理。 | 链接 |
| Memary | 用于自主代理的开源记忆层。 | 链接 |
| Browser Use | 使网站可供 AI 代理访问。 | 链接 |
| OpenWebAgent | 一个在大型语言模型上启用 Web 代理的开放工具包。 | 链接 |
| Lagent | 一个用于构建基于 LLM 的代理的轻量级框架。 | 链接 |
| LazyLLM | 一个用于构建多代理 LLM 应用程序的低代码开发工具。 | 链接 |
| Swarms | 企业级生产就绪多代理编排框架。 | 链接 |
| ChatArena | ChatArena 是一个库,提供多代理语言游戏环境,并促进对自主 LLM 代理及其社交互动进行研究。 | 链接 |
| Swarm | 探索符合人体工程学的轻量级多代理编排的教育框架。 | 链接 |
| AgentStack | 构建强大 AI 代理的最快方法。 | 链接 |
| Archgw | 智能代理网关。 | 链接 |
| Flow | 一个用于构建 AI 代理的轻量级任务引擎。 | 链接 |
| AgentOps | AI 代理监控的 Python SDK。 | 链接 |
| Langroid | 多代理框架。 | 链接 |
| Agentarium | 用于创建和管理填充 AI 驱动代理的模拟的框架。 | 链接 |
| Upsonic | 支持 MCP 的可靠 AI 代理框架。 | 链接 |
LLM 评估
| 库名称 | 描述 | 链接 |
|---|---|---|
| Ragas | Ragas 是评估和优化大型语言模型 (LLM) 应用程序的终极工具包。 | 链接 |
| Giskard | ML & LLM 系统的开源评估和测试工具。 | 链接 |
| DeepEval | LLM 评估框架 | 链接 |
| Lighteval | 用于评估 LLM 的一体化工具包。 | 链接 |
| Trulens | LLM 实验的评估和跟踪工具 | 链接 |
| PromptBench | 大型语言模型的统一评估框架。 | 链接 |
| LangTest | 交付安全有效的语言模型。用于比较 LLM & NLP 模型在准确性、偏差、公平性、稳健性等方面的 60 多种测试类型。 | 链接 |
| EvalPlus | 用于 LLM4Code 的严格评估框架。 | 链接 |
| FastChat | 一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。 | 链接 |
| judges | 一个小型 LLM 评委库。 | 链接 |
| Evals | Evals 是一个用于评估 LLM 和 LLM 系统的框架,以及基准的开源注册表。 | 链接 |
| AgentEvals | 用于评估代理性能的评估器和实用程序。 | 链接 |
| LLMBox | 一个全面的 LLM 库,包括统一的训练管道和全面的模型评估。 | 链接 |
| Opik | 一个开源端到端 LLM 开发平台,其中还包括 LLM 评估。 | 链接 |
LLM 监控
| 库名称 | 描述 | 链接 |
|---|---|---|
| MLflow | 一个开源端到端 MLOps/LLMOps 平台,用于跟踪、评估和监控 LLM 应用程序。 | 链接 |
| Opik | 一个开源端到端 LLM 开发平台,其中还包括 LLM 监控。 | 链接 |
| LangSmith | 提供用于记录、监控和改进 LLM 应用程序的工具。 | 链接 |
| Weights & Biases (W&B) | W&B 提供用于跟踪 LLM 性能的功能。 | 链接 |
| Helicone | 面向开发人员的开源 LLM 可观测性平台。用于监控、指标、评估、代理跟踪、提示管理、游乐场等的一行集成。 | 链接 |
| Evidently | 一个开源 ML 和 LLM 可观测性框架。 | 链接 |
| Phoenix | 一个专为实验、评估和故障排除而设计的开源 AI 可观测性平台。 | 链接 |
| Observers | 一个用于 AI 可观测性的轻量级库。 | 链接 |
LLM 提示词工程
| 库名称 | 描述 | 链接 |
|---|---|---|
| PCToolkit | 大型语言模型的统一即插即用提示压缩工具包。 | 链接 |
| Selective Context | Selective Context 压缩用户的提示和上下文,以允许 LLM(例如 ChatGPT)处理 2 倍以上的内容。 | 链接 |
| LLMLingua | 用于压缩提示以加速 LLM 推理的库。 | 链接 |
| betterprompt | 在将 LLM 提示推送到生产环境之前对其进行测试的套件。 | 链接 |
| Promptify | 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为 GPT、PaLM 等流行的生成模型生成不同的 NLP 任务提示。 | 链接 |
| PromptSource | PromptSource 是一个用于创建、共享和使用自然语言提示的工具包。 | 链接 |
| DSPy | DSPy 是用于编程(而不是提示)语言模型的开源框架。 | 链接 |
| Py-priompt | 提示设计库。 | 链接 |
| Promptimizer | 提示优化库。 | 链接 |
LLM 结构化输出
| 库名称 | 描述 | 链接 |
|---|---|---|
| Instructor | Python 库,用于处理来自大型语言模型 (LLM) 的结构化输出。它构建于 Pydantic 之上,提供了一个简单、透明且用户友好的 API。 | 链接 |
| XGrammar | 一个用于高效、灵活和可移植的结构化生成的开源库。 | 链接 |
| Outlines | 强大的(结构化)文本生成 | 链接 |
| Guidance | Guidance 是一种用于指导语言模型的有效编程范例。 | 链接 |
| LMQL | 一种用于约束引导和高效 LLM 编程的语言。 | 链接 |
| Jsonformer | 一种从语言模型生成结构化 JSON 的万无一失的方法。 | 链接 |
LLM 安全
| 库名称 | 描述 | 链接 |
|---|---|---|
| JailbreakEval | 用于评估越狱尝试的自动评估器集合。 | 链接 |
| EasyJailbreak | 一个易于使用的 Python 框架,用于生成对抗性越狱提示。 | 链接 |
| Guardrails | 为大型语言模型添加护栏。 | 链接 |
| LLM Guard | LLM 交互的安全工具包。 | 链接 |
| AuditNLG | AuditNLG 是一个开源库,可以帮助降低与使用生成式 AI 系统进行语言相关的风险。 | 链接 |
| NeMo Guardrails | NeMo Guardrails 是一个开源工具包,用于轻松地为基于 LLM 的对话系统添加可编程护栏。 | 链接 |
| Garak | LLM 漏洞扫描器 | 链接 |
LLM 嵌入模型
| 库名称 | 描述 | 链接 |
|---|---|---|
| Sentence-Transformers | 先进的文本嵌入模型 | 链接 |
| Model2Vec | 快速的先进静态嵌入模型 | 链接 |
| Text Embedding Inference | 用于文本嵌入模型的高速推理解决方案。TEI 为最流行的模型(包括 FlagEmbedding、Ember、GTE 和 E5)实现了高性能提取。 | 链接 |
其他
| 库名称 | 描述 | 链接 |
|---|---|---|
| Text Machina | 一个模块化和可扩展的 Python 框架,旨在帮助创建高质量、无偏见的数据集,以构建用于 MGT 相关任务(如检测、归因和边界检测)的稳健模型。 | 链接 |
| LLM Reasoners | 用于高级大型语言模型推理的库。 | 链接 |
| EasyEdit | 一个易于使用的大型语言模型知识编辑框架。 | 链接 |
| CodeTF | CodeTF:用于先进代码 LLM 的一站式 Transformer 库。 | 链接 |
| spacy-llm | 此包将大型语言模型 (LLM) 集成到 spaCy 中,具有用于快速原型设计和提示的模块化系统,并将非结构化响应转换为各种 NLP 任务的稳健输出。 | 链接 |
| pandas-ai | 与用户的数据库(SQL、CSV、pandas、polars、MongoDB、NoSQL 等)聊天。 | 链接 |
| LLM Transparency Tool | 一个开源交互式工具包,用于分析基于 Transformer 的语言模型的内部工作原理。 | 链接 |
| Vanna | 与用户的 SQL 数据库聊天。通过使用 RAG 的 LLM 实现准确的文本到 SQL 生成。 | 链接 |
| mergekit | 用于合并预训练大型语言模型的工具。 | 链接 |
| MarkLLM | 一个 LLM 水印开源工具包。 | 链接 |
| LLMSanitize | 一个用于 NLP 数据集和大型语言模型 (LLM) 中污染检测的开源库。 | 链接 |
| Annotateai | 使用 LLM 自动注释论文。 | 链接 |
| LLM Reasoner | 让任何 LLM 像 OpenAI o1 和 DeepSeek R1 一样思考。 | 链接 |
































