7.2 KiB

Raw Blame History

LangChain 学习平台（langchain-learning-kit）

目标：提供一个企业级目录结构和简洁可运行的示例系统，用来学习 LangChain 的关键功能：MySQL 配置与持久化、模型管理（可切换 LLM）、知识库管理（向量库 + 元数据）、多轮对话（会话状态）、自定义智能体（Agent）、以及常用运维/安全/测试准备。设计偏教学但架构接近生产可演示性。

一、总体概览

用户 → 前端/CLI → API Server (FastAPI) → 服务层：
- Auth & UserManager（MySQL）
- ModelManager（LLM 配置/版本）
- KnowledgeBaseManager（向量索引 + 文档元数据）
- ConversationManager（会话/历史）
- Agent Orchestrator（RAG + 多工具）
- Jobs / Workers（异步任务：索引、embed、清理）
向量存储：FAISS（本地）
Embeddings：OpenAI
LLM：OpenAI
持久化：MySQL（元数据、用户、会话索引等） + 本地磁盘或 S3（FAISS 索引快照、文档原文）

二、技术选型

后端框架：FastAPI
LangChain：核心库 + langchain-community（Vectorstores）
向量 DB：FAISS（本地，开发）
Embeddings/LLM：OpenAI（示例），兼容层支持自托管模型（via ModelManager）
异步任务：Celery / RQ（演示可用内置 asyncio）
数据库：MySQL（演示使用 SQLAlchemy + Alembic）
Docker：容器化
CI：pytest + GitHub Actions
配置管理：dotenv / Env vars
日志/监控：结构化日志（uvicorn/structlog）、Prometheus（可选）

三、关键组件说明

1. ModelManager（模型管理）

职责：

管理可用的 embedding 模型与 LLM（名称、type、endpoint、apikey、可用状态）
提供统一接口 get_embedding_provider(name) / get_llm(name)
支持“默认模型”与按请求切换模型示例 DB 表：models（id, name, type (embedding|llm), config JSON, status, created_at）

2. KnowledgeBaseManager（知识库/向量管理）

职责：

管理多个知识库（kb），每个 kb 对应一套文档集合和向量索引
提供接口：create_kb(name), ingest_documents(kb, docs), query_kb(kb, query, k)
支持本地 FAISS 索引持久化：save_local(kb), load_local(kb)
元数据保存在 MySQL（document 表：id, kb_id, title, source, content, embedding_id,...）
支持分片、版本（snapshot）

3. ConversationManager（多轮对话）

职责：

管理会话对象（session_id, user_id, messages[], metadata）
提供 conversation memory（短期与长期）
支持将检索到的片段注入 prompt（RAG）
支持对话转写为文档入库（长期记忆）

DB 表：conversations (id, user_id, title, created_at)，messages (id, conversation_id, role, text, metadata, created_at)

4. Agent Orchestrator（自定义智能体）

职责：

将 LangChain Agent 与工具（retriever、calculator、external API）组合
提供 Agent 模板配置：工具集合、策略（单步/多步/chain-of-thought 开/关）
记录 agent_scratchpad 用于审计与回溯
提供 API 启动/停止智能体、获取工具调用日志

5. Jobs / Workers

职责：

异步嵌入计算（batch embedding）、文档分块、定期 reindex
可使用 Celery + Redis（或简单的线程池）实现

四、MySQL 设计（简化版 schema）

-- models: 存放模型信息（embedding/llm）
CREATE TABLE models (
  id INT AUTO_INCREMENT PRIMARY KEY,
  name VARCHAR(128) NOT NULL,
  type VARCHAR(32) NOT NULL, -- 'embedding' or 'llm'
  config JSON NOT NULL,      -- 存放 endpoint/api_key/其他配置
  is_default BOOLEAN DEFAULT FALSE,
  status VARCHAR(32) DEFAULT 'active',
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- knowledge bases
CREATE TABLE knowledge_bases (
  id INT AUTO_INCREMENT PRIMARY KEY,
  name VARCHAR(128) UNIQUE,
  description TEXT,
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- documents
CREATE TABLE documents (
  id BIGINT AUTO_INCREMENT PRIMARY KEY,
  kb_id INT,
  title VARCHAR(512),
  content LONGTEXT,
  source VARCHAR(512),
  metadata JSON,
  embedding_id VARCHAR(128),  -- 可选 linkage 到向量存储的 id
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
  FOREIGN KEY (kb_id) REFERENCES knowledge_bases(id)
);

-- conversations + messages
CREATE TABLE conversations (
  id BIGINT AUTO_INCREMENT PRIMARY KEY,
  user_id INT,
  title VARCHAR(255),
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);
CREATE TABLE messages (
  id BIGINT AUTO_INCREMENT PRIMARY KEY,
  conversation_id BIGINT,
  role VARCHAR(32),   -- user, assistant, system, tool
  content LONGTEXT,
  metadata JSON,
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
  FOREIGN KEY (conversation_id) REFERENCES conversations(id)
);

-- audit log for agent/tool calls
CREATE TABLE tool_calls (
  id BIGINT AUTO_INCREMENT PRIMARY KEY,
  agent_id VARCHAR(128),
  tool_name VARCHAR(128),
  call_input JSON,
  call_output JSON,
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

五、目录结构（企业级示例）

langchain-learning-kit/
├── docker/
│   ├── Dockerfile
│   ├── docker-compose.yml
│   └── nginx/
├── app/
│   ├── main.py                    # FastAPI entry
│   ├── config.py
│   ├── api/
│   │   ├── v1/
│   │   │   ├── models.py          # model management endpoints
│   │   │   ├── kb.py              # knowledge base endpoints
│   │   │   ├── conv.py            # conversation endpoints
│   │   │   └── agent.py           # agent endpoints
│   ├── services/
│   │   ├── model_manager.py
│   │   ├── kb_manager.py
│   │   ├── conv_manager.py
│   │   └── agent_orchestrator.py
│   ├── db/
│   │   ├── models.py              # SQLAlchemy models
│   │   ├── session.py
│   │   └── alembic/
│   ├── embeddings/
│   │   ├── openai_provider.py
│   │   └── providers.py
│   └── utils/
│       ├── text_splitter.py
│       ├── faiss_helper.py
│       └── logger.py
├── tests/
│   ├── unit/
│   └── integration/
├── docs/
│   ├── architecture.md
│   └── runbook.md
├── scripts/
│   ├── ingest_docs.py
│   └── reindex_faiss.py
├── .env
├── requirements.txt
└── README.md

六、关键 API 设计

1. Model 管理

POST /api/v1/models — 添加模型（body: name,type,config）
GET /api/v1/models — 列表
PUT /api/v1/models/{id} — 更新
DELETE /api/v1/models/{id}

2. 知识库

POST /api/v1/kb — 创建知识库
POST /api/v1/kb/{kb_id}/ingest — 上传文档（文本/URL），触发分割+嵌入（异步）
POST /api/v1/kb/{kb_id}/query — query（query, model, k）
GET /api/v1/kb/{kb_id}/status — index 状态

3. 会话

POST /api/v1/conversations — 新会话
POST /api/v1/conversations/{id}/messages — 追加消息（会触发 RAG/Agent）
GET /api/v1/conversations/{id} — 获取对话历史

4. Agent

POST /api/v1/agent/run — {agent_name, input, model?}
GET /api/v1/agent/logs/{run_id}

7.2 KiB Raw Blame History Unescape Escape

LangChain 学习平台（langchain-learning-kit）

一、总体概览

二、技术选型

三、关键组件说明

1. ModelManager（模型管理）

2. KnowledgeBaseManager（知识库/向量管理）

3. ConversationManager（多轮对话）

4. Agent Orchestrator（自定义智能体）

5. Jobs / Workers

四、MySQL 设计（简化版 schema）

五、目录结构（企业级示例）

六、关键 API 设计

1. Model 管理

2. 知识库

3. 会话

4. Agent

7.2 KiB

Raw Blame History