家办龙虾技术架构白皮书

💡 核心结论

我们不是从头训练大模型，而是自研"AI Agent操作系统"

核心竞争力不是模型本身（调用即可），而是：行业知识图谱 + 智能工作流引擎 + 私有数据训练层

家办龙虾采用"自研核心 + API调用"的混合架构：

自研部分（价值核心）：Agent调度引擎、知识库系统、工作流编排、数据分析层
API调用部分：大语言模型（GPT-4/Claude/文心一言等）、Embedding模型
部署方式：私有化部署可选，数据不出客户机房

🏗️ 四层技术架构

📱 应用层（Presentation Layer）
Web工作台 · 微信小程序 · 客户门户 · 管理后台

↑↓ REST API / WebSocket

⚙️ 自研Agent引擎层（Core Engine）
任务调度 · 知识检索 · 工作流编排 · 记忆管理 · 多轮对话管理

↑↓ 内部API

🧠 模型层（Model Layer）
大语言模型API（GPT-4/Claude/文心） · Embedding模型 · 微调模型（可选）

↑↓ 数据接口

🗄️ 基础设施层（Infrastructure）
向量数据库 · 关系数据库 · 对象存储 · 缓存 · 消息队列

架构设计原则

🔒 安全优先

敏感数据本地存储
传输全程TLS加密
API调用脱敏处理
操作日志完整审计

🔌 模型可替换

模型层抽象封装
支持多模型切换
国产模型优先策略
成本与效果平衡

📈 水平扩展

无状态服务设计
容器化部署
自动扩缩容
负载均衡

⚖️ 自研 vs API调用：明确边界

模块	实现方式	说明	价值占比
Agent调度引擎	完全自研	任务拆解、工具调用、多Agent协作、异常处理	30%
知识库系统	完全自研	文档解析、向量化、检索排序、RAG增强	25%
工作流编排	完全自研	可视化流程设计、条件分支、自动化执行	15%
数据分析层	完全自研	客户画像、风险评估、智能推荐	15%
大语言模型	API调用	GPT-4/Claude/文心一言/通义千问，按需切换	10%
Embedding模型	API调用	文本向量化，支持开源模型本地部署	5%

关键认知：模型只是工具，Know-How才是壁垒

调用GPT-4人人都会，但：

如何让Agent理解"家族信托"的专业语境？→ 自研知识库系统
如何确保税务建议符合最新法规？→ 自研RAG检索增强
如何协调多个专家Agent完成复杂方案？→ 自研调度引擎

🔐 数据安全与本地化部署

三种部署模式

部署模式	适用场景	数据存储	成本
公有云SaaS	中小家办，快速启动	阿里云/腾讯云（国内节点）	最低
专属云部署	大型家办，数据敏感	客户指定云服务商独立VPC	中等
本地化部署	超大型机构，合规要求极高	客户自有服务器/机房	较高

安全保障措施

🔒

传输加密

全站HTTPS，API调用TLS 1.3，敏感字段额外AES加密

🗄️

数据隔离

多租户架构，客户数据物理隔离，数据库级加密

📋

审计日志

完整操作记录，支持行为追溯，满足合规审计要求

⚡

API脱敏

调用大模型前自动脱敏客户姓名、身份证号等敏感信息

针对纬博家办的特别承诺

纬博家办客户可选择本地化部署方案：

核心数据存储在纬博指定服务器
AI模型API调用通过加密通道，且敏感信息已脱敏
支持完全离线环境运行（需部署开源模型）
提供完整的数据备份与迁移方案

🚀 核心竞争优势（护城河）

为什么不是简单的"套壳ChatGPT"？

维度	通用AI工具	家办龙虾（自研核心）
行业知识	通用互联网数据，专业度不足	家族办公室专属知识库，10万+专业文档训练
工作流程	单轮问答，无上下文记忆	完整顾问工作流，多Agent协作，持续学习
数据安全	数据上传第三方，不可控	本地化部署可选，客户数据完全自主
业务闭环	仅提供建议，无后续支持	方案→执行→监控→优化，端到端服务
合规保障	不保证合规性	法规实时更新，合规性自动校验

技术壁垒总结

我们的护城河不是某一个技术点，而是"行业Know-How + 产品工程能力 + 客户数据飞轮"的三位一体：

行业Know-How：纬博家办20年专业经验沉淀为知识图谱
工程能力：将专业知识产品化的Agent引擎与交互设计
数据飞轮：使用越多→数据越多→模型越准→客户越多

📅 技术实现路线图

第一阶段（M1-M3）：核心引擎搭建

• Agent调度引擎v1.0开发完成
• 基础知识库系统上线
• 接入GPT-4/文心一言API
• 纬博家办试点部署

第二阶段（M4-M6）：功能完善

• 可视化工作流编排器上线
• 客户画像与风险评估模块
• 支持私有化部署方案
• B2C客户门户开发

第三阶段（M7-M9）：生态建设

• 供应商API对接平台
• 数据分析与BI报表
• 多模型支持（国产模型优先）
• 行业知识库开放共建

第四阶段（M10-M12）：规模化

• 性能优化与稳定性提升
• 自动化运维体系
• 企业级安全认证
• 多语言/多地区适配

❓ 常见问题解答

Q1: 调用GPT-4 API会不会成本很高？

当前大模型API成本已大幅下降。以GPT-4为例，输入¥0.03/1K tokens，输出¥0.06/1K tokens。一个典型的客户咨询会话约消耗2K tokens，成本约¥0.15。按B2B订阅模式，单客户月费¥5,000可覆盖数万次调用。

Q2: 如果OpenAI停止服务怎么办？

我们采用多模型策略：核心架构与模型解耦，同时接入GPT-4、Claude、文心一言、通义千问等多个模型。任一模型不可用时可自动切换，且国产模型在中文场景下效果已非常接近GPT-4。

Q3: 如何确保AI回答的专业准确性？

三重保障机制：
1. RAG检索增强：回答基于知识库检索，非模型幻觉
2. 专家校验：重要建议需人工确认后方可输出
3. 知识库更新：法规变动24小时内同步至系统

Q4: 客户数据训练模型会不会泄露隐私？

数据使用遵循以下原则：
• 默认不使用客户数据训练通用模型
• 仅在客户授权下进行私有化微调
• 敏感信息（姓名、证件号）自动脱敏
• 支持完全离线部署，数据不出本地

🦞 家办龙虾技术架构白皮书