Skip to content

Latest commit

 

History

History
307 lines (233 loc) · 11.3 KB

README.zh.md

File metadata and controls

307 lines (233 loc) · 11.3 KB

DB-GPT: 用私有化LLM技术定义数据库下一代交互方式

DB-GPT 是什么?

DB-GPT是一个开源的数据库领域大模型框架。目的是构建大模型领域的基础设施,通过开发多模型管理、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作等多种技术能力,让围绕数据库构建大模型应用更简单,更方便。

数据3.0 时代,基于模型、数据库,企业/开发者可以用更少的代码搭建自己的专属应用。

目录

DB-GPT视频介绍

效果演示

Chat Data

chatdata

Chat Excel

excel

根据自然语言对话生成分析图表

安装

Docker Linux macOS Windows

教程

特性一览

  • 私域问答&数据处理&RAG

    支持内置、多文件格式上传、插件自抓取等方式自定义构建知识库,对海量结构化,非结构化数据做统一向量存储与检索

  • 多数据源&GBI

    支持自然语言与Excel、数据库、数仓等多种数据源交互,并支持分析报告。

  • 自动化微调

    围绕大语言模型、Text2SQL数据集、LoRA/QLoRA/Pturning等微调方法构建的自动化微调轻量框架, 让TextSQL微调像流水线一样方便。详见: DB-GPT-Hub

  • 数据驱动的Agents插件

    支持自定义插件执行任务,原生支持Auto-GPT插件模型,Agents协议采用Agent Protocol标准

  • 多模型支持与管理

    海量模型支持,包括开源、API代理等几十种大语言模型。如LLaMA/LLaMA2、Baichuan、ChatGLM、文心、通义、智谱等。当前已支持如下模型:

  • 隐私安全

    通过私有化大模型、代理脱敏等多种技术保障数据的隐私安全。

  • 支持数据源

架构方案

整个DB-GPT的架构,如下图所示

核心能力主要有以下几个部分:

  • RAG(Retrieval Augmented Generation),RAG是当下落地实践最多,也是最迫切的领域,DB-GPT目前已经实现了一套基于RAG的框架,用户可以基于DB-GPT的RAG能力构建知识类应用。

  • GBI:生成式BI是DB-GPT项目的核心能力之一,为构建企业报表分析、业务洞察提供基础的数智化技术保障。

  • 微调框架: 模型微调是任何一个企业在垂直、细分领域落地不可或缺的能力,DB-GPT提供了完整的微调框架,实现与DB-GPT项目的无缝打通,在最近的微调中,基于spider的准确率已经做到了82.5%

  • 数据驱动的Multi-Agents框架: DB-GPT提供了数据驱动的自进化微调框架,目标是可以持续基于数据做决策与执行。

  • 数据工厂: 数据工厂主要是在大模型时代,做可信知识、数据的清洗加工。

  • 数据源: 对接各类数据源,实现生产业务数据无缝对接到DB-GPT核心能力。

RAG生产落地实践架构

子模块

Image

🌐 AutoDL镜像

🌐 小程序云部署

多语言切换

在.env 配置文件当中,修改LANGUAGE参数来切换使用不同的语言,默认是英文(中文zh, 英文en, 其他语言待补充)

使用说明

多模型使用

使用指南

贡献

提交代码前请先执行 black .

这是一个用于数据库的复杂且创新的工具, 我们的项目也在紧急的开发当中, 会陆续发布一些新的feature。如在使用当中有任何具体问题, 优先在项目下提issue, 如有需要, 请联系如下微信,我会尽力提供帮助,同时也非常欢迎大家参与到项目建设中。

Licence

The MIT License (MIT)

路线图

知识库RAG检索优化

  • Multi Documents
    • PDF
    • Excel, csv
    • Word
    • Text
    • MarkDown
    • Code
    • Images
  • RAG
  • Graph Database
    • Neo4j Graph
    • Nebula Graph
  • Multi Vector Database
    • Chroma
    • Milvus
    • Weaviate
    • PGVector
    • Elasticsearch
    • ClickHouse
    • Faiss

多数据源支持

  • 支持数据源

    • MySQL
    • PostgresSQL
    • Spark
    • DuckDB
    • Sqlite
    • MSSQL
    • ClickHouse
    • StarRocks
    • Oracle
    • Redis
    • MongoDB
    • HBase
    • Doris
    • DB2
    • Couchbase
    • Elasticsearch
    • OceanBase
    • TiDB

多模型管理与推理优化

Agents与插件市场

  • 多Agents框架
  • 自定义Agents
  • 插件市场
  • CoT集成
  • 丰富插件样本库
  • 支持AutoGPT协议
  • Multi-agents & 可视化能力打通,定义LLM+Vis新标准

测试评估能力建设

  • 知识库的数据文本集
  • 问题集合 [easy、medium、hard]
  • 评分机制
  • Excel + DB库表的测试评估

成本与可观测性

Text2SQL微调

  • support llms

    • LLaMA
    • LLaMA-2
    • BLOOM
    • BLOOMZ
    • Falcon
    • Baichuan
    • Baichuan2
    • InternLM
    • Qwen
    • XVERSE
    • ChatGLM2
  • SFT模型准确率 截止20231010,我们利用本项目基于开源的13B大小的模型微调后,在Spider的评估集上的执行准确率,已经超越GPT-4!

More Information about Text2SQL finetune

引用

如果您觉得我们的项目有用,请考虑引用我们的项目:

@software{db-gpt,
    author = {DB-GPT Team},
    title = {{DB-GPT}},
    url = {https://github.com/eosphoros-ai/DB-GPT},
    year = {2023}
}

联系我们

Star History Chart