O DeepAnalyze é um modelo de linguagem grande de agente inteligente projetado para ciência de dados autônoma. Sem intervenção humana, os usuários podem executar tarefas de forma independente em todo o processo de ciência de dados, o que inclui preparação de dados, análise, modelagem, visualização e geração de relatórios. O DeepAnalyze é capaz de se aprofundar em uma ampla variedade de fontes de dados, sejam dados estruturados, como bancos de dados, CSV e Excel, dados semiestruturados, como JSON e XML, ou até mesmo texto não estruturado, como TXT e Markdown, ele pode lidar com tudo isso. Por fim, ele pode produzir relatórios de pesquisa profissional em nível de analista. O mais importante é que o projeto DeepAnalyze é totalmente de código aberto, seus modelos, código, dados de treinamento e demonstrações estão disponíveis publicamente, facilitando a implantação em seus próprios ambientes pelos usuários ou o desenvolvimento secundário de acordo com suas próprias necessidades, para criar um assistente de análise de dados exclusivo.
Lista de funções
- Automação total do processoCapacidade de automatizar todas as etapas da ciência de dados, desde a limpeza e preparação inicial dos dados, passando pela análise e modelagem de dados, até a visualização final dos dados e a geração de relatórios, tudo sem intervenção humana.
- Pesquisa de dados abertosPesquisa exploratória e aprofundada: não se limita a instruções de tarefas específicas, pode conduzir pesquisas exploratórias e aprofundadas em uma determinada variedade de fontes de dados e produzir relatórios de pesquisa de alta qualidade.
- Suporte a diversas fontes de dadosSuporte para processamento de arquivos de dados em vários formatos, incluindo dados estruturados (por exemplo, banco de dados, CSV, Excel), dados semiestruturados (por exemplo, JSON, XML, YAML) e dados não estruturados (por exemplo, TXT, Markdown).
- Código-fonte totalmente abertoOs pesos do modelo, o código-fonte, os dados de treinamento e uma interface de demonstração interativa estão todos abertos para permitir que os desenvolvedores personalizem ou implantem serviços de análise de dados privados.
Usando a Ajuda
Abaixo estão instruções detalhadas passo a passo sobre como instalar e usar o DeepAnalyze.
1. configuração ambiental
Antes de começar a usá-lo, você precisa configurar o ambiente de software necessário para executá-lo. Uso recomendadocondapara gerenciar o ambiente, você pode garantir que não haja conflitos entre os pacotes dependentes.
Primeiro, crie um arquivo chamadodeepanalyzedo ambiente conda e especifique a versão 3.12 do Python.
conda create -n deepanalyze python=3.12 -y
Em seguida, ative o ambiente que você acabou de criar.
conda activate deepanalyze
Em seguida, instale todas as dependências necessárias. O diretório raiz do projeto fornece umrequirements.txtque contém todos os pacotes necessários e suas versões.
pip install -r requirements.txt
Se for necessário um treinamento de modelo, duas bibliotecas de desenvolvimento adicionais precisarão ser instaladas.
cd ./deepanalyze/ms-swift/ && pip install -e .
cd ./deepanalyze/SkyRL/ && pip install -e .
2. iniciar a interface de demonstração local
O projeto fornece uma versão de demonstração com uma interface gráfica de usuário que permite interagir com o DeepAnalyze de forma mais intuitiva.
Primeiro, todo o código do projeto precisa ser clonado em seu computador local.
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze
Uma vez no diretório do projeto, execute o script de inicialização para executar a API e a interface de front-end.
bash start.sh
Depois que o script for executado com êxito, abra o URL em seu navegador http://localhost:4000 Ele está pronto para começar a usá-lo. Você pode carregar arquivos de dados e permitir que o DeepAnalyze execute tarefas de análise de dados.
Se quiser interromper o serviço, você pode executar o seguinte comando:
bash stop.sh
Se você quiser implantar o serviço em um endereço IP específico, em vez do padrãolocalhostSe o endereço IP for alterado, você precisará alterar o endereço IP em ambos os arquivos:./demo/backend.py responder cantando ./demo/chat/lib/config.ts.
3. interação usando a linha de comando
Para os desenvolvedores que preferem usar a linha de comando, também é possível interagir com o DeepAnalyze diretamente por meio de scripts Python. Essa abordagem é mais flexível e facilita o teste e o desenvolvimento automatizados.
Primeiro, você precisa usar ovllmpara implementarDeepAnalyze-8BModelos.
vllm serve DeepAnalyze-8B
Em seguida, você pode usar o código Python abaixo para executar tarefas de ciência de dados. Você pode especificar uma tarefa específica ou fazer com que ele execute um estudo de dados aberto. Você pode fornecer qualquer número e tipo de fontes de dados.
from deepanalyze import DeepAnalyzeVLLM
# 定义你的指令和数据文件
# 指令可以是“生成一份数据科学报告”,也可以是更具体的任务
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
File 3: {"name": "disabled.xlsx", "size": "5.6KB"}
File 4: {"name": "enlist.csv", "size": "6.7KB"}
File 5: {"name": "filed_for_bankrupcy.csv", "size": "1.0KB"}
File 6: {"name": "longest_absense_from_school.xlsx", "size": "16.0KB"}
File 7: {"name": "male.xlsx", "size": "8.8KB"}
File 8: {"name": "no_payment_due.xlsx", "size": "15.6KB"}
File 9: {"name": "unemployed.xlsx", "size": "5.6KB"}
File 10: {"name": "enrolled.csv", "size": "20.4KB"}"""
# 指定存放数据文件的工作区路径
workspace = "/path/to/your/data/example/student_loan/"
# 初始化模型,这里的路径是你存放DeepAnalyze-8B模型文件的路径
deepanalyze = DeepAnalyzeVLLM("/path/to/your/checkpoints/deepanalyze-8b/")
# 生成结果
answer = deepanalyze.generate(prompt, workspace=workspace)
# 打印模型的思考过程和最终报告
print(answer["reasoning"])
Depois de executar o código acima, você obterá um relatório de pesquisa detalhado que pode ser processado diretamente no formato PDF.
4. implantação de serviços de API
O DeepAnalyze também suporta a implantação como um serviço de API compatível com OpenAI, facilitando a integração com os aplicativos existentes.
Você precisa executar o script do serviço de backend. Antes de executá-lo, certifique-se de modificar a variáveldemo/backend.pyno arquivoMODEL_PATHdefina seu valor como sua variávelvllmNome do modelo.
python demo/backend.py
Depois que o serviço for iniciado, você poderá interagir com o modelo enviando solicitações HTTP como se estivesse chamando a API da OpenAI.
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "user",
"content": "Generate a data science report."
}
],
"workspace": "example/student_loan/"
}'
cenário do aplicativo
- Análise de inteligência de negócios
Para os analistas de negócios, o DeepAnalyze pode ser usado para processar rapidamente dados de vendas, dados de comportamento do usuário etc. e gerar automaticamente relatórios de insight de dados, eliminando o tempo tedioso de processamento de dados e gráficos para tomar decisões de negócios mais rápidas. - pesquisa acadêmica
Ao lidar com dados experimentais ou dados de pesquisas sociais, os pesquisadores podem usar o DeepAnalyze para análise exploratória de dados, teste de hipóteses e construção de modelos, de modo a descobrir as leis ocultas por trás dos dados e acelerar o processo de pesquisa. - controle de riscos financeiros
No setor financeiro, o DeepAnalyze pode ser usado para analisar dados de crédito de solicitantes de empréstimos e identificar possíveis riscos de fraude. Ele pode processar várias fontes de dados e criar modelos preditivos para informar a avaliação de riscos. - Mineração de dados educacionais
As instituições educacionais podem usar o DeepAnalyze para analisar os dados de comportamento de aprendizagem e os dados de desempenho dos alunos para entender os caminhos de aprendizagem e os pontos de dificuldade dos alunos, apoiando assim o desenvolvimento de programas de ensino personalizados.
QA
- O que é o DeepAnalyze?
O DeepAnalyze é o primeiro modelo de linguagem grande de agente inteligente para ciência de dados autônoma. Ele pode executar todo o processo, desde a preparação dos dados até a geração de relatórios, de forma independente, assim como um cientista de dados humano. - Tenho que pagar para usar o DeepAnalyze?
Não. O DeepAnalyze é um projeto totalmente de código aberto, seus modelos, código e dados são gratuitos para uso e modificação. - Que tipos de dados o DeepAnalyze pode processar?
Ele pode lidar com vários tipos de dados, inclusive dados estruturados armazenados em bancos de dados, arquivos CSV ou Excel, dados semiestruturados, como JSON ou XML, e dados de texto não estruturados nos formatos TXT ou Markdown. - Posso executar o DeepAnalyze em meu próprio computador?
Você pode. Desde que seu computador atenda à configuração de hardware necessária para executar o modelo de linguagem grande, você pode seguir as etapas fornecidas na documentação oficial para implantar e usar o DeepAnalyze localmente.





























