DeepAnalyze：データサイエンスのタスクを自律的に実行する知的ボディ

2025-10-26

4.3 K 76

https://github.com/ruc-datalab/DeepAnalyze

のコピーを取る。

DeepAnalyzeは、自律的なデータサイエンスのために設計されたインテリジェントなエージェント大規模言語モデルです。 DeepAnalyzeは、データベース、CSV、Excelなどの構造化データ、JSONやXMLなどの半構造化データ、あるいはTXTやMarkdownなどの非構造化テキストなど、さまざまなデータソースをドリルダウンすることができます。TXTやMarkdownのような非構造化テキストであっても、すべて扱うことができます。最終的には、アナリストレベルの専門的な調査レポートを作成することができます。最も重要なことは、DeepAnalyzeプロジェクトは完全にオープンソースであり、そのモデル、コード、トレーニングデータ、デモが公開されていることである。

機能一覧

プロセスの完全自動化最初のデータクレンジングと準備から、データ分析とモデリング、最終的なデータの可視化とレポート生成まで、データサイエンスのすべてのステップを自動化する機能。
オープンデータ研究特定のタスク指示にとらわれず、様々なデータソースを探索的に深くリサーチし、質の高いリサーチレポートを作成することができる。
多様なデータソースをサポート構造化データ（データベース、CSV、Excelなど）、半構造化データ（JSON、XML、YAMLなど）、非構造化データ（TXT、Markdownなど）を含む複数の形式のデータファイルの処理をサポートします。
完全なオープンソースモデルの重み、ソースコード、トレーニングデータ、インタラクティブなデモインターフェイスはすべて公開されており、開発者はプライベートなデータ分析サービスをカスタマイズしたり、展開したりすることができます。

ヘルプの使用

以下に、DeepAnalyze のインストール方法と使用方法について、ステップごとに詳しく説明します。

1.環境構成

使用を開始する前に、実行に必要なソフトウェア環境を設定する必要があります。推奨使用方法condaを使用して環境を管理することで、依存するパッケージ間でコンフリクトが起きないようにすることができる。

まずdeepanalyzeconda環境のPythonバージョン3.12を指定する。

conda create -n deepanalyze python=3.12 -y

次に、作成した環境をアクティブにする。

conda activate deepanalyze

次に、必要な依存関係をすべてインストールする。プロジェクトのルート・ディレクトリにはrequirements.txtファイルには、必要なパッケージとそのバージョンがすべて含まれている。

pip install -r requirements.txt

モデルトレーニングが必要な場合は、さらに2つの開発ライブラリをインストールする必要がある。

cd ./deepanalyze/ms-swift/ && pip install -e .
cd ./deepanalyze/SkyRL/ && pip install -e .

2.ローカル・デモ・インターフェイスの起動

このプロジェクトでは、DeepAnalyzeをより直感的に操作できるグラフィカル・ユーザー・インターフェイスを備えたデモ版を提供しています。

まず、プロジェクト・コード全体をローカル・コンピューターにクローンする必要がある。

git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze

プロジェクト・ディレクトリに移動したら、スタートアップ・スクリプトを実行してAPIとフロントエンド・インターフェースを実行する。

bash start.sh

スクリプトが正常に実行されたら、ブラウザでURLを開く。 http://localhost:4000 すぐに使い始めることができます。データファイルをアップロードして、DeepAnalyzeにデータ分析タスクを実行させることができます。

サービスを停止したい場合は、以下のコマンドを実行する：

bash stop.sh

デフォルトのIPアドレスではなく、特定のIPアドレスでサービスを展開したい場合localhost両方のファイルでIPアドレスを変更する必要があります：./demo/backend.py 和 ./demo/chat/lib/config.ts。

3. コマンドラインを使ったインタラクション

コマンドラインの使用を好む開発者のために、Pythonスクリプトを使用してDeepAnalyzeと直接対話することも可能です。このアプローチはより柔軟で、自動テストと開発が容易になります。

まずvllm配備するDeepAnalyze-8Bモデル

vllm serve DeepAnalyze-8B

そして、以下のPythonコードを使ってデータサイエンス・タスクを実行することができる。特定のタスクを指定することも、自由形式のデータ調査を実行させることもできる。データソースの数や種類は問いません。

from deepanalyze import DeepAnalyzeVLLM
# 定义你的指令和数据文件
# 指令可以是“生成一份数据科学报告”，也可以是更具体的任务
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
File 3: {"name": "disabled.xlsx", "size": "5.6KB"}
File 4: {"name": "enlist.csv", "size": "6.7KB"}
File 5: {"name": "filed_for_bankrupcy.csv", "size": "1.0KB"}
File 6: {"name": "longest_absense_from_school.xlsx", "size": "16.0KB"}
File 7: {"name": "male.xlsx", "size": "8.8KB"}
File 8: {"name": "no_payment_due.xlsx", "size": "15.6KB"}
File 9: {"name": "unemployed.xlsx", "size": "5.6KB"}
File 10: {"name": "enrolled.csv", "size": "20.4KB"}"""
# 指定存放数据文件的工作区路径
workspace = "/path/to/your/data/example/student_loan/"
# 初始化模型，这里的路径是你存放DeepAnalyze-8B模型文件的路径
deepanalyze = DeepAnalyzeVLLM("/path/to/your/checkpoints/deepanalyze-8b/")
# 生成结果
answer = deepanalyze.generate(prompt, workspace=workspace)
# 打印模型的思考过程和最终报告
print(answer["reasoning"])

上記のコードを実行すると、PDF形式に直接レンダリングできる詳細な調査レポートが得られます。

4.APIサービスの展開

DeepAnalyzeは、OpenAI互換のAPIサービスとしての展開もサポートしており、既存のアプリケーションへの統合も容易です。

バックエンド・サービス・スクリプトを実行する必要があります。実行する前にdemo/backend.pyファイル内のMODEL_PATH変数の値をvllmモデル名

python demo/backend.py

サービスが開始されると、OpenAIのAPIを呼び出すようにHTTPリクエストを送ることで、モデルと対話することができます。

curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "user",
"content": "Generate a data science report."
}
],
"workspace": "example/student_loan/"
}'

アプリケーションシナリオ

ビジネス・インテリジェンス分析
ビジネスアナリストにとっては、DeepAnalyzeを使用することで、販売データ、ユーザー行動データなどを迅速に処理し、データインサイトレポートを自動生成することができるため、面倒なデータ処理やチャート作成の時間を省き、ビジネス上の意思決定を迅速に行うことができます。
学術研究
実験データや社会調査データを扱う場合、研究者はDeepAnalyzeを探索的データ分析、仮説検証、モデル構築に使用することで、データの背後にある隠れた法則を発見し、研究プロセスを加速することができます。
財務リスク管理
金融分野では、DeepAnalyzeを使用してローン申請者の信用データを分析し、潜在的な不正リスクを特定することができます。複数のデータソースを処理し、予測モデルを構築してリスク評価に役立てることができる。
教育データマイニング
教育機関は、DeepAnalyzeを使って生徒の学習行動データや成績データを分析し、生徒の学習経路や苦手なポイントを把握することで、個人に合わせた教育プログラムの開発を支援することができる。

QA

DeepAnalyzeとは？
DeepAnalyzeは、自律的データサイエンスのための最初のインテリジェントエージェント大規模言語モデルです。人間のデータサイエンティストと同じように、データの準備からレポート作成までの完全なプロセスを独立して実行することができます。
DeepAnalyzeを使用するには、料金を支払う必要がありますか?
DeepAnalyzeは完全にオープンソースのプロジェクトであり、そのモデル、コード、データは自由に使用、変更することができます。
DeepAnalyzeはどのような種類のデータを処理できますか？
データベース、CSVやExcelファイルに保存された構造化データ、JSONやXMLなどの半構造化データ、TXTやMarkdown形式の非構造化テキストデータなど、さまざまな種類のデータを扱うことができる。
自分のコンピュータでDeepAnalyzeを実行できますか?
できます。お使いのコンピュータがビッグ言語モデルの実行に必要なハードウェア構成を満たしている限り、公式ドキュメントに記載されている手順に従って、DeepAnalyzeをローカルに展開して使用できます。

AIオープンソースプロジェクト詳細な調査レポートの作成

AI生産性ツール » DeepAnalyze：データサイエンスのタスクを自律的に実行する知的ボディ 2025-10-26掲載、URLが古い、アクセスできない場合はご連絡ください。

0ブックマークに登録

0表彰される

DeepAnalyze：データサイエンスのタスクを自律的に実行する知的ボディ

機能一覧

ヘルプの使用

1.環境構成

2.ローカル・デモ・インターフェイスの起動

3. コマンドラインを使ったインタラクション

4.APIサービスの展開

アプリケーションシナリオ

QA

おすすめ

AIツールが見つからない？こちらをお試しください！

人気のAIツール

新着情報

最新のAIツール

DeepAnalyze：データサイエンスのタスクを自律的に実行する知的ボディ

機能一覧

ヘルプの使用

1.環境構成

2.ローカル・デモ・インターフェイスの起動

3. コマンドラインを使ったインタラクション

4.APIサービスの展開

アプリケーションシナリオ

QA

おすすめ

AIツールが見つからない？こちらをお試しください！

人気のAIツール

新着情報

最新のAIツール

クイック照会ステーションAIツール