DeepAnalyzeは、自律的なデータサイエンスのために設計されたインテリジェントなエージェント大規模言語モデルです。 DeepAnalyzeは、データベース、CSV、Excelなどの構造化データ、JSONやXMLなどの半構造化データ、あるいはTXTやMarkdownなどの非構造化テキストなど、さまざまなデータソースをドリルダウンすることができます。TXTやMarkdownのような非構造化テキストであっても、すべて扱うことができます。最終的には、アナリストレベルの専門的な調査レポートを作成することができます。最も重要なことは、DeepAnalyzeプロジェクトは完全にオープンソースであり、そのモデル、コード、トレーニングデータ、デモが公開されていることである。
機能一覧
- プロセスの完全自動化最初のデータクレンジングと準備から、データ分析とモデリング、最終的なデータの可視化とレポート生成まで、データサイエンスのすべてのステップを自動化する機能。
- オープンデータ研究特定のタスク指示にとらわれず、様々なデータソースを探索的に深くリサーチし、質の高いリサーチレポートを作成することができる。
- 多様なデータソースをサポート構造化データ(データベース、CSV、Excelなど)、半構造化データ(JSON、XML、YAMLなど)、非構造化データ(TXT、Markdownなど)を含む複数の形式のデータファイルの処理をサポートします。
- 完全なオープンソースモデルの重み、ソースコード、トレーニングデータ、インタラクティブなデモインターフェイスはすべて公開されており、開発者はプライベートなデータ分析サービスをカスタマイズしたり、展開したりすることができます。
ヘルプの使用
以下に、DeepAnalyze のインストール方法と使用方法について、ステップごとに詳しく説明します。
1.環境構成
使用を開始する前に、実行に必要なソフトウェア環境を設定する必要があります。推奨使用方法condaを使用して環境を管理することで、依存するパッケージ間でコンフリクトが起きないようにすることができる。
まずdeepanalyzeconda環境のPythonバージョン3.12を指定する。
conda create -n deepanalyze python=3.12 -y
次に、作成した環境をアクティブにする。
conda activate deepanalyze
次に、必要な依存関係をすべてインストールする。プロジェクトのルート・ディレクトリにはrequirements.txtファイルには、必要なパッケージとそのバージョンがすべて含まれている。
pip install -r requirements.txt
モデルトレーニングが必要な場合は、さらに2つの開発ライブラリをインストールする必要がある。
cd ./deepanalyze/ms-swift/ && pip install -e .
cd ./deepanalyze/SkyRL/ && pip install -e .
2.ローカル・デモ・インターフェイスの起動
このプロジェクトでは、DeepAnalyzeをより直感的に操作できるグラフィカル・ユーザー・インターフェイスを備えたデモ版を提供しています。
まず、プロジェクト・コード全体をローカル・コンピューターにクローンする必要がある。
git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze
プロジェクト・ディレクトリに移動したら、スタートアップ・スクリプトを実行してAPIとフロントエンド・インターフェースを実行する。
bash start.sh
スクリプトが正常に実行されたら、ブラウザでURLを開く。 http://localhost:4000 すぐに使い始めることができます。 データファイルをアップロードして、DeepAnalyzeにデータ分析タスクを実行させることができます。
サービスを停止したい場合は、以下のコマンドを実行する:
bash stop.sh
デフォルトのIPアドレスではなく、特定のIPアドレスでサービスを展開したい場合localhost両方のファイルでIPアドレスを変更する必要があります:./demo/backend.py 歌で応える ./demo/chat/lib/config.ts.
3. コマンドラインを使ったインタラクション
コマンドラインの使用を好む開発者のために、Pythonスクリプトを使用してDeepAnalyzeと直接対話することも可能です。このアプローチはより柔軟で、自動テストと開発が容易になります。
まずvllm配備するDeepAnalyze-8Bモデル
vllm serve DeepAnalyze-8B
そして、以下のPythonコードを使ってデータサイエンス・タスクを実行することができる。特定のタスクを指定することも、自由形式のデータ調査を実行させることもできる。データソースの数や種類は問いません。
from deepanalyze import DeepAnalyzeVLLM
# 定义你的指令和数据文件
# 指令可以是“生成一份数据科学报告”,也可以是更具体的任务
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
File 3: {"name": "disabled.xlsx", "size": "5.6KB"}
File 4: {"name": "enlist.csv", "size": "6.7KB"}
File 5: {"name": "filed_for_bankrupcy.csv", "size": "1.0KB"}
File 6: {"name": "longest_absense_from_school.xlsx", "size": "16.0KB"}
File 7: {"name": "male.xlsx", "size": "8.8KB"}
File 8: {"name": "no_payment_due.xlsx", "size": "15.6KB"}
File 9: {"name": "unemployed.xlsx", "size": "5.6KB"}
File 10: {"name": "enrolled.csv", "size": "20.4KB"}"""
# 指定存放数据文件的工作区路径
workspace = "/path/to/your/data/example/student_loan/"
# 初始化模型,这里的路径是你存放DeepAnalyze-8B模型文件的路径
deepanalyze = DeepAnalyzeVLLM("/path/to/your/checkpoints/deepanalyze-8b/")
# 生成结果
answer = deepanalyze.generate(prompt, workspace=workspace)
# 打印模型的思考过程和最终报告
print(answer["reasoning"])
上記のコードを実行すると、PDF形式に直接レンダリングできる詳細な調査レポートが得られます。
4.APIサービスの展開
DeepAnalyzeは、OpenAI互換のAPIサービスとしての展開もサポートしており、既存のアプリケーションへの統合も容易です。
バックエンド・サービス・スクリプトを実行する必要があります。実行する前にdemo/backend.pyファイル内のMODEL_PATH変数の値をvllmモデル名
python demo/backend.py
サービスが開始されると、OpenAIのAPIを呼び出すようにHTTPリクエストを送ることで、モデルと対話することができます。
curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "user",
"content": "Generate a data science report."
}
],
"workspace": "example/student_loan/"
}'
アプリケーションシナリオ
- ビジネス・インテリジェンス分析
ビジネスアナリストにとっては、DeepAnalyzeを使用することで、販売データ、ユーザー行動データなどを迅速に処理し、データインサイトレポートを自動生成することができるため、面倒なデータ処理やチャート作成の時間を省き、ビジネス上の意思決定を迅速に行うことができます。 - 学術研究
実験データや社会調査データを扱う場合、研究者はDeepAnalyzeを探索的データ分析、仮説検証、モデル構築に使用することで、データの背後にある隠れた法則を発見し、研究プロセスを加速することができます。 - 財務リスク管理
金融分野では、DeepAnalyzeを使用してローン申請者の信用データを分析し、潜在的な不正リスクを特定することができます。複数のデータソースを処理し、予測モデルを構築してリスク評価に役立てることができる。 - 教育データマイニング
教育機関は、DeepAnalyzeを使って生徒の学習行動データや成績データを分析し、生徒の学習経路や苦手なポイントを把握することで、個人に合わせた教育プログラムの開発を支援することができる。
品質保証
- DeepAnalyzeとは?
DeepAnalyzeは、自律的データサイエンスのための最初のインテリジェントエージェント大規模言語モデルです。人間のデータサイエンティストと同じように、データの準備からレポート作成までの完全なプロセスを独立して実行することができます。 - DeepAnalyzeを使用するには、料金を支払う必要がありますか?
DeepAnalyzeは完全にオープンソースのプロジェクトであり、そのモデル、コード、データは自由に使用、変更することができます。 - DeepAnalyzeはどのような種類のデータを処理できますか?
データベース、CSVやExcelファイルに保存された構造化データ、JSONやXMLなどの半構造化データ、TXTやMarkdown形式の非構造化テキストデータなど、さまざまな種類のデータを扱うことができる。 - 自分のコンピュータでDeepAnalyzeを実行できますか?
できます。お使いのコンピュータがビッグ言語モデルの実行に必要なハードウェア構成を満たしている限り、公式ドキュメントに記載されている手順に従って、DeepAnalyzeをローカルに展開して使用できます。





























