海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

DeepAnalyzeは、自律的なデータサイエンスのために設計されたインテリジェントなエージェント大規模言語モデルです。 DeepAnalyzeは、データベース、CSV、Excelなどの構造化データ、JSONやXMLなどの半構造化データ、あるいはTXTやMarkdownなどの非構造化テキストなど、さまざまなデータソースをドリルダウンすることができます。TXTやMarkdownのような非構造化テキストであっても、すべて扱うことができます。最終的には、アナリストレベルの専門的な調査レポートを作成することができます。最も重要なことは、DeepAnalyzeプロジェクトは完全にオープンソースであり、そのモデル、コード、トレーニングデータ、デモが公開されていることである。

機能一覧

  • プロセスの完全自動化最初のデータクレンジングと準備から、データ分析とモデリング、最終的なデータの可視化とレポート生成まで、データサイエンスのすべてのステップを自動化する機能。
  • オープンデータ研究特定のタスク指示にとらわれず、様々なデータソースを探索的に深くリサーチし、質の高いリサーチレポートを作成することができる。
  • 多様なデータソースをサポート構造化データ(データベース、CSV、Excelなど)、半構造化データ(JSON、XML、YAMLなど)、非構造化データ(TXT、Markdownなど)を含む複数の形式のデータファイルの処理をサポートします。
  • 完全なオープンソースモデルの重み、ソースコード、トレーニングデータ、インタラクティブなデモインターフェイスはすべて公開されており、開発者はプライベートなデータ分析サービスをカスタマイズしたり、展開したりすることができます。

ヘルプの使用

以下に、DeepAnalyze のインストール方法と使用方法について、ステップごとに詳しく説明します。

1.環境構成

使用を開始する前に、実行に必要なソフトウェア環境を設定する必要があります。推奨使用方法condaを使用して環境を管理することで、依存するパッケージ間でコンフリクトが起きないようにすることができる。

まずdeepanalyzeconda環境のPythonバージョン3.12を指定する。

conda create -n deepanalyze python=3.12 -y

次に、作成した環境をアクティブにする。

conda activate deepanalyze

次に、必要な依存関係をすべてインストールする。プロジェクトのルート・ディレクトリにはrequirements.txtファイルには、必要なパッケージとそのバージョンがすべて含まれている。

pip install -r requirements.txt

モデルトレーニングが必要な場合は、さらに2つの開発ライブラリをインストールする必要がある。

cd ./deepanalyze/ms-swift/ && pip install -e .
cd ./deepanalyze/SkyRL/ && pip install -e .

2.ローカル・デモ・インターフェイスの起動

このプロジェクトでは、DeepAnalyzeをより直感的に操作できるグラフィカル・ユーザー・インターフェイスを備えたデモ版を提供しています。

まず、プロジェクト・コード全体をローカル・コンピューターにクローンする必要がある。

git clone https://github.com/ruc-datalab/DeepAnalyze.git
cd DeepAnalyze

プロジェクト・ディレクトリに移動したら、スタートアップ・スクリプトを実行してAPIとフロントエンド・インターフェースを実行する。

bash start.sh

スクリプトが正常に実行されたら、ブラウザでURLを開く。 http://localhost:4000 すぐに使い始めることができます。 データファイルをアップロードして、DeepAnalyzeにデータ分析タスクを実行させることができます。

サービスを停止したい場合は、以下のコマンドを実行する:

bash stop.sh

デフォルトのIPアドレスではなく、特定のIPアドレスでサービスを展開したい場合localhost両方のファイルでIPアドレスを変更する必要があります:./demo/backend.py 歌で応える ./demo/chat/lib/config.ts.

3. コマンドラインを使ったインタラクション

コマンドラインの使用を好む開発者のために、Pythonスクリプトを使用してDeepAnalyzeと直接対話することも可能です。このアプローチはより柔軟で、自動テストと開発が容易になります。

まずvllm配備するDeepAnalyze-8Bモデル

vllm serve DeepAnalyze-8B

そして、以下のPythonコードを使ってデータサイエンス・タスクを実行することができる。特定のタスクを指定することも、自由形式のデータ調査を実行させることもできる。データソースの数や種類は問いません。

from deepanalyze import DeepAnalyzeVLLM
# 定义你的指令和数据文件
# 指令可以是“生成一份数据科学报告”,也可以是更具体的任务
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
File 3: {"name": "disabled.xlsx", "size": "5.6KB"}
File 4: {"name": "enlist.csv", "size": "6.7KB"}
File 5: {"name": "filed_for_bankrupcy.csv", "size": "1.0KB"}
File 6: {"name": "longest_absense_from_school.xlsx", "size": "16.0KB"}
File 7: {"name": "male.xlsx", "size": "8.8KB"}
File 8: {"name": "no_payment_due.xlsx", "size": "15.6KB"}
File 9: {"name": "unemployed.xlsx", "size": "5.6KB"}
File 10: {"name": "enrolled.csv", "size": "20.4KB"}"""
# 指定存放数据文件的工作区路径
workspace = "/path/to/your/data/example/student_loan/"
# 初始化模型,这里的路径是你存放DeepAnalyze-8B模型文件的路径
deepanalyze = DeepAnalyzeVLLM("/path/to/your/checkpoints/deepanalyze-8b/")
# 生成结果
answer = deepanalyze.generate(prompt, workspace=workspace)
# 打印模型的思考过程和最终报告
print(answer["reasoning"])

上記のコードを実行すると、PDF形式に直接レンダリングできる詳細な調査レポートが得られます。

4.APIサービスの展開

DeepAnalyzeは、OpenAI互換のAPIサービスとしての展開もサポートしており、既存のアプリケーションへの統合も容易です。

バックエンド・サービス・スクリプトを実行する必要があります。実行する前にdemo/backend.pyファイル内のMODEL_PATH変数の値をvllmモデル名

python demo/backend.py

サービスが開始されると、OpenAIのAPIを呼び出すようにHTTPリクエストを送ることで、モデルと対話することができます。

curl -X POST http://localhost:8200/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "user",
"content": "Generate a data science report."
}
],
"workspace": "example/student_loan/"
}'

アプリケーションシナリオ

  1. ビジネス・インテリジェンス分析
    ビジネスアナリストにとっては、DeepAnalyzeを使用することで、販売データ、ユーザー行動データなどを迅速に処理し、データインサイトレポートを自動生成することができるため、面倒なデータ処理やチャート作成の時間を省き、ビジネス上の意思決定を迅速に行うことができます。
  2. 学術研究
    実験データや社会調査データを扱う場合、研究者はDeepAnalyzeを探索的データ分析、仮説検証、モデル構築に使用することで、データの背後にある隠れた法則を発見し、研究プロセスを加速することができます。
  3. 財務リスク管理
    金融分野では、DeepAnalyzeを使用してローン申請者の信用データを分析し、潜在的な不正リスクを特定することができます。複数のデータソースを処理し、予測モデルを構築してリスク評価に役立てることができる。
  4. 教育データマイニング
    教育機関は、DeepAnalyzeを使って生徒の学習行動データや成績データを分析し、生徒の学習経路や苦手なポイントを把握することで、個人に合わせた教育プログラムの開発を支援することができる。

品質保証

  1. DeepAnalyzeとは?
    DeepAnalyzeは、自律的データサイエンスのための最初のインテリジェントエージェント大規模言語モデルです。人間のデータサイエンティストと同じように、データの準備からレポート作成までの完全なプロセスを独立して実行することができます。
  2. DeepAnalyzeを使用するには、料金を支払う必要がありますか?
    DeepAnalyzeは完全にオープンソースのプロジェクトであり、そのモデル、コード、データは自由に使用、変更することができます。
  3. DeepAnalyzeはどのような種類のデータを処理できますか?
    データベース、CSVやExcelファイルに保存された構造化データ、JSONやXMLなどの半構造化データ、TXTやMarkdown形式の非構造化テキストデータなど、さまざまな種類のデータを扱うことができる。
  4. 自分のコンピュータでDeepAnalyzeを実行できますか?
    できます。お使いのコンピュータがビッグ言語モデルの実行に必要なハードウェア構成を満たしている限り、公式ドキュメントに記載されている手順に従って、DeepAnalyzeをローカルに展開して使用できます。
0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語