ThinkDocのマルチモーダル文書解析機能により、PDF、Word、PPT、その他の一般的なオフィス文書など、さまざまな複雑な形式の処理をサポートします。
そのコア・コンピタンスには以下が含まれる:
- PDF文書のテキストコンテンツと複雑なレイアウトの分析
- Word文書内の表データを正確に抽出
- PPTファイル内の画像とテキストの組み合わせの内容を特定する
これらの文書を処理する際、システムは自動的に文書構造を識別し、もともと非構造化データであったものを構造化データに変換し、JSON形式で分析結果を生成する。テキストコンテンツを抽出するだけでなく、表やグラフ、その他の要素の意味的関係も保持するため、解析されたデータはそのままAI分析や知識検索に利用できる。
この答えは記事から得たものである。ThinkDoc:インテリジェントな構文解析と検索のための知識ベースプラットフォームについて