海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Tarsier是由字节跳动开发的开源视频-语言模型家族

2025-08-25 1.1 K

Tarsier模型的开发背景与定位

Tarsier是字节跳动(Bytedance)旗下自主研发的开源视频理解模型系列,其核心定位是通过跨模态技术实现高质量视频内容解析。该模型家族采用CLIP-ViT框架处理视觉信息,结合大语言模型的时间关系分析能力,构成了完整的视频-语言处理体系。作为2025年1月发布的最新版本,Tarsier2-7B在16个国际公开基准测试中达到了行业领先水平,展现出了与GPT-4o等顶级模型竞争的实力。

  • 技术架构:基于视觉-语言双模态设计
  • 版本演进:从初期版本到Tarsier2-7B的性能突破
  • 开源策略:完整公开模型权重、训练代码和评估工具

特别值得注意的是,该项目不仅提供模型本身,还配套发布了DREAM-1K基准数据集,包含1000个经过专业标注的视频片段,为行业提供了标准化的评估体系。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語