MagicArena 采用多层级的评价体系:基础层收集大众用户的二选一投票,专家层邀请200余位CG艺术家进行专业评分,系统层则通过CLIP等评估模型自动打分。这三重数据经过加权计算后,实时更新在日榜/周榜/月榜三个维度。
排行算法具有以下特点:1)设置‘新手保护期’,新上线模型前48小时数据单独计算;2)采用Elo竞技评分系统,胜利模型获得积分与对手等级正相关;3)设有‘主题专项榜’追踪模型在不同领域的表现差异。目前排名数据显示,商业模型在写实类任务中保持优势,而开源社区模型在抽象创作类目反超23%。
该排行已成为行业重要风向标,某头部云服务商最新模型采购方案中,直接引用了平台6个月的趋势数据作为决策依据。近期新增的‘企业API接入’功能,允许机构直接获取标准化评测报告。
本答案来源于文章《MagicArena:头条推出的视觉模型对战排行平台》