使用WebDev Arena进行AI模型能力对比分为五个关键步骤:
- 任务输入阶段:在官网文本框中输入具体开发需求(建议采用”动词+对象+修饰词”结构,例如”生成带暗黑模式的音乐播放器”),比模糊描述更易获得优质结果
- 代码生成阶段:平台自动分配不同LLM(如OpenAI/Anthropic/DeepMind模型)同步处理任务,通常耗时10-30秒,复杂任务可能出现单个模型失败情况,此时可刷新重试
- 效果评估阶段:横向对比各模型生成的网页,重点检查三个维度:
- 布局还原度(如Twitter主页的卡片间距)
- 交互完整性(如下棋游戏的规则逻辑)
- 代码优雅性(通过浏览器开发者工具查看)
- 盲测投票阶段:选择最符合需求的方案提交投票,此时不会显示模型信息以保证公平性
- Fase de análise de resultados:投票后平台会展示各方案对应的LLM型号,用户可据此了解不同模型的编程特长
操作示例中,当输入”生成井字游戏”时,可能会发现某些模型更擅长UI动画,而另一些在游戏逻辑处理上更优秀,这种差异化对比正是平台的核心价值。
Essa resposta foi extraída do artigoWebDev Arena: uma ferramenta para comparar os recursos de programação web de IA lançada pela LMArenaO