如何通过WebDev Arena进行AI网页开发能力对比？

2025-08-30

1.5 K

使用WebDev Arena进行AI模型能力对比分为五个关键步骤：

任务输入阶段：在官网文本框中输入具体开发需求（建议采用”动词+对象+修饰词”结构，例如”生成带暗黑模式的音乐播放器”），比模糊描述更易获得优质结果
代码生成阶段：平台自动分配不同LLM（如OpenAI/Anthropic/DeepMind模型）同步处理任务，通常耗时10-30秒，复杂任务可能出现单个模型失败情况，此时可刷新重试
效果评估阶段：横向对比各模型生成的网页，重点检查三个维度：
- 布局还原度（如Twitter主页的卡片间距）
- 交互完整性（如下棋游戏的规则逻辑）
- 代码优雅性（通过浏览器开发者工具查看）
盲测投票阶段：选择最符合需求的方案提交投票，此时不会显示模型信息以保证公平性
Fase de análise de resultados：投票后平台会展示各方案对应的LLM型号，用户可据此了解不同模型的编程特长

操作示例中，当输入”生成井字游戏”时，可能会发现某些模型更擅长UI动画，而另一些在游戏逻辑处理上更优秀，这种差异化对比正是平台的核心价值。

Ferramenta de IA da estação de consulta rápida