近日, Google DeepMind 在《Nature》期刊上发表论文,推出了一款名为 Aeneas
的人工智能模型,旨在变革历史学家研究古代铭文的方式。这款工具能够帮助研究人员更好地解释、归属和修复那些残缺不全的古老文本。
在古罗马,文字几乎无处不在,从帝国纪念碑到日常用品,处处可见其踪迹。这些铭文内容包罗万象,涵盖政治涂鸦、爱情诗篇、商业交易乃至生日邀请,为现代历史学家提供了洞察罗马世界日常生活的丰富窗口。然而,每年新发现的约1500件铭文大多遭受了时间侵蚀、风化或人为损坏,变得残缺不全。如果没有上下文信息,修复、确定年代和来源地几乎是不可能的任务。
传统上,历史学家依靠个人专业知识和专业资源来寻找“相似文本”,即在措辞、句法或来源上具有相似性的其他铭文。 Aeneas
的出现,旨在将这一耗时耗力的过程极大提速。它能在数秒内处理数千份拉丁文铭文,检索出具有深度关联的文本和背景相似项,为历史学家的解读工作提供有力支持。
Aeneas
的研发由 Google DeepMind 与诺丁汉大学主导,并与华威大学、牛津大学及雅典经济与商业大学的研究人员合作完成。该项目不仅限于拉丁文,其模型设计也可以被应用于纸莎草纸、硬币等其他古代语言、文字和媒介,有潜力连接更广泛的历史证据。为了促进学术研究,该团队已在 predictingthepast.com
网站上免费提供了 Aeneas
的交互版本,并开源了其代码和数据集。
Aeneas 的核心能力
Aeneas
的命名源于希腊罗马神话中的英雄,它建立在早前用于修复、测定和定位古希腊铭文的 Ithaca
模型基础之上。但 Aeneas
更进一步,它的目标是帮助历史学家联系上下文,赋予孤立的碎片意义,并最终拼凑出对古代历史更完整的理解。
其核心能力包括:
- 相似文本搜索:通过一种名为“嵌入”(Embeddings)的技术,
Aeneas
将每段铭文的文本和背景信息(如语言、来源地、年代)编码成一个独特的“历史指纹”。借助这种方式,它可以在海量拉丁铭文中识别出深层联系,帮助历史学家将单个铭文置于更广阔的历史背景中进行考察。 - 多模态输入处理:
Aeneas
是首个能够利用多模态输入(即文本和图像)来确定铭文地理来源的模型。这一功能使其分析超越了纯文本的限制。 - 未知长度的缺口修复:面对严重损坏、缺失字符数量不明的文本,
Aeneas
首次实现了有效修复。这使其成为处理恶劣保存状况材料时更为灵活和强大的工具。 - 业界领先的性能:无论是在修复受损文本,还是在预测其书写时间和地点方面,
Aeneas
都树立了新的技术标杆。
工作原理与性能表现
Aeneas
是一个多模态生成式神经网络。研究团队首先整合了三大铭文数据库(EDR、EDH、EDCS-ELT),创建了一个包含超过17.6万份拉丁文铭文的机器可读数据集(LED)。
模型采用基于 Transformer 的解码器处理文本输入,并有专门的网络负责字符修复和年代测定。在进行地理归属时,模型会同时分析铭文的文本和图像。
在性能方面, Aeneas
的表现十分突出。其生成的“历史指纹”在按年代对铭文进行分组时,比其他通用拉丁语大型语言模型清晰得多。
在修复最多10个字符的缺口时, Aeneas
的前20位候选词准确率达到73%;即使在缺口长度未知这一极具挑战性的任务中,准确率也保持在58%。凭借其对视觉数据的利用,该模型能以72%的准确率将铭文归属于62个古罗马行省中的一个,并将文本年代的误差控制在13年以内。
为历史辩论提供新视角
为了测试 Aeneas
在实际研究中的应用,团队将其用于分析罗马最著名的铭文之一:《奥古斯都神圣业绩录》。这份铭文由奥古斯都大帝以第一人称撰写,其确切年代一直是历史学家争论的焦点。
Aeneas
没有给出一个固定的日期,而是生成了一个详细的概率分布。结果显示了两个明显的高峰:一个较小的高峰在公元前10-1年之间,一个更大、置信度更高的高峰在公元10-20年之间。这一量化结果,恰好反映了学术界两种主流的年代测定假说。
Aeneas
的预测基于文本中微妙的语言特征和历史标记,例如官方头衔和纪念碑。通过将年代问题转化为基于语言和背景数据的概率估算,该模型为解决悬而未决的历史争论提供了一种新的量化方法。
促进人机协作的历史研究
在一项大规模的历史学家与 AI 协作研究中,23位铭文研究专家被邀请使用 Aeneas
来处理一批文本。
评估结果表明,当历史学家将 Aeneas
提供的上下文信息(如相似文本)与其预测结果结合使用时,研究效率和准确性都得到了显著提升。一位参与研究的历史学家匿名表示:“Aeneas
找到的相似文本完全改变了我对这块铭文的看法。它注意到的细节对文本的修复和年代判断起到了决定性作用。”
通过将专家知识与机器学习相结合, Aeneas
正试图融入历史学家的现有工作流程,以一种可解释、可协作的方式,为连接人类的过去提供新的可能。