最近、グーグル・ディープマインドは『ネイチャー』誌に論文を発表し、次のような新製品を発表した。 Aeneas
は、歴史学者が古代の碑文を研究する方法を変えるために設計された人工知能モデルである。このツールは、研究者が古代のテキストをより良く解釈し、帰属させ、修復するのに役立つ。
古代ローマでは、帝国のモニュメントから日用品まで、あらゆるものに文字が刻まれていた。政治的な落書きから愛の詩、商取引、誕生日の招待状まで、あらゆるものを網羅するこれらの碑文は、ローマ世界の日常生活を知る豊かな窓を現代の歴史家に提供している。しかし、毎年新たに発見される約1,500の碑文のほとんどは、時間の経過や風化、人為的な損傷に苦しんでいる。文脈情報がなければ、修復、年代測定、出所確認はほとんど不可能な作業である。
伝統的に、歴史家は「類似のテキスト」、すなわち言葉遣いや構文、出所などが類似している他の碑文を見つけるために、個人の専門知識や専門的なリソースに頼ってきた。 Aeneas
は、時間と労力のかかるこのプロセスを劇的にスピードアップするために登場した。何千ものラテン語の碑文を数秒で処理し、深く相関するテキストと文脈の類似点を検索して、歴史家の解釈作業をサポートすることができる。
Aeneas
の開発は、Google DeepMindとノッティンガム大学が主導し、ウォーリック大学、オックスフォード大学、アテネ経済ビジネス大学の研究者と共同で行われている。このプロジェクトはラテン語に限定されるものではなく、そのモデリングは他の古代言語、文字、パピルスやコインなどのメディアにも適用可能で、より広範な歴史的証拠につながる可能性を秘めている。学術研究を促進するため、チームは次のような取り組みを行っている。 predictingthepast.com
このウェブサイトでは、以下のサービスを無料で提供している。 Aeneas
のインタラクティブ・バージョンを作成し、そのコードとデータセットをオープンソース化した。
エネアスのコア・コンピテンシー
Aeneas
グレコ・ローマ神話の英雄にちなんで名付けられたこの碑文は、古代ギリシャの碑文を修復、年代測定、位置特定に利用したものである。 Ithaca
モデル・ベースの上に。しかし Aeneas
さらに一歩進んで、歴史家が文脈を整理し、孤立した断片に意味を与え、最終的には古代史のより完全な理解をまとめあげる手助けをすることを目指している。
そのコア・コンピタンスには以下が含まれる:
- 類似テキスト検索エンベッディングと呼ばれる技術によってね。
Aeneas
各碑文のテキストおよび文脈情報(言語、起源地、年代など)は、固有の「歴史的指紋」に符号化される。このようにして、膨大な数のラテン語碑文間の深いつながりを特定することが可能となり、歴史家が個々の碑文をより広い歴史的文脈の中に位置づけるのに役立ちます。 - マルチモーダル入力処理::
Aeneas
は、碑文の地理的起源を決定するために、マルチモーダル入力(すなわち、テキストと画像)を使用できる最初のモデルである。この機能により、テキストのみの制限を超えた分析が可能になった。 - 長さ不明の隙間修復未知の文字数が欠落している、ひどく破損したテキストを前にして。
Aeneas
初めて効果的な修復が実現した。これにより、保存状態の悪い素材に対処するための、より柔軟で強力なツールとなった。 - 業界をリードするパフォーマンス破損したテキストを修復する際にも、いつ、どこで書かれたかを予測する際にも。
Aeneas
どちらも新たな技術的ベンチマークを打ち立てた。
動作原理と性能
Aeneas
はマルチモーダル生成ニューラルネットワークである。研究チームはまず、3つの主要な碑文データベース(EDR、EDH、EDCS-ELT)を統合し、176,000以上のラテン語碑文を含む機械可読データセット(LED)を作成した。
このモデルは、テキスト入力を処理するためにTransformerベースのデコーダーを使用し、文字の復元と年代測定には特殊なネットワークを使用する。地理的帰属を行う場合、このモデルは碑文のテキストと画像の両方を分析する。
パフォーマンスに関しては。 Aeneas
その性能は傑出している。碑文を年代順にグループ化した場合、このモデルが生成する「歴史的指紋」は、他の汎用ラテン語メガ言語モデルよりもはるかに明確である。
10文字までのギャップを修正する場合 Aeneas
視覚データを使用することで、このモデルは721 TP3Tの精度で碑文を62の古代ローマの州の1つに帰属させることができ、テキストの年代誤差を13年未満に抑えることができました。
歴史論争に新たな視点を提供する
テスト Aeneas
実際の研究応用として、研究チームはローマで最も有名な碑文のひとつである「アウグストゥスの聖なる演奏の記録」の分析にこの碑文を使用した。アウグストゥス大王が一人称で書いたこの碑文の正確な年代は、歴史学者の間で議論の的となっている。
Aeneas
固定した年代を示す代わりに、詳細な確率分布が作成された。その結果、紀元前10-1年の間の小さなピークと、紀元後10-20年の間の信頼度の高い大きなピークの2つの明確なピークが示された。この定量的な結果は、学界で支配的な2つの年代推定仮説を的確に反映している。
Aeneas
の予測は、微妙な言語的特徴や、公式称号や記念碑などのテキスト中の歴史的マーカーに基づいている。年代測定問題を、言語的・文脈的データに基づく確率的推定に変換することで、このモデルは未解決の歴史論争を解決する新しい定量的アプローチを提供する。
人間とコンピュータのコラボレーションを促進する歴史研究
歴史学者とAIの大規模な共同研究において、碑文研究の専門家23人が Aeneas
でテキストを一括処理する。
評価の結果、歴史家は Aeneas
提供された文脈情報(類似の文章など)を予測に併用することで、研究の効率と精度は著しく向上した。この研究に携わった歴史家の一人は、匿名で次のように述べている。Aeneas
同じような文章が見つかったことで、この碑文に対する私の見方は完全に変わった。この碑文が記した詳細は、碑文の復元と年代決定に決定的な影響を与えた」。
専門家の知識と機械学習を組み合わせることで Aeneas
は、歴史家の既存のワークフローに統合し、解釈可能で協力的な方法で人類の過去とつながる新たな可能性を提供しようとしている。