古代文字解読

1件の記事

要約済み 1

arxiv-cs-ai 3日前 3
古代未解読語の解析にML活用、新データセット公開
Curation of a Palaeohispanic Dataset for Machine Learning

古イベリア語の機械学習向け構造化データセットが新たに公開された。ローマ征服以前のイベリア半島の未解読文字をML手法で分析可能にする設計。計算的アプローチによる古代語解読研究の加速が期待される。

解説本論文は、紀元前3世紀のローマ征服以前にイベリア半島で使われた古イベリア諸語（Palaeohispanic languages）を対象に、機械学習向けの構造化データセットを構築した研究である。古イベリア諸語はイベリア語やケルティベリア語などを含み、複数の半音節文字（semi-syllabary）で記されている。Gómez Morenoによるイベリア・レバント文字の解読を契機に研究が進んだが、現在も完全解読には至っていない。既存資料は言語学的な記述形式で提供されており、MLやNLPのパイプラインに直接投入できる形式ではなかった。本研究ではこれらの碑文資料を収集・整理し、モデル学習・評価に使えるデータセットとして再構成した。GPT-4oやClaudeなどの既存LLMとの直接比較は行われていないが、計算論的アプローチの基盤整備として意義が大きい。低資源かつ未解読要素を含む古代言語へのML適用という点で、文字解読・系統解析・言語モデリングなど多様な研究の出発点となりうる。

データセット構築計算言語学歴史言語学古代文字解読