情報抽出
要約済み 1
-
hf-papers 1日前 3LLMで自然言語からDB自動生成するScheMatiQ登場ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery
研究質問と文書を入力するだけで構造化データベースを自動構築するフレームワーク「ScheMatiQ」が発表された。 LLMによるスキーマ自動発見とHuman-in-the-Loopによる対話的修正を組み合わせ、法律・生物学分野で高精度を実証。 専門知識なしに研究データを構造化できるため、科学研究の効率化や再現性向上に貢献が期待される。
解説 ScheMatiQは研究者が持つ自然言語の問いかけ(例:「異なる大統領に任命された連邦判事は移民訴訟でどう判決を下すか?」)と文書コレクションを入力とし、LLMを活用して3段階のパイプラインで構造化データベースを自動構築する。①観察単位(Observation Unit)の発見:質問から分析対象エンティティ(判事・タンパク質等)を特定、②スキーマ発見:文書を逐次処理しながら関連フィールドを反復的に提案・洗練、③値の抽出:スキーマに従い全文書から証跡付きでデータを抽出する。バックボーンLLMにはGemini-2.5ファミリーを使用し、100文書あたり約1米ドルで動作する。評価では法律(89件の移民訴訟判決)・計算生物学(96本の論文)の2ドメインで人手アノテーション済みスキーマと比較し、ScheMatiQが大部分のフィールドを網羅しつつ専門家が「有用」と評価する新規フィールド(生物学:平均4.2/5点、法律:3.6/5点)も提案できることを示した。観察単位の再現率は生物学で87%、法律で74%。質問のみ・文書のみの入力では不十分で、両者の組み合わせが意味あるスキーマ生成に不可欠との知見も得られた。GPT-4oやClaudeを含む複数のLLMプロバイダーに対応し、オープンソースとして公開されている。