バイオインフォマティクス

1件の記事

要約済み 1

hf-blog 2日前 3
mRNA言語モデル、165ドルで25種対応を実現
Training mRNA Language Models Across 25 Species for $165

RoBERTaベースのコドン最適化モデルを25生物種対応の単一モデルとして構築・公開。 4×A100 GPUで55時間・約165ドルという低コストで学習を完了し、CAIスピアマン相関0.404を達成。既存の専用モデルを上回る性能を低予算で実現し、生物情報学AIの民主化に貢献。

解説本研究はOpenMedが公開した、mRNAコドン最適化に特化したトランスフォーマー言語モデル群の構築報告。コドン最適化とは、同じアミノ酸をコードする複数のDNA配列（同義コドン）の中から特定生物で高発現が期待されるものを選ぶ技術で、mRNAワクチンや遺伝子治療の効率化に直結する。人間・大腸菌・CHO細胞など25種の生物から38万件超のCDS（タンパク質コード配列）を収集し、種トークン（[HUMAN]など）を語彙に追加した94トークン体系で単一モデルに条件付き学習させる手法を採用。アーキテクチャ比較ではRoBERTaがModernBERTや既存CodonBERT（6Mパラメータ）を大幅に上回り、パープレキシティ4.10・CAIスピアマン相関0.404を達成。GPT-4oやClaudeなど汎用LLMとの直接比較はないが、bioinformatics専用の既存モデルmRNABERTやNUWAと比べ、単一モデルで多生物種に対応しつつApache 2.0で完全オープンソース化している点が優れる。AWS A100スポットインスタンス4台・計55GPU時間・165ドルという破格のコストは、研究リソースの乏しい機関でも再現可能なことを示しており、実用上の意義が大きい。

mRNA コドン最適化バイオインフォマティクス言語モデルタンパク質工学