バイオインフォマティクス
要約済み 1
-
hf-blog 2日前 3mRNA言語モデル、165ドルで25種対応を実現Training mRNA Language Models Across 25 Species for $165
RoBERTaベースのコドン最適化モデルを25生物種対応の単一モデルとして構築・公開。 4×A100 GPUで55時間・約165ドルという低コストで学習を完了し、CAIスピアマン相関0.404を達成。 既存の専用モデルを上回る性能を低予算で実現し、生物情報学AIの民主化に貢献。
解説 本研究はOpenMedが公開した、mRNAコドン最適化に特化したトランスフォーマー言語モデル群の構築報告。コドン最適化とは、同じアミノ酸をコードする複数のDNA配列(同義コドン)の中から特定生物で高発現が期待されるものを選ぶ技術で、mRNAワクチンや遺伝子治療の効率化に直結する。人間・大腸菌・CHO細胞など25種の生物から38万件超のCDS(タンパク質コード配列)を収集し、種トークン([HUMAN]など)を語彙に追加した94トークン体系で単一モデルに条件付き学習させる手法を採用。アーキテクチャ比較ではRoBERTaがModernBERTや既存CodonBERT(6Mパラメータ)を大幅に上回り、パープレキシティ4.10・CAIスピアマン相関0.404を達成。GPT-4oやClaudeなど汎用LLMとの直接比較はないが、bioinformatics専用の既存モデルmRNABERTやNUWAと比べ、単一モデルで多生物種に対応しつつApache 2.0で完全オープンソース化している点が優れる。AWS A100スポットインスタンス4台・計55GPU時間・165ドルという破格のコストは、研究リソースの乏しい機関でも再現可能なことを示しており、実用上の意義が大きい。