2026.03.07 ｜テクノロジー

東京大学松尾・岩澤研究室、日本語医療特化LLM開発！医療DXへの活用検証

東京大学松尾・岩澤研究室は、日本語の医学知識に特化した大規模言語モデル（LLM）を開発し、研究者向けに対話型AIサービスとして公開しました。医師国家試験ベンチマークで高い正答率を記録したほか、電子カルテデータの標準化など医療業務への応用も検証されています。本記事では、この医療特化型LLMの仕組みや性能、医療現場で想定される活用可能性について整理します。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！

現在募集中の職種はこちら

日本語の医学知識を学習した医療特化型LLMとは

東京大学松尾・岩澤研究室は、日本語の医学知識に特化した大規模言語モデル「Weblab-MedLLM-Qwen-2.5-109B-Instruct」を開発しました。大規模言語モデル（LLM）は、大量の文章データを学習し、質問への回答や文章生成を行うAIの仕組みです。ChatGPTなどの対話型AIも同じ技術を基盤としています。
今回のモデルは、オープンLLM「Qwen-2.5-72B-Instruct」をベースとして構築されています。オープンLLMとは、研究者や企業が改良や検証を行える形で公開されている大規模言語モデルを指します。研究チームはこのモデルに対し、医学論文などの医学系コーパス（専門分野の文章データ）を用いた継続的な事前学習や指示学習を行い、日本語の医学知識を理解できるように調整しました。

さらに、既存モデルを再利用しながら性能を拡張する「upcycling」という手法を用いてモデルサイズを拡張しています。upcyclingは、すでに学習済みのパラメータを活用してモデルを拡張する方法で、ゼロから新しいモデルを構築するより効率的に性能を高められる特徴があります。こうした工程により、モデルは約1090億パラメータ規模まで拡張されました。
特徴の一つは、日本国内の医療制度に関する知識を含んでいる点です。海外のデータを中心に学習した一般的なLLMでは、日本の医療制度に関する問題に対応できない場合があります。一方、このモデルは国内制度の情報も含めて学習しているため、日本の医療制度を前提とした問題にも回答できるよう設計されています。

医師国家試験ベンチマークで示された高い回答精度

開発された医療特化型LLMは、2025年の医師国家試験ベンチマークで正答率93.3％を記録しました。医師国家試験は医学知識だけでなく診療判断や制度理解など幅広い内容が問われるため、医療分野におけるAIの知識理解を測る指標として研究でも利用されています。
今回の結果では、OpenAIが提供する「GPT-4o」や「OpenAI-o1」を上回る正答率が報告されています。医学論文などの専門データを用いた追加学習によって、医療分野の知識に関する回答精度が高まったと考えられます。さらに研究では、回答精度を高めるための技術も組み合わせて検証されています。その一つが「RAG（Retrieval-Augmented Generation）」です。RAGは、AIが回答を生成する際に外部の知識データベースを検索し、その情報を参照しながら回答を作る仕組みを指します。AIが持つ内部知識だけに頼らず、追加の情報を活用できる点が特徴です。

また、「majority voting（多数決）」という手法も使用されています。これはAIが複数の回答候補を生成し、その中で最も多く選ばれた回答を採用する方法です。複数の推論結果を比較することで、回答の誤りを減らすことを目的としています。
研究では、これらの技術を組み合わせることで正答率が最大で約98％まで向上する結果も確認されています。ただし、この数値には図の読み取りが必要な問題や計算問題など一部の問題は含まれていないと説明されています。

電子カルテ標準化など医療業務への応用検証

研究では、実際の医療業務を想定したユースケースの検証も行われています。対象となったのは、電子カルテに記録された医療データを標準名称へ変換する作業です。
医療機関では、感染症名や検査名などの記録方法が施設ごとに異なる場合があります。厚生労働省は医療データの統一を目的とした標準名称を定めていますが、既存のデータを手作業で整理するには多くの時間がかかります。
研究では、LLMを用いてこれらの名称を自動的に標準名称へ変換できるかを検証しました。その結果、モデルはF1スコア85％の精度で標準名称への変換が可能であることが確認されています。F1スコアはAIの予測精度を評価する指標で、誤りの少なさと見逃しの少なさを総合的に評価する数値です。

また、このモデルは研究者向けの対話型AIサービスとして公開されています。サービスはさくらインターネット株式会社の「さくらのAI Engine」上で動作しており、チャット形式で医学知識に関する質問を試すことができます。ただし、本サービスは研究目的の利用に限定されており、診断や治療などの医療行為に利用することはできません。

まとめ

いかがだったでしょうか？
東京大学松尾・岩澤研究室は、日本語の医学知識に特化した大規模言語モデルを開発し、研究者向けの対話型AIサービスとして公開しました。医師国家試験ベンチマークで高い正答率を示しただけでなく、電子カルテデータの標準化など医療業務への応用も検証されています。医療分野に特化したLLMの研究が進むことで、医療データの整理や活用の方法にも変化が生まれる可能性があります。今後の研究の進展にも注目が集まりそうです。

参考記事：https://weblab.t.u-tokyo.ac.jp/news/2026-03-05-02/

東京大学 松尾・岩澤研究室、日本語医療特化LLM開発！医療DXへの活用検証

日本語の医学知識を学習した医療特化型LLMとは

医師国家試験ベンチマークで示された高い回答精度

電子カルテ標準化など医療業務への応用検証

まとめ

東京大学松尾・岩澤研究室、日本語医療特化LLM開発！医療DXへの活用検証