LLMとは？大規模言語モデルの基本と技術指標

近年、ChatGPTなどの急速な普及によって「LLM（大規模言語モデル）」という言葉を耳にする機会が増えました。今回は、LLMの基本から、モデルの「規模」「処理能力」「表現力」を構成する主要な技術的指標までを、段階的に整理してご紹介します。

LLMとは？

LLM（Large Language Model）とは、「大規模なテキストデータから学習された言語モデル」を意味します。画像生成モデルや音声認識モデルと同じく、「基盤モデル（Foundation Model）」の一つです。

LLMは、膨大な文書データを通して学習されたパターンをもとに、入力されたテキストに続く可能性の高い単語や文を予測して出力する仕組みになっています。
この「予測精度」が非常に高いため、まるで意味を理解して会話しているかのような挙動を見せます。

LLMの「パラメータ」とは、ニューラルネットワーク内部の調整可能な変数のことです。
これらは、学習過程で知識を蓄える役割を果たします。

モデル名	開発元	公開状況/主な利用形態	主な特徴	推定パラメータ数
GPTシリーズ	OpenAI	API、ChatGPT	最も広く普及したLLM。高汎用性	GPT-3: 175B, GPT-4: 非公開（数兆？）
Geminiシリーズ	Google	API、Google製品	マルチモーダル対応	非公開（推定数千億～数兆）
Llamaシリーズ	Meta	オープンソース	軽量かつ商用利用可	Llama 2: 7B〜70B, Llama 3: 最大400B+
Mistralシリーズ	Mistral AI	API、OSS	ヨーロッパ発の軽量高性能モデル	7B, Mixtral 8x7B など
Phiシリーズ	Microsoft	オープンソース	小型モデルで高精度を追求	Phi-2: 2.7B, Phi-3: 最大14B

文章をAIが理解・処理する際に使う、最小単位です。
英単語の一部や、日本語の助詞単位などに細かく分解され、それぞれが「トークン」として扱われます。

モデルが一度に扱えるトークン数の上限です。

埋め込み（embedding）とは、単語や文章、画像、音声などをAIが理解できる数値のベクトルに変換する処理です。
このベクトルの長さ（数値の個数）が「次元数」です。

検索対象とクエリをベクトル化して、意味的に近い情報を探す技術です。

LLMは単なる巨大なテキスト生成器ではなく、その性能は「パラメータ数」「トークン処理能力（コンテキストウィンドウ）」「埋め込みの次元数」といった要素に支えられています。これらを理解することで、LLMをより効果的に活用したり、開発に役立てたりすることができます。