第四章 情報エントロピーの力
情報エントロピーとは
2006/08/24  

まず最初に、情報エントロピーとは何かについて述べよう。
(情報エントロピーについて基礎知識のある方は、本節と次節は読み飛ばして構わない。)

エントロピーという言葉は、主に二つの分野で使われている。 一つは第一章で見てきたような熱統計力学の分野、もう一つは情報理論の分野である。 紛らわしいことに、この2つのエントロピーは同一ではない。 例えば、熱運動する分子の位置や運動量、電気双極子や磁気双極子の向き、ある分子の化学種や配列の仕方、こういった対象についての情報は直接利用可能なエネルギーに変換することができる。 この場合は熱統計エントロピーと情報エントロピーは等価と言っても良い。 ところが、さいころを転がして次にでる目の数とか、ある文章で次に来る文字、現在の株の値段、こういった人為的な情報は知っていたからといって直接利用可能なエネルギーに変換できるわけではない。 この場合、情報エントロピーは定義できても熱統計エントロピーは定義できない。 古典的な情報理論の主な関心事は、情報をどうすれば効率よく、誤りなく伝達できるかという点にある。 そこでは情報の中身が具体的に何であるかは問われない。 つまり、数値化できる情報であれば何でも情報理論の対象になり得る。 一方、熱統計力学におけるエントロピーの主たる役割は「変化の向き」、即ち「エネルギーの流れる方向」を示すところにある。 熱統計力学の対象は、始めから「エネルギー絡み」のものに限定される。 「ロイヤルストレートフラッシュは自由エネルギー何ジュール分の価値があるか」などという問は、熱統計力学の観点からすればナンセンスであろう。 トランプの札をどう読むかは人間が恣意的に決めたルールであり、エネルギーは自然の定めた値だからである。※

以下では、もう一方のエントロピーに関連する情報エントロピーについて見てみよう。 情報を科学として扱おうとするときに、まずしなければならないのは「情報の大きさ」を数値化することである。 情報の大きさを計るのに最も素朴な方法は、選択子の数を数えることだ。 例えば、YesかNoかの質問に対する答えは2つの選択子から1つを決めるだけの情報を持っているので「選択子2」と数えることができる。 0から9までの数字1字がもたらす情報量は「選択子10」、いま転がしたサイコロの目が何であるか知ったときの情報量は「選択子6」である。

このように選択子の数をもって情報量とする方法は単純で解かりやすいのだが、考えを進めるとすぐに不便な点が出てくる。 まず不便なのは、単純な加算ができないことだ。 サイコロを一回振ったときの選択子は6だが、2回振ったとき(又は2個振ったとき)の選択子は6x6=36、3回なら6x6x6=216となる。 これでは扱いが難しい。 もしサイコロ一回の情報量がXならば、2回で2X、3回で3Xとしたいところである。 もう一点、「選択子1」というのはもともと決まっていることなのだから、情報量は0としたいところである。

こういった不便を鑑みて、もう少しスマートな情報の数え方が編み出されている。 それは、最も単純な情報の形態「Yes/No」を基本単位とする数え方だ。 一回の「Yes/No」によってもたらされる情報量を1と定義する。 つまり「情報量1」は「選択子2」に相当する。 「Yes/No」を2回繰り返したときに得られる情報量を2とする。 2回の「Yes/No」で4個の選択子のうちの1個を指定できるので、「情報量2」は「選択子4」に相当する。 以下「情報量3」は「選択子8」、「情報量4」は「選択子16」...「情報量n」は「選択子(2^n)」に相当することになる。 それでは、サイコロを一回振ったときの情報量は幾つになるだろうか。 情報量をXとして上記のルールに従えば、6=2^Xだから X=log[2]6 = 2.5849625 となる。 この2.5849625 という数字の意味は、「サイコロを一回振ったときの情報量はYes/Noの質問 2.5849625 回分に等しい」と解釈できる。 Yes/Noの質問だけを使って1から6までの数字のうちの1つを当てることを考えてみよう。 一回目に「4以上ですか?」という質問によって候補を3個に絞ることができる。 2回目に「偶数ですか?」という質問によって、運がよければ当たるし、運が悪ければ3回目の質問をしなければならない。 つまり6個の選択子のなかから1つを絞り込むには、Yes/Noの質問2回では少ないし3回では多すぎるのだ。 この数当てを何度も繰り返せば、質問の回数は平均して 2.5849625 回に近づいてゆくことになる。 以上の考え方をまとめると、情報量の定義は次の様になる。

n個の選択子のなかの1つを指定するだけの情報量Xは、X=log[2]nである。
この情報量Xの値は「Yes/Noの質問何回分か」を表している。 情報量の単位は「bit」である。 bitという言葉はコンピューター等でおなじみかもしれないが、もともとは情報量の単位だったのである。

上の情報量の定義では、暗黙の内に「全ての選択子が等確率で起こる」という仮定を敷いていた。 同じYes/Noの質問であっても「コインを投げて表が出るか?」に対する解答は(特別なコインで無い限り普通は)5分5分だが、「今日はあなたの誕生日か?」の解答は1:364.25 である。 それでは「今日はあなたの誕生日か?」という質問の答によって得られる情報量はいくらだろうか。 解答がYesの場合、得られる情報量はXy=log[2]365となる。 解答Noの場合、365の選択子が364に絞られるのだから、単純にはゆかない。 この場合、選択子の数の代わりに「Noの出る確率(の逆数)」、(365/364)という数を使う。 つまり、Noの場合に得られる情報量はXn=log[2](365/364)ということになる。 なぜ選択子の数を確率で置き換えられるのだろうか。 365の選択子を364に絞るということは、365の選択子を1つに絞ったあとで再び364に広げるのと同じだと考える。 この考え方に従うと情報量Xn=log[2]365−log[2]364となる(プラス365マイナス364)。 これは、上のlog[2](365/364)と同じことだ。 一般にm個の選択子からn個を絞り出す場合の情報量Xは、X=log[2](m/n)となる。 nが1のときは、単にm/1=mを使えばよかったわけだ。 さて、「誕生日の質問の答」によって得られる情報量は、Yesの情報量とNoの情報量の平均値だから、X=(1/365)Xy+(364/365)Xn となる。 ここで単純に(Xy+Xn)/2としてはいけない。 なぜならYesが返ってくる確率はNoが返ってくる確率よりずっと小さいからだ。 選択子の確率が異なる場合の情報量の定義は次の様になる。

ある事象の結果にi個の選択子があって、個々の選択子1,2,3・・・iが実現する確率がそれぞれP1,P2,P3・・・Piだったとする。
この事象の結果が解かったときにもたらされた情報量Xは、
X = P1*ln[2](1/P1) +P2*ln[2](1/P2)
      +P3*ln[2](1/P3)・・・+Pi*ln[2](1/Pi)
  = Σ[1〜i]{Pi*ln[2](1/Pi)}

この世の中の情報の全てが選択子の形で与えられるとは限らない。 例えば「おやつの時間は3時にする」と言われたとき、「3時」という数はどれほどの情報をもたらしているのだろうか。 時間の様に連続的な数値の持つ情報量は、数値の精度に依存することになる。 「3時」が時間単位だったなら、「おやつは3時」のもたらす情報量は一日24時間のうちの1時間を選び出したということでln[2]24である。 これが分単位の3:00だったなら、一日1440分の中の1分を選び出したので、精度の低い時間単位より多くの情報量を得たことになる。 連続的な時間の中で、一点の時刻を指定したすると、一点は精度無限大なので情報量も無限大ということになる。 しかし、精度無限大、情報量無限大という状況は考えずらい。 この困難を回避するため、実際には適当な精度で離散的な量に変換してから改めて情報量を考えるのである。 余談だが、時間にルーズな人との待ち合せ時間は「3時」と指定するより「3時12分」などといった中途半端な時間を指定した方がよい。 「3時」よりも「3時12分」という言い回しの方が、より高い精度で時間を扱っていることをほのめかすからだ。

世の中には始めから数値化するのが難しい情報も沢山ある。 絵画から受けた印象とか、ある言葉から受けた動揺の大きさとか、人間くさい情報は最も数字になりにくい。 現実の世界を生きる人間にとって、情報における最も重大な関心事は、情報の中身それ自体であろう。 成功の知らせであるか、失敗の知らせだったのか。 有用であるのか、無価値なのか。 しかし、情報理論の立場からすると、情報の中身それ自体には全く関心が無い。 良い知らせだろうと悪い知らせだろうと問題ではない。 問題は、その知らせの「量」だけなのである。 情報の意味を切り離したのは情報理論の成功の秘訣だと言える。 しかし同時に、その切り離された部分は情報理論が最初から見捨てた適用の限界であるとも言えるだろう。

さて、情報量の話が長くなったが、情報量が理解できれば情報エントロピーもすぐに理解できる。 情報エントロピーとは、「情報量にマイナスの符号をつけたもの」である。 選択の幅がせばまったときにプラスの情報量を獲得するのなら、反対に選択の幅が広がったときには情報を失ったものと考えることができる。
  (情報を失う)=(マイナスの情報を受け取る)=(情報エントロピーを受け取る)
この三者は同じことを表している。
「選択の幅が広がる」とは具体的にどんな状況を指すのだろうか。 「答えを得る」の逆は、「問題が与えられた」ときだ。 未知の要素が外部から与えられたとき、それが一体何であるのかを推測する幅が広がることになる。 わからないことが増えたとき、情報エントロピーが増大したと言う。 例えばポーカーを思い浮かべてみよう。 現在手元に5枚のわかっている札があったとして、このうちの一枚を取り替えたとすると、次の手の取り得る可能性は52−5=47通りに広がる。 このトランプの札1枚を取り替えるという行為がln[2](47)だけの情報エントロピーを増やすことに相当する。 アルファベット1文字の書かれた(未開封の)手紙を受け取ると、情報エントロピーはln[2](26)だけ増大する。 1分間にアルファベット2400文字を送る通信回線は、1分あたりln[2](26^2400)の情報エントロピーを運んでくる。 「情報量」と「情報エントロピー」は表裏一体の関係にある。 裏返しになったトランプを受け取ることは情報エントロピーを受け取ることに相当する。 そのトランプを表に返して何の札かを読み取る行為は情報量を増やすことに相当する。

「情報エントロピー」を一言で言い表すのは難しい。 「わからなさ」「選択の自由さ」「不確定の度合い」といったところであろうか。 情報とは、与えられた選択肢の数に着目すれば、その大きさを数値として示すことができる。 選択肢が狭まったとき、我々は情報を得た、情報量を取得した、と言う。 その反対に、選択肢が広がったとき、あるいは考慮すべき要素が増したとき、情報エントロピーが増大した、と言う。 これは私流の読み方だが、「情報エントロピー」という用語の解釈に苦しむときは、「情報量が減る」と読み替えてみるとよい。 この解釈で、大抵の文脈は通るはずだ。


世の中には簡単に分類できない対象があるかもしれない。 例えばDNAの塩基配列は、単に生物にとっての記号に過ぎないのか、エネルギーの絡んだメカニズムがあるのか一言では片付かないであろう。 ただ、情報と名が付いたからといってその全てが熱統計エントロピーに結びつくわけではない、ということは確かである。
ページ先頭に戻る▲