最適なエンコードと情報量の関係
問題設定
情報を"0"と"1"の二つの記号を用いて伝達するときの最適なエンコード方法について考察する。
そしてその方法とは、シグナルの発生確率に反比例した語長(具体的には)のコードワードを割り当てることであることをこれから説明する。
最後に情報量との関係について述べる。
あるシグナルの伝達の効率の評価
シグナルに対して、その出現確率を、その語の長さをと定義すると、平均のメッセージ長としてを考えることができる。この和が短ければ短いほど効率よく伝達できていることになる。
コードワードの採用とそのコスト
デコードのプロセスを考えるとコードワードにを選んだ場合、やなど、接頭"01"を持つコードワードを新規に採用出来なくなる。このようにあるコードワードに対してそのコードワードを採用することで、コードワード全体のうち、どれだけのコードワードが使用不可になるか?を定量的に評価するためにコストの概念を導入する。
シグナルに対してある語(語長は)を採用すると、それによって使用不可になるコードワードの割合はと定量的に評価できる。
例
最大の語長を3とする。コードワードの総数は語長0の空文字も含めてである。をコードワードに採用した場合、コードワード全体のうちを接頭に持つのはの3つであるから、コストは()と定義される。
出現確率のシグナルに対してコストを割り当てるのが最適であることの証明
出現確率のシグナルに対してはコードワード全体のうちを使用不可にするようなコードワードを採用することが最適であることを示す。 これから、議論をわかりやすくするために、語長の最大は5であるとする。
出現確率のシグナルに対して語長のコードワードを割り当てるのが最適であることの証明
これまでの議論によって、
①語長のコードワードの割り当てによってコードワード全体のうちが使用不可になる。
②出現確率のシグナルに対してコストを割り当てるのが最適である。
が示された。よってシグナルに対して、分のコストを割り当てることが最適であるから、この式を変形してが得られる。
情報量との関係
確率でおこる事象の情報量はであるが、上の議論からこれは最適なエンコードのコードワードの語長と一致していることがわかる。
参考
掲載した図はDraw.ioを用いて制作しました。