PC処世術 - データ容量の増大を考える

データ容量の増大を考える - データの質と数

 HDDのページでも書いたように、自分が所有するデータの容量というものは、世間のHDDの容量増大に呼応して増加するものである。普通に考えると、自分のデータの増大は時間に対してリニア、すなわちデータの数の増大に伴ってHDDが埋まっていくというのが自然なように思える。しかしながら、世間のHDD容量は指数関数的に増加するのであり、なぜか自分のデータも指数関数的に増えていくという摩訶不思議な現象が日常起きているのである。
 例えば、10GBほどのHDDにOSやソフトウェアをインストールして空き領域が5Gバイトだったとしよう。残り5GBはデータ保存のために利用できるエリアである。ここに、例えば1年かけて蓄えられたデータとインストールしたソフトが1GBだったとすると、単純計算では残り4GBとして4年間は利用できることになる。しかし、冒頭に書いた指数関数的容量増大のために、「このような単純計算は甘い予測だった」と後悔することも少なくない。
 現実に、筆者は198x年に40MBのハードディスクを導入し、30MB程度をデータ領域として利用し、1年に生産したデータはせいぜい5MB程度だったと思うが、残念ながら6年間もの間持ちこたえることはなかった。また、1枚の容量が海のように広いと感じて導入した128MB MOもあったが、あっという間に枚数が増えていった。CD-Rなども同様で、当初は1,2枚もあれば大抵のデータが入るという感覚であったが、現在では既に使い捨て感覚である。個人のパソコンならまだよいが、企業ユーザーなどではPC購買担当者の甘い読みのために償却期間後期になって苦労を強いられるのは社員であったりもするので、単純リニア予測はハタ迷惑であるかもしれない。

 データ量増大のリニア予測が成立しない理由のひとつとしては、OSやアプリケーションソフトの肥大化は勿論ある。かつてはフロッピーディスクでシステムディスクを構成し、OSやアプリケーションまで起動することが可能であったし、Windows 3.x だってフロッピーメディアの組で配布が可能なほどコンパクトであった。しかし32bit躍進フェーズを 終えて終焉フェーズを迎えた現時点においては、OSがHDD内に占める割合は既に主とはいえず、これだけがデータ増大の原因とは考えにくい。
 つまり、純粋にデータとして蓄えられる分量も増大していると考えられ、その原因をOSやアプリの所為だけにしておくわけにもいくまい。データ量は基本的にはデータ(ファイル)の数とサイズの積である。そしてサイズはデータの“質”と記憶量によって決まると考えられる。そこで、データ量が増大していく原因を探るために、データの質と数について考察してみたい。

 まず、データの“質”とはなんだろうか。それは、記憶するデータの中身の種類である。すなわち、データが単純な数値なのか、テキスト(文字)なのか、音符なのか、音声なのか、絵なのか、写真なのか、動画なのか、ということである。あたりまえのことであるが、データの質が違えばそのサイズの桁も違ってくる。時代が進むにつれて、パソコンが扱えるデータの種類が増えてきたとも考えられるし、桁違いのデータの取り扱いを可能にするためにパソコンは指数関数的な性能向上を遂げてきたとも考えられる。
 そしてデータの質の中身は、次元と緻密さであると考えられる。例えば、文字列や音符,音声データはその読み取りや聞き取りのプロセスを考えると、基本的に一次元である。そして絵や写真は二次元、動画はこれに時間を加えた三次元である。次元がn次に増えると,同じ緻密さであってもデータサイズはn乗になるわけである。また、緻密さが増えることで同じ次元のデータであってもサイズは増加する。このようなデータの質の変遷は、データ量増大の歩みを構成する重要な要素と言えるだろう。そしてデータが緻密になっていく過程は同じ次数で(ある意味リニアに)推移する程度に収まるので、緻密さよりも次元が増えることのインパクトの方が大きい。このため、超大容量と思って導入したPCやHDDも、次元シフトのインパクトには堪えられないこともままあるので注意したい。
 データの“数”は、簡単に言えばファイルの個数である。昔からPCを使用している方ならばお気づきとは思うが、時代を経るにしたがって一つ一つのファイルサイズが大きくなったのもそうだが、ファイルの数も著しく増えた。かつてはファイルが100個もあれば随分な数であるように思えたものだが、近頃はファイル数が数万個あるいはそれ以上というのも珍しくない。数は時間に対してリニアに増加していくはずのものであるが、どうもそれ以上のスピードで増殖させる要因があるようだ。

 このように、時代を経るにしたがってデータの質が変化し,数が増したことによってデータの容量は増大してきた。ところで,どのくらいの数のファイルがあり、どのくらいの容量を占めているかは、Windowsならフォルダのプロパティを見れば分かる。そしてその容量のトータルをファイルの数で割れば、平均のファイルサイズが分かる。計算してみると、きっと再計算してみたくなるだろう。平均のファイルサイズは意外と小さいのである。少なくとも筆者は、当初「こんな小さなファイルたちがハードディスクの容量を占めているのか!?」という感想を抱かずにおれなかった。(この感想が誤りであることは、本ページの次回で明らかにしたい)
 データ容量の増大は、パソコンに求められる機能やパソコンの使い方の変化に伴って生じてきた事象であり、パソコンの進化と今後を考察する上で重要な問題であると認識している。次回以降で、上記の疑問や、データの数を増加させる要因、データの質とデータサイズとの関係などを考察していきたい。 (30. Apr, 2004)

フォルダ中のファイル数を調べる 2004年編

 前稿では、ファイルサイズの平均値は意外と小さいと書いた。ファイルサイズの平均値とは、Windowsならあるフォルダを右クリックして「プロパティ」で現れる「サイズ」(xxxxバイト)の値を「ファイル数」で割った値である。本当にこの値は小さいのだろうか?そしてその小さいファイルたちはハードディスクのヌシなのだろうか? ここでは、当たり前の考察から, HDDを占有しているファイルがどの程度のサイズのファイルなのかを割り出してみたい。
 まず試しに、筆者のとあるデータフォルダの中をのぞいてみると、ファイル数は約45,000個、サイズは約14GBであった。とすると、平均のファイルサイズは約320キロバイト程である。この値は、パソコンの使用状況によって個人差はあるだろうが、筆者がPCを録画に使用していないことを考慮しても300KB強というサイズは確かに小さいファイルである。こんな小さなファイルが 14GBという空間のヌシであろうか?

 確かにファイルの数が一昔前と比較して増加したのは事実である。しかし、ファイルサイズも増加している筈であり、HDDを占有しているのが高々 300KB程度のファイルであるという数字はあまり現実を反映しているようには思えない。
 そこで、ファイルサイズの頻度分布を取ってみたのが図1である。頻度の範囲は0〜100バイト, 100〜300バイト, 300〜1KB, 1KB〜3KB, …という具合にとってある。グラフの横軸は対数であり、 1, 10, 100, 1k, 10k, …という具合に目盛り線が振ってある。なお、縦軸はリニアなままである。
 グラフを見ると、100バイトを下回るサイズのファイルは極端に小さく、ファイル総数に占める割合は小さく、ファイルが占有するスペースにおける割合がきわめて小さいことが分かる。一方で、最も個数が多いファイルサイズは数KB〜数十KBの範囲であり、最頻値は数十KBにあることがわかる。数KB〜数十KBというと、テキストデータか小さな絵,或いは小さなワープロデータ程度など、殆どゴミと言ってよいサイズのファイルであり、これらのファイルが万単位で存在している。グラフから読み取ると、1KB〜100KBまでの間に何と 3万個以上のファイルが入るのである。トータル45,000個のファイル数であるから、かなりの割合である。
 しかし、ここでよく考えてみよう。例え100キロバイトのファイルが3万個あったとしてもそれは3GBにすぎないのである。残り10GB超を占めているのが、これよりも大きなファイルによるものであることは明らかだが、果たしてどの程度のサイズのファイルがその主たる占拠者たり得るであろうか。

 そこで、縦軸を個数ではなく総サイズ(14GB)に占める占有率を縦軸に整理してみたのが図2である。図を見れば一目瞭然であるが、2004年現在、筆者のデータフォルダ内で1Mbytes以下のファイルが占める容量は小さい。平均サイズであるはずの300Kbytes程度のデータなどもあまり容量に対してインパクトを与えてはいないようである。そして、ディスクの容量の殆どは大サイズのデータによって占められていることが分かるだろう。大容量データは例え数が少なくともその占有するスペースは大きくなるので、この結果は当然といえば当然である。
 図1、2に示した筆者のこのフォルダの場合、動画を録画したものは含んではいないが、PCをジュークボックスとして使うための音楽データが存在している。その数は数十KBのデータに比べれば少ないのだが、これに対して数十MBと1つが1000倍も大きいそのファイルたちは、スペースの占有率では卓越しているのだろう。PCを録画などに使用していれば、占有率のピークは更に図2の右側(すなわち大容量側)にシフトすることだろう。

 さて、ディスクを占有している平均的なファイルサイズはどのくらいだろうか。これを求めるための算数の詳細は割愛するが、結果だけから言うと M=Σ(S^2)/ΣS である。Sは個々のファイルサイズであり、ΣSはデータの総サイズである。ここではMをデータの占有平均とでも呼んでおこう。図1、図2に用いた筆者のフォルダの例では、この値は約32MB程であった。なるほど、CDの音楽データ一曲分弱であり、このサイズのファイルがディスクスペースの大半を占めていたわけである。そして、データの総サイズΣSがその平均値×総個数であることを考えると、データの占有平均に対して、ファイルの個数は1乗の効きしかないが個々のファイルサイズは2乗の効きであることが分かる。

 つまり、データの総サイズが大きくなっていく要因は、無論,個数が多いことも要因の一つではあるのだが,個々のファイルサイズが主要因であるようだ。したがって、パソコンに新しい機能を求めたときや、大きなデータファイルが必要になったときにハードディスク容量が逼迫するということだ。
 データの総容量の増大は
パソコンに求める機能の変化に大きく影響を受ける。今後、パソコンに求められる機能とデータサイズとの関係なども考察対象としていきたい。 (7. May, 2004)

データ容量の増大要因 - 入力デバイスの進化

 自らが保有するデータの総量のうち、大半を占めるのは大容量データであることを前稿で示した。おさらいすると、データの質が保有するデータ総量に与えるインパクトが大きいと言うことだった。そして、保有データ総量の増大はHDDの容量増大とリンクしているということはこれまでも指摘してきたことであるし、またPCの能力向上とも密接な関係があると筆者は睨んでいる。このため、パソコンの能力向上を考える上でデータ容量を増大させる原因を整理していくことは重要である。
 容量の増大というと、どうしても肥大したOSやアプリがヤリ玉に挙げられ易いようだ。確かに、DOSやWin3.x, あるいはWin95の時代から考えると、OSが肥大化しているのは間違いない。しかしその一方で、扱えるデータ量も飛躍的に向上しており、それがデータ容量増大の主因であることは図2で示されている。そしてデータの量が増大する影にはそれを支える入力デバイスの進化がある用に思う。OSやアプリの肥大化については別項でいずれ考察したいところだが、ここではデータ容量増大を支えてきた入力デバイスについて回想・考察してみたい。

 8bit〜16bit時代の前半, 198x年代の入力デバイスの主役はキーボードであった。キーボードによって生産されるデータは基本的にテキストであり、そのスピードも人間がいくら頑張ったところでせいぜい 10bytes/s 程度であっただろう。また、外部からデータを入手する手段としては、フロッピー・ディスクもしくはパソコン通信があったが、フロッピーの容量は 1MB程度であったし、通信の速度も 300bps〜1.2kbps 程度であって、やはりデータの主役はテキストであったように思う。
 一方で,大容量データとしては存在していたが、現在のようなフルカラー写真ではなく、数色程度のカラーの絵が主体であった。この“絵”の入力は基本的に人力だったので、確かに当時としては大容量データではあったがそのサイズの多寡は知れていたのである(数十KB程度だった)。
 16bit時代も後半に入った頃から、パソコン通信の速度も 2.4k〜9.6kbpsと向上し、他人が生産したデータを蓄えるという文化が本格化する。絵やオンラインソフトウェア(当時はPDSと呼んでいた)など、自分が生産したものでなくても入手してこれらを保存するようになっていったのである。通信(回線)は、データの大容量化に影響の大きかった入力デバイスであった。
 この頃から
32bit試行フェーズ前半にかけては、巷でマルチメディアということが盛んに言われており、画像入力デバイスとしてのスキャナや、音声/音楽入力デバイスとしても機能できる音源ボード、音符入力デバイスとしての MIDI機器(キーボードやギターなど)が一般向けに出回っていた。このうち、音符データ(MIDIやFM音源等で音を鳴らすためのデータ)は本質的にテキストと同じ次元で緻密さが増えた程度のものであり、そのサイズは数十〜百KB程度であったので、この頃のパソコン音楽シーンを支えるデータとなっていた。
 その一方で、録音による音声は緻密さが当時のパソコンには酷であったように思うし、画像はデータの次元が増えたインパクトが大きくて,録音データやスキャナ画像は HDD を著しく逼迫させる存在であった。例えばCD1曲ほどの音楽を録音すれば数十MBに達するし、画像はVGAサイズでも圧縮しなければ約1MB程のデータであるし、A4サイズの紙をそれなりの解像度でスキャンすればすぐに10MBを超える。未だ VGA 程度の jpeg 画像を1枚展開するのに 10秒近く要していた時代だ。少なくとも、これらインパクトの大きいデータはストレージのヌシというよりは占領者であって、一般的とはいえなかったように思う。この時代のストレージのヌシは、数十KB〜百KB程度のデータであったようだ。

 時代が32bit革命フェーズを迎えた Win95のリリースの頃、入力デバイスの類も大幅な変化があった。まず、インターネットの登場に伴ってやってくるデータの量が増えた。パソコン通信時代と比べて、画像データも外からどんどんやってくるようになって、データの質と数が向上したのだ。
 そして、なんと言ってもこの時代の入力デバイスで忘れてならないのはデジカメの登場だろう。当時のPCの能力向上と相俟ってフルカラーの画像を手軽に保存できるこのデバイスは、ヌシとなるべきデータの次元を確実に押し上げたようだ。更にデジカメと歩調を合わせるようにして普及したUSBの存在も忘れてはならない。それまでSCSIやパラレルポートで接続していたイメージスキャナも手軽に接続できるようになった。このように、32bit革命フェーズは1次元高い画像というデータ(数十KB〜数百KB)を我々のストレージの主(あるじ)としてもたらしたのである。
 32bit革命の嵐が去って躍進のフェーズを迎えると、PCの進化に歩調を合わせてデータの緻密さが向上していった。端的に言えば、デジカメの画素数争いである。また、音楽データも CD から直接データを吸い出すようなことが当たり前のように出来るようになった。
 データの「緻密さ」の向上は、入力デバイスが提供する分野のデジタル化を押し進めたようだ。デジカメも当初の30万画素程度(数十KB〜数百KB)の時代にはもの珍しいカメラの域を出なかったわけだが、データの緻密さが向上して 200万画素以上(数百KB〜数MB)の製品が常識的になるにしたがい、アナログカメラの市場を侵食した。また音楽にしても緻密にサンプリングされたデータ(数MB〜数十MB)を多数保存できるようになって、MP3プレーヤやHDDプレーヤなどを登場させ、確実にアナログの領域を侵食している(もっとも、CD化した時点でアナログでないといえばそうなのだが)。

 このように入力デバイスの進化は、かつてアナログだったものをデジタル化し、デジタル化されたものがパソコンのストレージの主となるという道を歩んできたようだ。そしてその過程では、「次元の増加」と「緻密さの向上」が対になって起こり、ストレージのヌシのサイズを押し上げてきた。
 32bit終焉フェーズにあたる2004年現在,デジカメから1次元アップした動画を入力するデバイスが浸透しつつあり、録画やその編集は実用レベルから常識レベルへの階段を駆け上がりつつある。これから先は「緻密さの向上」を求めながら常識レベルへと昇華するだろう。動画における緻密さ…すなわち低い圧縮レート(高いデータレート=高画質)とハイビジョンのような画素の向上が訴求点となっていく予感である。
 このとき、PCにはどの程度の能力が要求されることになるのだろうか? 前稿の最後にも書いたが、やはり求められる機能と要求されるストレージ容量の関係をある程度定量化しておく必要があるようだ。どこかで定量化についても考察することになるだろう。(5. Jun, 2004)

PC処世術トップページへ

当サイトにある記事の著作権は M.Abe に属します。
なお、当サイトの記事の転載はご遠慮ください。