データ圧縮

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

信号処理ではデータ圧縮ソースコーディング[1]、またはビットレート削減は、元の表現よりも少ないビットを使用して情報をエンコードするプロセスです。[2]特定の圧縮は、非可逆または可逆のいずれかです。可逆圧縮は、統計的な冗長性を識別して排除することにより、ビットを削減します。可逆圧縮で情報が失われることはありません。非可逆圧縮は、不要な情報や重要性の低い情報を削除することでビットを削減します。[3]通常、データ圧縮を実行するデバイスはエンコーダーと呼ばれ、プロセスの反転(解凍)を実行するデバイスはデコーダーと呼ばれます。

データファイルのサイズを縮小するプロセスは、多くの場合、データ圧縮と呼ばれます。データ伝送のコンテキストでは、ソースコーディングと呼ばれます。データが保存または送信される前に、データのソースで行われるエンコード。[4]ソースコーディングをチャネルコーディングと混同しないでください。エラー検出と訂正、またはラインコーディング、データを信号にマッピングする手段です。

圧縮は、データの保存と送信に必要なリソースを削減するため、便利です。計算リソースは、圧縮および解凍プロセスで消費されます。データ圧縮は、時空間の複雑さのトレードオフの影響を受けます。たとえば、ビデオの圧縮方式では、ビデオを解凍するときに十分な速度で解凍するために高価なハードウェアが必要になる場合があります。また、ビデオを視聴する前に完全に解凍するオプションは、不便であるか、追加のストレージが必要になる場合があります。データ圧縮スキームの設計には、圧縮の程度、導入される歪みの量(非可逆データ圧縮を使用する場合)など、さまざまな要因間のトレードオフが含まれます。)、およびデータの圧縮と解凍に必要な計算リソース[5]

ロスレス

可逆データ圧縮 アルゴリズムは通常、統計的冗長性を利用して、情報を失うことなくデータを表すため、プロセスを元に戻すことができます。ほとんどの実世界のデータは統計的な冗長性を示すため、可逆圧縮が可能です。たとえば、画像に数ピクセルにわたって変化しない色の領域がある場合があります。「赤ピクセル、赤ピクセル、...」をコーディングする代わりに、データを「279赤ピクセル」としてエンコードすることができます。これは、ランレングスエンコーディングの基本的な例です。冗長性を排除することによってファイルサイズを減らすための多くのスキームがあります。

Lempel-Ziv(LZ)圧縮方式は、ロスレスストレージの最も一般的なアルゴリズムの1つです[6] DEFLATEは、解凍速度と圧縮率に最適化されたLZのバリエーションですが、圧縮が遅くなる可能性があります。1980年代半ば、Terry Welchの研究に続いて、Lempel–Ziv–Welch(LZW)アルゴリズムが、ほとんどの汎用圧縮システムで急速に選択される方法になりました。LZWは、GIFイメージ、PKZIPなどのプログラム、およびモデムなどのハードウェアデバイスで使用されます。[7]LZメソッドは、テーブルベースの圧縮モデルを使用します。このモデルでは、繰り返されるデータ文字列の代わりにテーブルエントリが使用されます。ほとんどのLZメソッドでは、このテーブルは入力の以前のデータから動的に生成されます。テーブル自体は、多くの場合、ハフマンでエンコードされています。このような文法ベースのコードは、非常に反復的な入力を非常に効果的に圧縮できます。たとえば、同じまたは密接に関連する種の生物学的データ収集、膨大なバージョンのドキュメントコレクション、インターネットアーカイブなどです。文法ベースのコードの基本的なタスクは構築です。単一の文字列を導出するコンテキストフリーの文法。他の実用的な文法圧縮アルゴリズムには、SequiturとRe-Pairが含まれます。

最新のロスレスコンプレッサーは、部分マッチングによる予測などの確率モデルを使用しています。Burrows–Wheeler変換、統計モデリングの間接的な形式と見なすこともできます。[8]確率的モデリングの直接使用のさらなる改良において、統計的推定は算術符号化と呼ばれるアルゴリズムに結合することができます。算術符号化は、有限状態マシンの数学的計算を使用する最新の符号化手法です。一連の入力データシンボルからエンコードされたビットの文字列を生成します。よく知られているハフマンアルゴリズムなどの他の手法と比較して、優れた圧縮を実現できます。内部メモリ状態を使用して、個々の入力シンボルを整数ビットを使用する個別の表現に1対1でマッピングする必要をなくし、データシンボルの文字列全体をエンコードした後にのみ内部メモリをクリアします。 。算術符号化は、入力データの確率分布の適応モデルと簡単に組み合わせることができるため、統計が変化し、コンテキストに依存する適応データ圧縮タスクに特に適しています。算術符号化の使用の初期の例は、JPEGのオプションの(しかし広く使用されていない)機能でした。画像コーディング標準。[9]それ以来、ビデオコーディング用のH.263H.264 / MPEG-4 AVCHEVCなどの他のさまざまな設計に適用されています。[10]

アーカイブソフトウェアには通常、「辞書サイズ」を調整する機能があります。サイズが大きいほど、圧縮および解凍中にランダムアクセスメモリが必要になりますが、特にファイルのコンテンツでパターンが繰り返される場合は、より強力に圧縮されます。[11] [12]

ロッシー

1980年代後半に、デジタル画像がより一般的になり、ロスレス画像圧縮の標準が登場しました。1990年代初頭、非可逆圧縮方式が広く使用されるようになりました。[13]これらのスキームでは、不要な詳細を削除するとストレージスペースを節約できるため、情報の損失が許容されます。情報の保存とサイズの縮小の間には、対応するトレードオフがあります。非可逆データ圧縮スキームは、問題のデータを人々がどのように認識するかを調査することによって設計されています。たとえば、人間の目は、色の変化よりも輝度の微妙な変化に敏感です。JPEG画像圧縮は、重要でない情報を四捨五入することで部分的に機能します。[14] 多くの一般的な圧縮形式は、音の音響心理学や画像やビデオの音響心理学など、これらの知覚の違いを利用します

非可逆圧縮のほとんどの形式は、変換コーディング、特に離散コサイン変換(DCT)に基づいています。1972年にNasirAhmedによって最初に提案され、その後1973年にT.NatarajanとKRRaoと共同で作業アルゴリズムを開発し、1974年1月に導入しました。[15] [16] DCTは、最も広く使用されている非可逆圧縮方式です。画像JPEGHEIFなど)、[17] ビデオMPEGAVCHEVCなど)およびオーディオ(MP3など)のマルチメディア形式で使用されますAACおよびVorbis)。

非可逆画像圧縮は、ストレージ容量を増やすためにデジタルカメラで使用されます。同様に、DVDBlu-ray、およびストリーミングビデオは、不可逆ビデオコーディング形式を使用します。非可逆圧縮は、ビデオで広く使用されています。

非可逆オーディオ圧縮では、音響心理学の方法を使用して、オーディオ信号の非可聴(または可聴性の低い)コンポーネントを削除します。人間の発話の圧縮は、多くの場合、さらに専門的な手法で実行されます。音声コーディングは、汎用オーディオ圧縮とは別の分野として区別されます。音声コーディングはインターネットテレフォニーで使用されます。たとえば、オーディオ圧縮はCDリッピングに使用され、オーディオプレーヤーによってデコードされます。[8]

非可逆圧縮は、ジェネレーションロスを引き起こす可能性があります

理論

圧縮の理論的基礎は、情報理論、より具体的には、可逆圧縮のアルゴリズム情報理論と非可逆圧縮のレート歪み理論によって提供されます。これらの研究分野は、基本的に、1940年代後半から1950年代初頭にこのトピックに関する基本的な論文を発表したClaudeShannonによって作成されました。圧縮に関連する他のトピックには、コーディング理論統計的推論が含まれます。[18]

機械学習

機械学習と圧縮の間には密接な関係があります。履歴全体を考慮してシーケンスの事後確率を予測するシステムは、最適なデータ圧縮に使用できます(出力分布に算術符号化を使用することにより)。最適なコンプレッサーを予測に使用できます(以前の履歴を前提として、最も圧縮率の高いシンボルを見つけることにより)。この同等性は、「一般的なインテリジェンス」のベンチマークとしてデータ圧縮を使用する理由として使用されています。[19] [20] [21]

別のビューでは、圧縮アルゴリズムが文字列を暗黙の特徴空間ベクトルに暗黙的にマップし、圧縮ベースの類似度がこれらの特徴空間内の類似性を計算することを示すことができます。各コンプレッサーC(。)に対して、C(。)がベクトルノルム|| 〜x ||に対応する入力文字列xをマップするように、関連するベクトル空間ℵを定義します。すべての圧縮アルゴリズムの基礎となる特徴空間の徹底的な調査は、空間によって排除されます。代わりに、特徴ベクトルは、3つの代表的な可逆圧縮方法、LZW、LZ77、およびPPMを調べることを選択します。[22]

Hutter Prizeでより直接的に説明されている接続であるAIXI理論によれば、xの可能な限り最良の圧縮は、xを生成する可能な限り最小のソフトウェアです。たとえば、そのモデルでは、zipファイルの圧縮サイズにはzipファイルと解凍ソフトウェアの両方が含まれます。両方がないと解凍できないためですが、組み合わせた形式はさらに小さい場合があります。

データ差分

データ圧縮は、データ差分の特殊なケースと見なすことができます[23] [24]データの差異化は、ソースターゲットが与えられた場合に差異を生成することで構成され、パッチはソースと差異が与えられた場合にターゲットを再現します。データ圧縮には個別のソースとターゲットがないため、データ圧縮は空のソースデータとのデータ差分と見なすことができます。圧縮ファイルは何もないものとの差異に対応します。これは、絶対エントロピー(データ圧縮に対応)を相対エントロピーの特殊なケースと見なすのと同じです。(データ差分に対応)初期データなし。

差分圧縮という用語は、データ差分接続を強調するために使用されます。

を使用します

画像

エントロピーコーディングは、シャノンファノコーディングの導入により1940年代に始まり[25] 1950年に開発されたハフマンコーディングの基礎となりました。 [26] 変換コーディングは、高速フーリエ変換(FFT)の導入により1960年代後半にさかのぼります。 )1968年のコーディングと1969年のアダマール変換。 [27]

重要な画像圧縮技術は、1970年代初頭に開発された技術である離散コサイン変換(DCT)です。[15] DCTは、1992年にJoint Photographic Experts Group (JPEG)によって導入された非可逆圧縮形式であるJPEG基盤です。 [28] JPEGは、画像を表現するために必要なデータ量を大幅に削減しますが、比較的コストがかかります。画質のわずかな低下であり、最も広く使用されている画像ファイル形式になっています。[29] [30]その非常に効率的なDCTベースの圧縮アルゴリズムは、デジタル画像の広範な普及の主な原因でしたデジタル写真[31]

Lempel–Ziv–Welch(LZW)は、1984年に開発された可逆圧縮アルゴリズムです。1987年に導入されたGIF形式で使用されます。 [32] 1996年に指定された可逆圧縮アルゴリズムであるDEFLATEは、ポータブルネットワークグラフィックスで使用されます( PNG)形式。[33]

画像圧縮でのウェーブレットの使用であるウェーブレット圧縮は、DCTコーディングの開発後に始まりました。[34] JPEG 2000標準は2000年に導入されました。[ 35]元のJPEG形式で使用されていたDCTアルゴリズムとは対照的に、JPEG 2000は代わりに離散ウェーブレット変換(DWT)アルゴリズムを使用します。[36] [37] [38] Motion JPEG2000拡張機能を含むJPEG2000テクノロジは、2004年にデジタルシネマのビデオコーディング標準として選択されました。 [39]

オーディオ

ダイナミックレンジ圧縮と混同しないように、オーディオデータ圧縮は、オーディオデータの伝送帯域幅とストレージ要件を削減する可能性があります。オーディオ圧縮アルゴリズムは、オーディオコーデックとしてソフトウェアに実装されています非可逆圧縮と可逆圧縮の両方で、コーディング量子化離散コサイン変換線形予測などの方法を使用して情報の冗長性を減らし、非圧縮データの表現に使用される情報の量を減らします。

非可逆オーディオ圧縮アルゴリズムは、より高い圧縮を提供し、 VorbisMP3を含む多くのオーディオアプリケーションで使用されますこれらのアルゴリズムはほとんどすべて、音響心理学に依存して、聞こえにくい音の忠実度を排除または低減し、それによってそれらを保存または送信するために必要なスペースを削減します。[2] [40]

オーディオ品質の低下と伝送またはストレージサイズの間の許容可能なトレードオフは、アプリケーションによって異なります。たとえば、1枚の640 MBコンパクトディスク(CD)には、約1時間の非圧縮のハイファイ音楽、2時間未満のロスレス圧縮音楽、または7時間のMP3形式の音楽を中ビットレートで圧縮したものが含まれます。デジタルサウンドレコーダーは、通常、約200時間の明瞭な音声を640MBで保存できます。[41]

ロスレスオーディオ圧縮は、オリジナルの正確なデジタル複製にデコードできるデジタルデータの表現を生成します。圧縮率は元のサイズの約50〜60%であり[42]、これは一般的なロスレスデータ圧縮の場合と同様です。ロスレスコーデックは、信号を推定するための基礎としてカーブフィッティングまたは線形予測を使用します。推定および推定と実際の信号の違いを説明するパラメータは、別々にコード化されます。[43]

ロスレスオーディオ圧縮形式は多数存在します。リストについては、ロスレスコーデックのリストを参照してください一部のフォーマットは、Super AudioCDで使用されるDirectStreamTransferDVD -AudioDolby TrueHDBlu-ray、 HDDVDで使用されるMeridianLosslessPackingなどの個別のシステムに関連付けられています

一部のオーディオファイル形式は、不可逆形式と可逆修正の組み合わせを特徴としています。これにより、修正を取り除いて、損失の多いファイルを簡単に取得できます。このような形式には、MPEG-4 SLS(Scalable to Lossless)、WavPack、およびOptimFROGDualStreamが含まれます。

オーディオファイルをさらに圧縮するか編集するために処理する場合は、変更されていないオリジナル(非圧縮または可逆圧縮)から作業することが望ましいです。何らかの目的で損失の多い圧縮ファイルを処理すると、通常、非圧縮の元のファイルから同じ圧縮ファイルを作成するよりも劣る最終結果が生成されます。サウンドの編集やミキシングに加えて、ロスレスオーディオ圧縮は、アーカイブストレージやマスターコピーとしてよく使用されます。

非可逆オーディオ圧縮

非圧縮形式といくつかの不可逆形式のオーディオのスペクトログラムの比較。非可逆スペクトログラムは、非可逆オーディオ圧縮に関連する一般的な手法である、より高い周波数の帯域制限を示しています。

非可逆オーディオ圧縮は、さまざまなアプリケーションで使用されます。MP3プレーヤーまたはコンピューターでのファイル再生のスタンドアロンオーディオのみのアプリケーションに加えて、デジタル圧縮されたオーディオストリームは、ほとんどのビデオDVD、デジタルテレビ、インターネット上のストリーミングメディア、衛星およびケーブルラジオ、そしてますます地上波ラジオ放送で使用されています。非可逆圧縮は通常、音響心理学的最適化に基づいて重要度の低いデータを破棄することにより、可逆圧縮よりもはるかに大きな圧縮を実現します。[44]

音響心理学は、オーディオストリーム内のすべてのデータが人間の聴覚系によって認識できるわけではないことを認識していますほとんどの非可逆圧縮は、最初に知覚的に無関係な音、つまり非常に聞き取りにくい音を識別することによって冗長性を減らします。典型的な例としては、高周波や大きな音と同時に発生する音などがあります。これらの無関係な音は、精度が低下するか、まったくコード化されません。

非可逆アルゴリズムの性質上、ファイルを解凍および再圧縮すると、オーディオ品質デジタル生成で失われます。これにより、不可逆圧縮は、サウンド編集やマルチトラック録音などのプロのオーディオエンジニアリングアプリケーションで中間結果を保存するのに不適切になります。ただし、ファイルサイズが元のサイズの5〜20%に縮小され、メガバイトで約1分分の音楽を適切な品質で保存できるため、 MP3などの不可逆形式はエンドユーザーに非常に人気があります。

コーディング方法

オーディオ信号のどの情報が知覚的に無関係であるかを判断するために、ほとんどの非可逆圧縮アルゴリズムは、修正離散コサイン変換(MDCT)などの変換を使用して、時間領域でサンプリングされた波形を変換領域(通常は周波数領域)に変換します。変換されると、コンポーネントの周波数は、それらがどれだけ聞こえるかに応じて優先順位を付けることができます。スペクトル成分の可聴性は、最小可聴値と同時マスキングの原理(周波数によって分離された別の信号によって信号がマスクされる現象)と、場合によっては、信号が別の信号によってマスクされる一時的なマスキングを使用して評価されます。時間で区切られます。等ラウドネス曲線を使用して、コンポーネントの知覚上の重要性を評価することもできます。このような効果を組み込んだ人間の耳と脳の組み合わせのモデルは、しばしば音響心理学モデルと呼ばれます。[45]

音声で使用される線形予測符号化(LPC)など、他の種類の不可逆圧縮機は、ソースベースのコーダーです。LPCは、人間の声道のモデルを使用して音声を分析し、モデルで使用されるパラメーターを推測して、それらを刻々と生成します。これらの変化するパラメーターは送信または保存され、サウンドを再生するデコーダーで別のモデルを駆動するために使用されます。

非可逆形式は、ストリーミングオーディオまたはインタラクティブ通信(携帯電話ネットワークなど)の配信によく使用されます。このようなアプリケーションでは、データストリーム全体が送信された後ではなく、データが流れるときにデータを解凍する必要があります。すべてのオーディオコーデックをストリーミングアプリケーションに使用できるわけではありません。[44]

レイテンシーは、データのエンコードとデコードに使用される方法によって導入されます。一部のコーデックは、効率を最適化するためにデータのフレームと呼ばれるより長いセグメントを分析し、デコードするために一度にデータのより大きなセグメントを必要とする方法でそれをコーディングします。コーディングアルゴリズムの固有の遅延は重要な場合があります。たとえば、電話での会話など、データの双方向送信がある場合、大幅な遅延が発生すると、知覚される品質が大幅に低下する可能性があります。

アルゴリズムに必要な操作の数に比例する圧縮の速度とは対照的に、ここでのレイテンシーとは、オーディオのブロックが処理される前に分析する必要のあるサンプルの数を指します。最小の場合、レイテンシーはゼロサンプルです(たとえば、コーダー/デコーダーが信号の量子化に使用されるビット数を単純に減らす場合)。LPCなどの時間領域アルゴリズムもレイテンシが低いことが多いため、テレフォニーの音声コーディングで人気があります。ただし、MP3などのアルゴリズムでは、周波数領域で音響心理学モデルを実装するために多数のサンプルを分析する必要があり、遅延は23ミリ秒のオーダーです。

音声符号化

音声エンコーディングは、オーディオデータ圧縮の重要なカテゴリです。人間の耳が聞くことができる音声の側面を推定するために使用される知覚モデルは、一般に音楽に使用されるものとは多少異なります。人間の声の音を伝えるために必要な周波数の範囲は、通常、音楽に必要な周波数の範囲よりもはるかに狭く、音は通常、それほど複雑ではありません。その結果、音声は比較的低いビットレートを使用して高品質でエンコードできます。

これは、一般に、次の2つのアプローチの組み合わせによって実現されます。

音声エンコーディング(および一般的なオーディオデータ圧縮)で使用された最も初期のアルゴリズムは、A-lawアルゴリズムμ-lawアルゴリズムでした。

歴史

Solidyne 922:PC用の世界初の商用オーディオビット圧縮サウンドカード、1990年

初期のオーディオ研究はベル研究所で実施されました。そこで、1950年に、C。ChapinCutlerは差分パルス符号変調(DPCM)に関する特許を申請しました。[46] 1973年に、適応DPCM(ADPCM)は、P。Cummiskey、Nikil S. Jayant、およびJames L.Flanaganによって導入されました。[47] [48]

知覚コーディングは、線形予測コーディング(LPC)を使用して、音声コーディングの圧縮に最初に使用されました。[49] LPCの最初の概念は、1966年の板倉文忠名古屋大学)と斉藤修三(日本電信電話)の仕事にまでさかのぼります。 [50] 1970年代、ベル研究所のビシュヌS.アタルマンフレッドR.シュローダー。人間の耳のマスキング特性を利用した知覚コーディングアルゴリズムである適応予測コーディング(APC)と呼ばれるLPCの形式を開発し、 1980年代初頭に当時、かなりの圧縮率を達成したコード励起線形予測(CELP)アルゴリズム[49]知覚コーディングは、MP3 [49]AACなどの最新のオーディオ圧縮形式で使用されています。

1974年にNasirAhmed、T。Natarajan、およびKR Raoによって開発された離散コサイン変換(DCT)[16]は、 MP3などの最新のオーディオ圧縮形式で使用される修正離散コサイン変換(MDCT)の基礎を提供しました[51] Dolbyデジタル[52] [53]およびAAC。[54] MDCTは、1987年にJP Princen、AW Johnson、およびAB Bradleyによって提案され[55]、1986年のPrincenおよびBradleyによる初期の研究に続いて[56]。

世界初の民間放送自動化オーディオ圧縮システムは、ブエノスアイレス大学の工学教授であるオスカルボネロによって開発されました[57] [検証に失敗] 1983年、1967年に最初に公開されたクリティカルバンドのマスキングの音響心理学的原理を使用して[58] 、最近開発されたIBM PCコンピュータに基づく実用的なアプリケーションの開発を開始し、放送自動化システムが発売されました。 1987年にAudicomという名前で。20年後、世界中のほぼすべてのラジオ局が、多くの企業によって製造された同様の技術を使用していました。

さまざまなオーディオコーディングシステムに関する文献の概要が、1988年2月にIEEEのJournal on Selected Areas in CommunicationsJSAC)に掲載されました。それ以前の論文がいくつかありましたが、このコレクションには、完成したさまざまな作業が記録されています。オーディオコーダー。ほとんどすべてが知覚技術とある種の周波数分析およびバックエンドノイズレスコーディングを使用しています。[59]

ビデオ

非圧縮ビデオには、非常に高いデータレートが必要です。ロスレスビデオ圧縮コーデックは5〜12の圧縮率で動作しますが、一般的なH.264可逆圧縮ビデオの圧縮率は20〜200です。[60]

ビデオコーディング標準で使用される2つの主要なビデオ圧縮技術は、離散コサイン変換(DCT)と動き補償(MC)です。H.26xMPEG形式など、ほとんどのビデオコーディング標準では、通常、動き補償されたDCTビデオコーディング(ブロック動き補償)が使用されます。[61] [62]

ほとんどのビデオコーデックは、オーディオ圧縮技術と一緒に使用され、いわゆるコンテナ形式を使用して、個別であるが補完的なデータストリームを1つの結合されたパッケージとして保存します。[63]

エンコーディング理論

ビデオデータは、一連の静止画像フレームとして表すことができます。このようなデータには通常、大量の空間的および時間的冗長性が含まれています。ビデオ圧縮アルゴリズムは、冗長性を減らし、情報をよりコンパクトに保存しようとします。

ほとんどのビデオ圧縮フォーマットコーデックは、空間的冗長性と時間的冗長性の両方を活用します(たとえば、動き補償を使用した差分コーディングによる)。類似性は、たとえば時間的に隣接するフレーム(フレーム間コーディング)または空間的に隣接するピクセル(フレーム内コーディング)の間の差異のみを格納することによってエンコードできます。フレーム間圧縮(時間デルタエンコーディング)は、シーケンス内の1つ以上の前または後のフレームからのデータを(再)使用して、現在のフレームを記述します。一方、フレーム内コーディングでは、現在のフレーム内のデータのみが使用され、実質的に静止画像の圧縮になります。[45]

ビデオカメラやビデオ編集で使用されるフレーム内ビデオコーディング形式は、フレーム内予測のみを使用するより単純な圧縮を採用していますこれにより、圧縮されたフレームがエディターによって削除されたデータを参照する状況を防ぐため、ビデオ編集ソフトウェアが簡素化されます。

通常、ビデオ圧縮は、人間の視覚の知覚的特徴を利用することによって、人間の視覚とは(多かれ少なかれ)無関係なソースデータの側面を減らす量子化のような不可逆圧縮技術をさらに採用します。たとえば、色のわずかな違いは、明るさの変化よりも知覚が困難です。圧縮アルゴリズムは、 JPEG画像圧縮で使用されるのと同様の方法で、これらの同様の領域全体の色を平均化できます。[9]すべての非可逆圧縮と同様に、ビデオ品質ビットレートの間にはトレードオフがあります、圧縮と解凍の処理コスト、およびシステム要件。高度に圧縮されたビデオは、目に見えるまたは気を散らすアーティファクトを提示する可能性があります。

フラクタル圧縮マッチング追跡離散ウェーブレット変換(DWT)の使用など、一般的なDCTベースの変換形式以外の他の方法は、いくつかの研究の対象となっていますが、通常、実際の製品では使用されません。ウェーブレット圧縮は、動き補償なしの静止画像コーダーとビデオコーダーで使用されます。フラクタル圧縮への関心は、そのような方法の有効性が比較的不足していることを示す最近の理論的分析のために衰えているようです。[45]

フレーム間コーディング

フレーム間コーディングは、ビデオの各フレームを前のフレームと比較することによって機能します。ビデオシーケンスの個々のフレームは、あるフレームから次のフレームへと比較され、ビデオ圧縮コーデックは違いのみを送信します参照フレームに。フレームに何も移動していない領域が含まれている場合、システムは、前のフレームのその部分を次のフレームにコピーする短いコマンドを発行するだけです。フレームのセクションが単純な方法で移動する場合、コンプレッサーは、コピーをシフト、回転、明るく、または暗くするようにデコンプレッサーに指示する(少し長い)コマンドを発行できます。この長いコマンドは、フレーム内圧縮よりもはるかに短いままです。通常、エンコーダーは、残りのより微妙な違いを説明する残差信号も参照画像に送信します。エントロピーコーディングを使用すると、これらの残差信号は完全な信号よりもコンパクトに表現されます。動きの多いビデオの領域では、変化するピクセル数の増加に対応するために、圧縮でより多くのデータをエンコードする必要があります。通常、爆発、炎、可変ビットレート

ハイブリッドブロックベースの変換フォーマット

一般的なビデオエンコーダの処理段階

今日、一般的に使用されているほとんどすべてのビデオ圧縮方法(たとえば、ITU-TまたはISOによって承認された標準の方法)は、1988年にITU-Tによって標準化されたH.261にまでさかのぼる同じ基本アーキテクチャを共有しています。それらは主に、隣接するピクセルの長方形のブロックに適用されるDCT、モーションベクトルを使用した時間予測、および現在ではループ内フィルタリングステップに依存しています。

予測段階では、さまざまな重複排除と差分コーディングの手法が適用され、データの相関を解除し、すでに送信されたデータに基づいて新しいデータを記述します。

次に、(残留)ピクセルデータの長方形のブロックが周波数領域に変換され、量子化における無関係な情報のターゲティングが容易になり、空間的な冗長性がいくらか削減されます。この点で広く使用されている離散コサイン変換(DCT)は、1974年にN. Ahmed、T。Natarajan、およびKRRaoによって導入されました。 [16]

主な不可逆処理段階では、人間の視覚に関係のない情報を減らすために、そのデータが量子化されます。

最終段階では、統計的冗長性は、何らかの形式の算術符号化を適用することが多い エントロピーコーダーによって大幅に排除されます。

追加のループ内フィルタリングステージでは、再構成された画像信号にさまざまなフィルタを適用できます。これらのフィルターをエンコードループ内でも計算することにより、予測プロセスで使用される前に参照資料に適用でき、元の信号を使用してガイドできるため、圧縮に役立ちます。最も一般的な例は、変換ブロック境界での量子化の不連続性からのブロッキングアーティファクトをぼかす非 ブロッキングフィルターです。

歴史

1967年、AHロビンソンとC.チェリーは、アナログテレビ信号の送信用にランレングスエンコーディング帯域幅圧縮方式を提案しました。[64] 現代のビデオ圧縮の基本である離散コサイン変換(DCT) [65]は、1974年にNasir Ahmed、T。Natarajan、およびKRRaoによって導入されました。 [16] [66]

1988年にデビューしたH.261は、ビデオ圧縮技術の一般的な基本アーキテクチャを商業的に導入しました。[67]これは、 DCT圧縮に基づく最初のビデオコーディング形式であり、その後、その後のすべての主要なビデオコーディング形式の標準となりました。[65] H.261は、 HitachiPictureTelNTTBTToshibaなどの多くの企業によって開発されました[68]

コーデックに使用される最も一般的なビデオコーディング標準は、 MPEG標準です。MPEG-1は、1991年にMotion Picture Experts Group (MPEG)によって開発され、VHS品質のビデオを圧縮するように設計されました。1994年にMPEG-2 / H.262 [67]に引き継がれ、主にSonyThomsonMitsubishiElectricなどの多くの企業によって開発されました[69] MPEG-2は、 DVDおよびSD デジタルテレビの標準ビデオ形式になりました[67]1999年には、 MPEG-4 / H.263が続きました。これは、ビデオ圧縮技術の大きな飛躍でした。[67]これは、主に三菱電機、日立パナソニックなどの多くの企業によって開発されました。[70]

最も広く使用されているビデオコーディング形式は、H.264 / MPEG-4AVCです。2003年に、主にパナソニック、合同会社IPブリッジLGElectronicsなどの多くの組織によって開発されました。[71] AVCは、最新のコンテキスト適応型バイナリ演算コーディング(CABAC)およびコンテキスト適応型可変長コーディング(CAVLC)アルゴリズムを商業的に導入しました。AVCは、 Blu-ray Discの主要なビデオエンコーディング標準であり、ビデオ共有Webサイトや、 YouTubeNetflixVimeoiTunesStoreなどのストリーミングインターネットサービス、などのWebソフトウェアで広く使用されています。Adobe FlashPlayerMicrosoftSilverlight、および地上波テレビと衛星テレビを介したさまざまなHDTV放送。

遺伝学

遺伝学圧縮アルゴリズムは、従来の圧縮アルゴリズムと特定のデータタイプに適合した遺伝的アルゴリズムの両方を使用してデータ(通常はヌクレオチドのシーケンス)を圧縮する最新世代のロスレスアルゴリズムです。2012年、ジョンズホプキンス大学の科学者チームは、圧縮にリファレンスゲノムを使用しない遺伝子圧縮アルゴリズムを公開しました。HAPZIPPERはHapMap用に調整されましたデータを収集し、20倍以上の圧縮(ファイルサイズの95%削減)を実現し、2〜4倍優れた圧縮を提供し、主要な汎用圧縮ユーティリティよりも計算量が少なくなります。このために、Chanda、Elhaik、およびBaderはMAFベースのエンコーディング(MAFE)を導入しました。これは、マイナーアレル頻度でSNPを並べ替えることでデータセットの不均一性を減らし、データセットを均質化します。[72] 2009年および2013年の他のアルゴリズム(DNAZipおよびGenomeZip)の圧縮率は最大1200倍であり、60億塩基対の二倍体ヒトゲノムを2.5メガバイトで保存できます(参照ゲノムと比較して、または多くのゲノムで平均)。[73] [74]遺伝学/ゲノミクスデータコンプレッサーのベンチマークについては、[75]を参照してください。

Outlookと現在未使用の可能性

世界のストレージデバイスに保存されているデータの総量は、既存の圧縮アルゴリズムを使用して、残りの平均係数4.5:1でさらに圧縮できると推定されています。[76]情報を保存する世界の総合的な技術能力は、2007年に1,300エクサバイトのハードウェア桁を提供すると推定されていますが、対応するコンテンツが最適に圧縮されている場合、これは295エクサバイトのシャノン情報にすぎません。[77]

も参照してください

参考文献

  1. ^ ウェイド、グラハム(1994)。信号のコーディングと処理(2版)。ケンブリッジ大学出版局。p。34. ISBN 978-0-521-42336-62011年12月22日取得ソースコーディングの幅広い目的は、 PCMソースの「非効率的な」冗長性を活用または削除し、それによって全体的なソースレートRの削減を実現することです。
  2. ^ a b Mahdi、OA; マサチューセッツ州モハメッド; モハメド、AJ(2012年11月)。「ハイブリッド技術を介してオーディオ圧縮をテキストコーディングに変換する新しいアプローチの実装」(PDF)コンピュータサイエンス問題の国際ジャーナル9(6、No。3):53–59 2013年3月6日取得
  3. ^ Pujar、JH; Kadlaskar、LM(2010年5月)。「ハフマン符号化技術を使用した画像圧縮および解凍の新しいロスレス法」(PDF)Journal of Theoretical and Applied InformationTechnology15(1):18–23。
  4. ^ Salomon、David(2008)。データ圧縮の簡潔な紹介ベルリン:スプリンガー。ISBN 9781848000728
  5. ^ タンク、MK(2011)。「VHDLを使用したロスレス圧縮のためのLempel-ZIVアルゴリズムの実装」。VHDLを使用したロスレス圧縮のためのLimpel-Zivアルゴリズムの実装Thinkquest 2010:コンピューティングテクノロジーの輪郭に関する最初の国際会議の議事録ベルリン:スプリンガー。pp。275–283。土井10.1007 / 978-81-8489-989-4_51ISBN 978-81-8489-988-7
  6. ^ Navqi、Saud; Naqvi、R。; リアズ、RA; Siddiqui、F。(2011年4月)。「高帯域幅アプリケーション向けの最適化されたRTL設計とLZWアルゴリズムの実装」(PDF)電気レビュー2011(4):279–285。
  7. ^ スティーブン、ウルフラム(2002)。新しい種類の科学イリノイ州シャンペーン。p。1069. ISBN 1-57955-008-8
  8. ^ a b Mahmud、Salauddin(2012年3月)。「一般データの改善されたデータ圧縮方法」(PDF)科学技術研究の国際ジャーナル3(3):2 2013年3月6日取得
  9. ^ a b レーン、トム。「JPEG画像圧縮に関するFAQ、パート1」インターネットFAQアーカイブ独立したJPEGグループ2013年3月6日取得
  10. ^ GJサリバン; J.-R. オーム; W.-J. ハン; T.ウィーガンド(2012年12月)。「高効率ビデオコーディング(HEVC)規格の概要」ビデオ技術のための回路とシステムに関するIEEEトランザクションIEEE22(12):1649–1668。土井10.1109 /TCSVT.2012.2221191
  11. ^ 「最適なアーカイブ設定を選択する方法–WinRAR」
  12. ^ "(圧縮方法の設定)スイッチ–7zip"
  13. ^ Wolfram、Stephen(2002)。新しい種類の科学Wolfram Media、Inc.p。 1069ISBN 978-1-57955-008-0
  14. ^ アーキャンジェル、コーリー。「圧縮について」(PDF)2013年3月6日取得
  15. ^ a b Ahmed、Nasir(1991年1月)。「離散コサイン変換をどうやって思いついたのか」デジタル信号処理1(1):4–5。土井10.1016 / 1051-2004(91)90086-Z
  16. ^ a b c d ナシル・アフマド; T.ナタラジャン; カミセティ・ラマモハン・ラオ(1974年1月)。「離散コサイン変換」(PDF)コンピューターでのIEEEトランザクションC-23(1):90–93。土井10.1109 /TC.1974.223784
  17. ^ CCITT Study Group VIII und die Joint Photographic Experts Group(JPEG)von ISO / IEC Joint Technical Committee 1 / Subcommittee 29 / Working Group 10(1993)、 "Annex D – Arithmeticcoding"、Recommendation T.81:Digital Compression and Coding連続トーン静止画像の概要–要件とガイドライン(PDF)、54ページ以降、2009年11月7日取得
  18. ^ マラク、ラズロ。「画像圧縮について」(PDF)マルヌラヴァレ大学。2015年5月28日にオリジナル(PDF)からアーカイブされました2013年3月6日取得
  19. ^ マホニー、マット。「大きなテキスト圧縮ベンチマークの理論的根拠」フロリダ工科大学2013年3月5日取得
  20. ^ Shmilovici A。; カヒリY .; ベンガルI .; ハウザーS.(2009)。「ユニバーサルデータ圧縮アルゴリズムによる日中の外国為替市場の効率の測定」(PDF)計算経済学33(2):131–154。CiteSeerX10.1.1.627.3751_ 土井10.1007 / s10614-008-9153-3S2CID17234503_   
  21. ^ I.ベンガル(2008)。「ロバストな設計を分析するためのデータ圧縮手段の使用について」(PDF)信頼性に関するIEEEトランザクション54(3):381–388。土井10.1109 /TR.2005.853280S2CID9376086_  
  22. ^ D。スカリー; カーラE.ブロドリー(2006)。「圧縮と機械学習:特徴空間ベクトルに関する新しい視点」。データ圧縮会議、2006年: 332。doi 10.1109 /DCC.2006.13ISBN 0-7695-2545-8S2CID12311412 _
  23. ^ コーン、D。; etal。「RFC3284:VCDIFF汎用差分および圧縮データ形式」インターネットエンジニアリングタスクフォース2013年3月5日取得
  24. ^ コーン、DG; Vo、KP(1995)。B.クリシュナムルシー(編)。Vdelta:差分と圧縮実用的な再利用可能なUnixソフトウェア。ニューヨーク:John Wiley&Sons、Inc。
  25. ^ クロード・エルウッド・シャノン(1948)。アルカテル・ルーセント(編)。「コミュニケーションの数学的理論」(PDF)ベルシステムテクニカルジャーナル27(3–4):379–423、623–656。土井10.1002 /j.1538-7305.1948.tb01338.xhdl11858 / 00-001M-0000-002C-4314-22019年4月21日取得
  26. ^ David Albert Huffman(1952年9月)、「最小冗長性コードの構築方法」(PDF)Proceedings of the IRE、vol。40、いいえ。9、pp。1098–1101、doi10.1109 / JRPROC.1952.273898
  27. ^ プラット、WK; ケイン、J。; アンドリュース、HC(1969)。「アダマール変換画像コーディング」。IEEEの議事録57:58–68。土井10.1109 /PROC.1969.6869
  28. ^ 「T.81–連続トーン静止画像のデジタル圧縮とコーディング–要件とガイドライン」(PDF)CCITT1992年9月2019年7月12日取得
  29. ^ 「JPEG画像フォーマットの説明」BT.comBTグループ2018年5月31日。2019年8月5日のオリジナルからアーカイブ2019年8月5日取得
  30. ^ バラニュク、クリス(2015年10月15日)。「コピー保護はJPEGに適用される可能性があります」BBCニュースBBC 2019年9月13日取得
  31. ^ 「JPEGとは何ですか?あなたが毎日見る目に見えないオブジェクト」大西洋2013年9月24日2019年9月13日取得
  32. ^ 「GIF論争:ソフトウェア開発者の視点」2015年5月26日取得
  33. ^ L. Peter Deutsch(1996年5月)。DEFLATE圧縮データ形式仕様バージョン1.3IETFp。1秒。概要。土井10.17487 / RFC1951RFC1951 _ 2014年4月23日取得
  34. ^ ホフマン、ロイ(2012)。デジタルシステムにおけるデータ圧縮シュプリンガーサイエンス&ビジネスメディアp。124. ISBN 9781461560319基本的に、ウェーブレットコーディングは、DCTベースの変換コーディングの変形であり、その制限の一部を軽減または排除します。(...)もう1つの利点は、JPEGやその他のブロックベースのDCT手法のように、8×8ブロックのピクセルを処理するのではなく、ウェーブレットコーディングで画像全体を同時に圧縮できることです。
  35. ^ タウブマン、デビッド; マルセリン、マイケル(2012)。JPEG2000画像圧縮の基礎、標準および実践:画像圧縮の基礎、標準および実践シュプリンガーサイエンス&ビジネスメディアISBN 9781461507994
  36. ^ Unser、M。; Blu、T。(2003)「JPEG2000ウェーブレットフィルターの数学的特性」画像処理に関するIEEEトランザクション12(9):1080-1090。Bibcode2003ITIP ... 12.1080U土井10.1109 /TIP.2003.812329PMID18237979_ S2CID2765169_  
  37. ^ サリバン、ゲイリー(2003年12月8〜12日)。「時間サブバンドビデオコーディングの一般的な特性と設計上の考慮事項」ITU-Tビデオコーディングエキスパートグループ2019年9月13日取得
  38. ^ Bovik、Alan C.(2009)。ビデオ処理の基本ガイドアカデミックプレスp。355. ISBN 9780080922508
  39. ^ Swartz、Charles S.(2005)。デジタルシネマを理解する:プロフェッショナルハンドブックテイラーアンドフランシスp。147. ISBN 9780240806174
  40. ^ カニンガム、スチュアート; マクレガー、イアン(2019)。「AAC、MP3、および非圧縮PCMと比較したACERコーデックで圧縮された音楽の主観的評価」デジタルマルチメディア放送の国際ジャーナル2019:1〜16。土井10.1155 / 2019/8265301
  41. ^ Olympus WS-120デジタルスピーチレコーダーは、そのマニュアルによると、500MBのフラッシュメモリに.WMA形式で約178時間のスピーチ品質のオーディオを保存できます。
  42. ^ コールソン、ジョシュ。「FLACの比較」2020年8月23日取得
  43. ^ 「フォーマットの概要」2020年8月23日取得
  44. ^ a b Jaiswal、RC(2009)。オーディオビデオエンジニアリングマハラシュトラ州プネ:ニラリプラカシャン。p。3.41。ISBN 9788190639675
  45. ^ a b c Faxin Yu; ハオルオ; Zheming Lu(2010)。3次元モデルの分析と処理ベルリン:スプリンガー。p。 47ISBN 9783642126512
  46. ^ 米国特許2605361、C。ChapinCutler、「通信信号の微分量子化」、1952-07-29発行 
  47. ^ Cummiskey、P。; ジャヤント、NS; フラナガン、JL(1973)。「音声の差分PCMコーディングにおける適応量子化」。ベルシステムテクニカルジャーナル52(7):1105–1118。土井10.1002 /j.1538-7305.1973.tb02007.x
  48. ^ Cummiskey、P。; ジャヤント、ニッケルS。; フラナガン、JL(1973)。「音声の差分PCM符号化における適応量子化」。ベルシステムテクニカルジャーナル52(7):1105–1118。土井10.1002 /j.1538-7305.1973.tb02007.xISSN0005-8580_ 
  49. ^ a b c Schroeder、Manfred R.(2014)。「ベル研究所」音響、情報、およびコミュニケーション:マンフレートR.シュローダーに敬意を表して記念巻スプリンガー。p。388. ISBN 9783319056609
  50. ^ グレイ、ロバートM.(2010)。「パケットネットワークでのリアルタイムデジタル音声の歴史:線形予測符号化とインターネットプロトコルのパートII」(PDF)見つかった。トレンドシグナルプロセス3(4):203–303。土井10.1561 / 200000093ISSN1932-8346_  
  51. ^ ガッカート、ジョン(2012年春)。「MP3オーディオ圧縮でのFFTとMDCTの使用」(PDF)ユタ大学2019年7月14日取得
  52. ^ Luo、Fa-Long(2008)。モバイルマルチメディア放送規格:技術と実践シュプリンガーサイエンス&ビジネスメディアp。590. ISBN 9780387782638
  53. ^ Britanak、V。(2011)。「ドルビーデジタル(プラス)AC-3オーディオコーディング標準におけるフィルターバンクのプロパティ、関係、および簡略化された実装について」。オーディオ、スピーチ、および言語処理に関するIEEEトランザクション19(5):1231–1241。土井10.1109 /TASL.2010.2087755S2CID897622_ 
  54. ^ ブランデンブルク、カールハインツ(1999)。「MP3とAACの説明」(PDF)2017-02-13のオリジナルからアーカイブ(PDF) 。
  55. ^ Princen、J。; ジョンソン、A。; ブラッドリー、A。(1987)。「時間領域エイリアシングキャンセルに基づくフィルターバンク設計を使用したサブバンド/変換コーディング」。ICASSP'87。音響、音声、および信号処理に関するIEEE国際会議12. pp。2161–2164。土井10.1109 /ICASSP.1987.1169405S2CID58446992_ 
  56. ^ Princen、J。; ブラッドリー、A。(1986)。「時間領域エイリアシングキャンセルに基づく分析/合成フィルターバンクの設計」。音響、音声、および信号処理に関するIEEEトランザクション34(5):1153–1161。土井10.1109 /TASSP.1986.1164954
  57. ^ 「放送工学へのSolidyneの貢献のいくつかの要約」Solidyneの簡単な歴史ブエノスアイレス:Solidyne。2013年3月8日にオリジナルからアーカイブされました2013年3月6日取得[自費出版の情報源?]
  58. ^ Zwicker、Eberhard; etal。(1967)。コミュニケーションレシーバーとしての耳ニューヨーク州メルビル:アメリカ音響学会。2000-09-14にオリジナルからアーカイブされました2011年11月11日取得
  59. ^ 「ファイル圧縮の可能性」4つの異なる方法でファイルを圧縮するための簡単なガイド2017年2月17日。
  60. ^ Dmitriy Vatolin; etal。(グラフィックス&メディアラボビデオグループ)(2007年3月)。ロスレスビデオコーデックの比較 '2007 (PDF)(レポート)。モスクワ州立大学。
  61. ^ 陳、傑; Koc、Ut-Va; 劉、KJレイ(2001)。デジタルビデオコーディングシステムの設計:完全な圧縮ドメインアプローチCRCプレスp。71. ISBN 9780203904183
  62. ^ Li、Jian Ping(2006)。Wavelet Active Media Technology and Information Processingに関する2006年国際コンピュータ会議の議事録:中国、重慶、2006年8月29〜31日世界科学p。847. ISBN 9789812709998
  63. ^ 「ビデオコーディング」CSIPWebサイトジョージア工科大学信号情報処理センター。2013年5月23日にオリジナルからアーカイブされました2013年3月6日取得
  64. ^ ロビンソン、AH; チェリー、C。(1967)。「プロトタイプのテレビ帯域幅圧縮方式の結果」。IEEEの議事録IEEE55(3):356–364。土井10.1109 /PROC.1967.5493
  65. ^ a b Ghanbari、Mohammed(2003)。標準コーデック:高度なビデオコーディングへの画像圧縮工学技術学会pp。1–2。ISBN 9780852967102
  66. ^ リーダー、クリフ(2016-08-31)。「ロイヤリティフリーのビデオコーディングの特許ランドスケープ」テッシャーでは、アンドリューG(編)。デジタル画像処理XXXIXのアプリケーション9971.カリフォルニア州サンディエゴ:光光学計測技術者協会。pp.99711B。Bibcode2016SPIE.9971E..1BR土井10.1117 /12.22394932016年12月8日にオリジナルからアーカイブされました。講義録音、3:05:10から。
  67. ^ a b c d 「ビデオファイル形式の歴史インフォグラフィック—RealPlayer」2012年4月22日。
  68. ^ 「H261-07として登録された特許ステートメント宣言」ITU 2019年7月11日取得
  69. ^ 「MPEG-2特許リスト」(PDF)MPEGLA2019年7月7日取得
  70. ^ 「MPEG-4ビジュアル-特許リスト」(PDF)MPEGLA2019年7月6日取得
  71. ^ 「AVC / H.264–特許リスト」(PDF)MPEGLA 2019年7月6日取得
  72. ^ Chanda P、Bader JS、Elhaik E(2012年7月27日)。「HapZipper:HapMapの母集団の共有が簡単になりました」核酸研究40(20):e159。土井10.1093 / nar / gks709PMC3488212_ PMID22844100_  
  73. ^ Christley S、Lu Y、Li C、Xie X(2009年1月15日)。「電子メールの添付ファイルとしてのヒトゲノム」バイオインフォマティクス25(2):274–5。土井10.1093 / bioinformatics / btn582PMID18996942_ 
  74. ^ Pavlichin DS、Weissman T、Yona G(2013年9月)。「ヒトゲノムは再び収縮する」バイオインフォマティクス29(17):2199–202。土井10.1093 / bioinformatics / btt362PMID23793748_ 
  75. ^ Hosseini、Morteza; プラタス、ディオゴ; ピニョ、アルマンド(2016)。「生物学的配列のためのデータ圧縮方法に関する調査」情報7(4):56。doi10.3390 / info7040056
  76. ^ 「論理合成によるデータ圧縮」(PDF)
  77. ^ ヒルベルト、マーティン; ロペス、プリシラ(2011年4月1日)。「情報を保存、通信、および計算するための世界の技術的能力」。科学332(6025):60–65。Bibcode2011Sci ... 332 ... 60H土井10.1126 /science.1200970PMID21310967_ S2CID206531385_  

外部リンク