データ圧縮

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

信号処理データ圧縮ソース符号化[1]又はビットレートの低減は符号化処理である情報を、より少ない使用してビットを元の表現より。[2]特定の圧縮は、非可逆または可逆のいずれかです。可逆圧縮は、統計的な冗長性を識別して排除することにより、ビットを削減します。可逆圧縮で情報が失われることはありません。非可逆圧縮は、不要な情報や重要性の低い情報を削除することでビットを削減します。[3] 通常、データ圧縮を実行するデバイスはエンコーダーと呼ばれ、プロセスの反転(解凍)を実行するデバイスはデコーダーと呼ばれます。

データファイルのサイズを縮小するプロセスは、多くの場合、データ圧縮と呼ばれます。データ送信のコンテキストでは、ソースコーディングと呼ばれます。データが保存または送信される前に、データのソースで行われるエンコード。[4]ソースコーディングをチャネルコーディングと混同しないでください。エラー検出と訂正、またはラインコーディングのために、データを信号にマッピングする手段です。

圧縮は、データの保存と送信に必要なリソースを削減するので便利です。計算リソースは、圧縮および解凍プロセスで消費されます。データ圧縮には、時空間の複雑さのトレードオフが伴います。たとえば、ビデオの圧縮方式では、ビデオを解凍するときに十分な速度で解凍するために高価なハードウェアが必要になる場合があります。また、ビデオを視聴する前に完全に解凍するオプションは、不便であるか、追加のストレージが必要になる場合があります。データ圧縮スキームの設計には、圧縮の程度、導入される歪みの量(非可逆データ圧縮を使用する場合)など、さまざまな要因間のトレードオフが含まれます。)、およびデータの圧縮と解凍に必要な計算リソース[5]

ロスレス

可逆データ圧縮 アルゴリズムは通常、統計的冗長性利用して、情報を失うことなくデータを表すため、プロセスを元に戻すことができます。ほとんどの実世界のデータは統計的な冗長性を示すため、可逆圧縮が可能です。たとえば、画像に数ピクセルにわたって変化しない色の領域がある場合があります。 「赤ピクセル、赤ピクセル、...」をコーディングする代わりに、データを「279赤ピクセル」としてエンコードすることができます。これは、ランレングスエンコーディングの基本的な例です。冗長性を排除することによってファイルサイズを削減するための多くのスキームがあります。

・ジブレンペル(LZ)圧縮方法は、可逆貯蔵のための最も人気のあるアルゴリズムの一つです。[6] DEFLATEは、解凍速度と圧縮率に最適化されたLZのバリエーションですが、圧縮が遅くなる可能性があります。 1980年代半ば、Terry Welchの研究に続いてLempel–Ziv–Welch(LZW)アルゴリズムが、ほとんどの汎用圧縮システムで急速に選択される方法になりました。 LZWは、GIF画像、PKZIPなどのプログラム、およびモデムなどのハードウェアデバイスで使用されます。[7]LZメソッドは、テーブルベースの圧縮モデルを使用します。このモデルでは、繰り返されるデータ文字列の代わりにテーブルエントリが使用されます。ほとんどのLZメソッドでは、このテーブルは入力の以前のデータから動的に生成されます。テーブル自体は、多くの場合、ハフマンでエンコードされています。このような文法ベースのコードは、繰り返しの多い入力を非常に効果的に圧縮できます。たとえば、同じ種または密接に関連する種の生物学的データ収集、膨大なバージョンのドキュメントコレクション、インターネットアーカイブなどです。文法ベースのコードの基本的なタスクは構築です。単一の文字列を導出するコンテキストフリーの文法。他の実用的な文法圧縮アルゴリズムには、SequiturとRe-Pairが含まれます。

最新のロスレスコンプレッサーは、部分マッチングによる予測などの確率モデルを使用していますブロックソートも統計的モデリングの間接的な形とみなすことができます。[8]確率論的モデリングの直接使用のさらなる改良において、統計的推定は算術符号化と呼ばれるアルゴリズムに結合することができます。算術符号化は、有限状態マシンの数学的計算を使用する最新のコーディング手法です。一連の入力データシンボルからエンコードされたビットの文字列を生成します。よく知られているハフマンアルゴリズムなどの他の手法と比較して、優れた圧縮を実現できます。内部メモリ状態を使用して、個々の入力シンボルを整数ビットを使用する個別の表現に1対1でマッピングする必要をなくし、データシンボルの文字列全体をエンコードした後にのみ内部メモリをクリアします。 。算術符号化は、入力データの確率分布の適応モデルと簡単に組み合わせることができるため、統計が変化し、コンテキストに依存する適応データ圧縮タスクに特に適しています。算術符号化の使用の初期の例は、JPEGのオプションの(しかし広く使用されていない)機能でした。画像コーディング標準。[9]それ以来、ビデオコーディング用のH.263H.264 / MPEG-4 AVCHEVCなどの他のさまざまな設計に適用されています。[10]

ロッシー

1980年代後半に、デジタル画像がより一般的になり、ロスレス画像圧縮の標準が登場しました。 1990年代初頭、非可逆圧縮方式が広く使用されるようになりました。[11]これらのスキームでは、重要でない詳細を削除するとストレージスペースを節約できるため、情報の損失が許容されます。情報の保存とサイズの縮小の間には、対応するトレードオフがあります。非可逆データ圧縮スキームは、問題のデータを人々がどのように認識するかに関する調査によって設計されています。たとえば、人間の目は、色の変化よりも輝度の微妙な変化に敏感です。JPEG画像圧縮は、情報の不要なビットを四捨五入することによって部分的に機能します。[12]音声の音響心理学画像やビデオの心理視覚 など、多くの一般的な圧縮形式がこれらの知覚の違いを利用しています

非可逆圧縮のほとんどの形式は、変換コーディング、特に離散コサイン変換(DCT)に基づいています。なお、第1によって1972年に提案されたナシルアーメド次いでT. Natarajanとで作業アルゴリズム開発、KRラオを1月1974年にそれを導入する前に、1973年[13] [14] DCTは、最も広く使用されている非可逆圧縮方式であり、そして画像JPEGHEIFなど)、[15] ビデオMPEGAVCHEVCなど)およびオーディオ(MP3など)のマルチメディア形式で使用されますAACおよびVorbis)。

非可逆画像圧縮、ストレージ容量を増やすためにデジタルカメラ使用されます。同様に、DVDBlu-ray、およびストリーミングビデオは、不可逆ビデオコーディング形式を使用します非可逆圧縮は、ビデオで広く使用されています。

非可逆オーディオ圧縮では、音響心理学の方法を使用して、オーディオ信号の非可聴(または可聴性の低い)コンポーネントを削除します。人間の発話の圧縮は、多くの場合、さらに専門的な手法で実行されます。音声コーディングは、汎用オーディオ圧縮とは別の分野として区別されます。音声コーディングはインターネットテレフォニー使用されます。たとえば、オーディオ圧縮はCDリッピングに使用され、オーディオプレーヤーによってデコードされます。[8]

非可逆圧縮は、ジェネレーションロスを引き起こす可能性があります

理論

圧縮の理論的基礎は、情報理論、より具体的には、可逆圧縮のアルゴリズム情報理論と非可逆圧縮のレート歪み理論によって提供されますこれらの研究分野は、1940年代後半から1950年代初頭にこのトピックに関する基本的な論文を発表したClaudeShannonによって本質的に作成されました圧縮に関連する他のトピックには、コーディング理論統計的推論が含まれます。[16]

機械学習

機械学習と圧縮の間には密接な関係があります。履歴全体が与えられたシーケンスの事後確率を予測するシステムは、最適なデータ圧縮に使用できます(出力分布に算術符号化使用することにより)。最適なコンプレッサーを予測に使用できます(以前の履歴を前提として、最も圧縮率の高いシンボルを見つけることにより)。この同等性は、「一般的なインテリジェンス」のベンチマークとしてデータ圧縮を使用する理由として使用されています。[17] [18] [19]

別のビューでは、圧縮アルゴリズムが文字列を暗黙の特徴空間ベクトルに暗黙的にマップし、圧縮ベースの類似性測定値がこれらの特徴空間内の類似性を計算することを示すことができます。各コンプレッサーC(。)について、C(。)が入力文字列xをマップし、ベクトルノルム|| 〜x ||に対応するように、関連するベクトル空間ℵを定義します。すべての圧縮アルゴリズムの基礎となる特徴空間の徹底的な調査は、空間によって排除されます。代わりに、特徴ベクトルは、3つの代表的な可逆圧縮方法、LZW、LZ77、およびPPMを調べることを選択します。[20]

Hutter Prizeより直接的に説明されている接続であるAIXI理論によれば、xの可能な限り最良の圧縮は、xを生成する可能な限り最小のソフトウェアです。たとえば、そのモデルでは、zipファイルの圧縮サイズにはzipファイルと解凍ソフトウェアの両方が含まれます。両方がないと解凍できないためですが、結合された形式はさらに小さい場合があります。

データ差分

データ圧縮は、データ差分の特殊なケースと見なすことができます[21] [22]データの差分を製造から成る所与のソース、ターゲットを再生パッチとターゲット所与のソースの差を。データ圧縮には個別のソースとターゲットがないため、データ圧縮は空のソースデータとのデータ差分と見なすことができます。圧縮ファイルは何もないものとの違いに対応します。これは、絶対エントロピー(データ圧縮に対応)を相対エントロピーの特殊なケースと見なすのと同じです。 (データ差分に対応)初期データなし。

差分圧縮という用語は、データ差分接続を強調するために使用されます。

使用し

画像

エントロピーは、コーディングの導入により、1940年代に起源シャノン符号化[23]の基礎ハフマン符号化1950年に開発された[24] トランスコーディングの日付はの導入で、1960年代後半に戻り、高速フーリエ変換(FFT )1968年のコーディングと1969年アダマール変換[25]

重要な画像圧縮技術は、1970年代初頭に開発された技術である離散コサイン変換(DCT)です。[13] DCTは、1992年にJoint Photographic Experts Group(JPEG)によって導入され不可逆圧縮形式であるJPEGの基礎です[26] JPEGは、画像を表現するために必要なデータ量を大幅に削減しますが、比較的コストがかかります。画質のわずかな低下であり、最も広く使用されている画像ファイル形式になっています[27] [28]その非常に効率的なDCTベースの圧縮アルゴリズムは、デジタル画像の広範な拡散の主な原因でした。デジタル写真[29]

Lempel–Ziv–Welch(LZW)は、1984年に開発され可逆圧縮アルゴリズムです。1987年に導入されたGIF形式で使用されます。[30] 1996年に指定された可逆圧縮アルゴリズムであるDEFLATEは、Portable Network Graphics( PNG)形式。[31]

ウェーブレット圧縮を使用ウェーブレット画像圧縮では、DCTは、コーディングの現像後に始まりました。[32] JPEG2000の規格は、2000年に導入された[33] DCTアルゴリズムとは対照的に、元のJPEGフォーマットで使用される、JPEG 2000が代わりに使用する離散ウェーブレット変換(DWT)アルゴリズム。[34] [35] [36]が含まれ、JPEG2000技術、モーションJPEG2000の拡張は、のように選択されたビデオ符号化標準のためのデジタルシネマ2004年[37]

オーディオ

ダイナミックレンジ圧縮と混同しないように、オーディオデータ圧縮は、オーディオデータの伝送帯域幅とストレージ要件を削減する可能性があります。オーディオ圧縮アルゴリズム、オーディオコーデックとしてソフトウェアに実装されています。非可逆圧縮と可逆圧縮の両方でコーディング量子化離散コサイン変換線形予測などの方法を使用して情報の冗長性を減らし、非圧縮データを表すために使用される情報の量を減らします。

非可逆オーディオ圧縮アルゴリズムは、より高い圧縮を提供し、VorbisMP3を含む多くのオーディオアプリケーションで使用されています。これらのアルゴリズムはほとんどすべて、音響心理学依存して、聞こえにくい音の忠実度を排除または低減し、それによってそれらを保存または送信するために必要なスペースを削減します。[2] [38]

オーディオ品質の低下と送信またはストレージサイズの間の許容可能なトレードオフは、アプリケーションによって異なります。たとえば、1枚の640 MBコンパクトディスク(CD)には、約1時間の非圧縮のハイファイ音楽、2時間未満のロスレス圧縮、または7時間のMP3形式の音楽をビットレート圧縮できます。デジタルサウンドレコーダーは通常、約200時間の明瞭に理解できる音声を640MBで保存できます。[39]

ロスレスオーディオ圧縮は、オリジナルの正確なデジタル複製にデコードできるデジタルデータの表現を生成します。圧縮率は元のサイズの約50〜60%であり[40]、これは一般的なロスレスデータ圧縮の場合と同様です。ロスレスコーデックは、信号を推定するための基礎としてカーブフィッティングまたは線形予測を使用します。推定値、および推定値と実際の信号の違いを説明するパラメータは、別々にコード化されます。[41]

ロスレスオーディオ圧縮形式は多数存在します。リストについては、ロスレスコーデックのリストを参照してください一部の形式は、次のような、個別のシステムに関連付けられているダイレクトストリーム転送に使用される、スーパーオーディオCDメリディアンロスレスパッキングで使用される、DVDオーディオドルビーTrueHDはブルーレイHD DVD

一部のオーディオファイル形式は、不可逆形式と可逆修正の組み合わせを特徴としています。これにより、修正を取り除いて、損失の多いファイルを簡単に取得できます。このような形式には、MPEG-4 SLS(Scalable to Lossless)、WavPack、およびOptimFROGDualStreamが含まれます。

オーディオファイルをさらに圧縮するか編集するために処理する場合は、変更されていないオリジナル(非圧縮または可逆圧縮)から作業することが望ましいです。何らかの目的で損失の多い圧縮ファイルを処理すると、通常、圧縮されていないオリジナルから同じ圧縮ファイルを作成するよりも劣る最終結果が生成されます。サウンドの編集やミキシングに加えて、ロスレスオーディオ圧縮はアーカイブストレージやマスターコピーとしてよく使用されます。

非可逆オーディオ圧縮

非圧縮形式といくつかの不可逆形式のオーディオスペクトログラム比較非可逆スペクトログラムは、非可逆オーディオ圧縮に関連する一般的な手法である、より高い周波数の帯域制限示しています。

非可逆オーディオ圧縮は、さまざまなアプリケーションで使用されます。 MP3プレーヤーまたはコンピューターでのファイル再生のスタンドアロンオーディオのみのアプリケーションに加えて、デジタル圧縮されたオーディオストリームは、ほとんどのビデオDVD、デジタルテレビ、インターネット上のストリーミングメディア、衛星およびケーブルラジオ、そしてますます地上波ラジオ放送で使用されています。非可逆圧縮は通常、音響心理学的最適化に基づいて重要度の低いデータを破棄することにより、可逆圧縮よりもはるかに大きな圧縮を実現します。[42]

音響心理学は、オーディオストリーム内のすべてのデータが人間の聴覚系によって認識できるわけではないことを認識しています。ほとんどの非可逆圧縮は、最初に知覚的に無関係な音、つまり非常に聞き取りにくい音を識別することによって冗長性を減らします。典型的な例としては、高周波や大きな音と同時に発生する音などがあります。これらの無関係な音は、精度が低下するか、まったくコード化されません。

非可逆アルゴリズムの性質上、ファイルを解凍および再圧縮するとオーディオ品質デジタル生成で失われます。これにより、不可逆圧縮は、サウンド編集やマルチトラック録音などのプロのオーディオエンジニアリングアプリケーションで中間結果を保存するのに不適切になります。ただし、ファイルサイズが元のサイズの5〜20%に縮小され、メガバイトで約1分分の音楽を適切な品質で保存できるため、MP3などの不可逆形式はエンドユーザーに非常に人気があります。

コーディング方法

オーディオ信号のどの情報が知覚的に無関係であるかを判断するために、ほとんどの非可逆圧縮アルゴリズムは、修正離散コサイン変換(MDCT)などの変換を使用して、時間領域でサンプリングされた波形を変換領域(通常は周波数領域)に変換します。変換されると、コンポーネントの周波数は、それらがどれだけ聞こえるかに応じて優先順位を付けることができます。スペクトル成分の可聴性は、聴覚絶対しきい値と同時マスキングの原理(周波数によって分離された別の信号によって信号がマスクされる現象)と、場合によっては、信号が別の信号によってマスクされる時間マスキングを使用して評価されます。時間で区切られます。等ラウドネス曲線を使用して、コンポーネントの知覚上の重要性に重みを付けることもできます。このような効果を組み込んだ人間の耳と脳の組み合わせのモデルは、しばしば音響心理学モデルと呼ばれます[43]

音声で使用される線形予測符号化(LPC)など、他の種類の不可逆圧縮機は、ソースベースのコーダーです。LPCは、人間の声道のモデルを使用して音声を分析し、モデルで使用されるパラメーターを推測して、それらを刻々と生成します。これらの変化するパラメーターは送信または保存され、サウンドを再生するデコーダーで別のモデルを駆動するために使用されます。

非可逆形式は、ストリーミングオーディオまたはインタラクティブ通信(携帯電話ネットワークなど)の配信によく使用されます。このようなアプリケーションでは、データストリーム全体が送信された後ではなく、データが流れるときにデータを解凍する必要があります。すべてのオーディオコーデックをストリーミングアプリケーションに使用できるわけではありません。[42]

レイテンシーは、データのエンコードとデコードに使用される方法によって導入されます。一部のコーデックは、データのフレームと呼ばれる長いセグメントを分析して効率を最適化し、デコードするために一度に大きなデータセグメントを必要とする方法でコーディングします。コーディングアルゴリズムの固有の遅延は重要な場合があります。たとえば、電話での会話など、データの双方向送信がある場合、大幅な遅延が発生すると、知覚される品質が大幅に低下する可能性があります。

アルゴリズムに必要な操作の数に比例する圧縮の速度とは対照的に、ここでのレイテンシーとは、オーディオのブロックが処理される前に分析する必要のあるサンプルの数を指します。最小の場合、レイテンシーはゼロサンプルです(たとえば、コーダー/デコーダーが信号の量子化に使用されるビット数を単純に減らす場合)。LPCなどの時間領域アルゴリズムも待ち時間が短いことが多いため、テレフォニーの音声コーディングで人気があります。ただし、MP3などのアルゴリズムでは、周波数領域で音響心理学モデルを実装するために多数のサンプルを分析する必要があり、遅延は23ミリ秒のオーダーです。

音声符号化

音声エンコーディングは、オーディオデータ圧縮の重要なカテゴリです。人間の耳が聞くことができる音声の側面を推定するために使用される知覚モデルは、一般に音楽に使用されるものとは多少異なります。人間の声の音を伝えるために必要な周波数の範囲は、通常、音楽に必要な周波数の範囲よりもはるかに狭く、音は通常それほど複雑ではありません。その結果、音声は比較的低いビットレートを使用して高品質でエンコードできます。

これは、一般に、次の2つのアプローチの組み合わせによって実現されます。

  • 単一の人間の声で作成できる音声のみをエンコードします。
  • 信号内のより多くのデータを破棄します。人間の聴覚の全周波数範囲ではなく、「わかりやすい」音声を再構築するのに十分なだけ保持します。

音声エンコーディング(および一般的なオーディオデータ圧縮)で使用された最も初期のアルゴリズムは、A-lawアルゴリズムμ-lawアルゴリズムでした。

歴史

Solidyne 922:PC用の世界初の商用オーディオビット圧縮サウンドカード、1990年

初期のオーディオ研究はベル研究所で実施されましたそこで、1950年に、C。ChapinCutler差分パルス符号変調(DPCM)に関する特許を申請しました[44] 1973年に、適応DPCM(ADPCM)は、P。Cummiskey、Nikil S. Jayant、およびJames L.Flanaganによって導入されました[45] [46]

知覚コーディング線形予測コーディング(LPC)を使用して、音声コーディングの圧縮に最初に使用されました[47]の仕事にLPC日のバックの初期コンセプト板倉文忠名古屋大学)と酒造斎藤(日本電信電話1966年)[48] 1970年の間に、ビシュヌ・S.・アタルマンフレッド・R・シュレーダーベル研究所人間の耳のマスキング特性を利用した知覚コーディングアルゴリズムである適応予測コーディング(APC)と呼ばれるLPCの形式を開発し、1980年代初頭に当時、かなりの圧縮率を達成したコード励起線形予測(CELP)アルゴリズム[47]知覚コーディングは、MP3 [47]AACなどの最新のオーディオ圧縮形式で使用されています

離散コサイン変換によって開発された(DCT)、ナシルアーメド、T. NatarajanおよびKRラオ1974年、[14]の基礎提供修正離散コサイン変換MP3など現代の音声圧縮フォーマットによって使用される(MDCT)を、[49] ドルビーデジタル[50] [51]およびAAC。[52] MDCTは、1987年にJP Princen、AW Johnson、およびAB Bradleyによって提案され[53]、1986年のPrincenおよびBradleyによる初期の研究に続いて[54]。

世界初の民間放送自動化オーディオ圧縮システムは、ブエノスアイレス大学の工学教授であるオスカルボネロによって開発されました[55] 1983年に、1967年に最初に発表されたクリティカルバンドのマスキングの音響心理学の原理を使用して[56]、彼は最近開発されたIBM PCコンピュータに基づく実用的なアプリケーションの開発を開始し、放送自動化システムは1987年に名前Audicom。 20年後、世界中のほぼすべてのラジオ局が、多くの企業によって製造された同様の技術を使用していました。

さまざまなオーディオコーディングシステムに関する文献の概要が、1988年2月にIEEEのJournal on Selected Areas in CommunicationsJSACに掲載されました。それ以前の論文もいくつかありましたが、このコレクションには、完成したさまざまな作業が記録されています。オーディオコーダー。ほとんどすべてが知覚(つまりマスキング)技術と、ある種の周波数分析およびバックエンドノイズレスコーディングを使用しています。[57]これらの論文のいくつかは、研究目的で優れたクリーンなデジタルオーディオを入手することの難しさについて述べています。すべてではないにしてJSACエディションの作成者のほとんどは、MP3形式を作成したMPEG-1オーディオ委員会でも活躍していました。

ビデオ

Video compression is a practical implementation of source coding in information theory. In practice, most video codecs are used alongside audio compression techniques to store the separate but complementary data streams as one combined package using so-called container formats.[58]

Uncompressed video requires a very high data rate. Although lossless video compression codecs perform at a compression factor of 5 to 12, a typical H.264 lossy compression video has a compression factor between 20 and 200.[59]

ビデオコーディング標準で使用される2つの主要なビデオ圧縮技術は、離散コサイン変換(DCT)と動き補償(MC)です。H.26xMPEG形式など、ほとんどのビデオコーディング標準では、通常、動き補償されたDCTビデオコーディング(ブロック動き補償)が使用されます。[60] [61]

エンコーディング理論

ビデオデータは、一連の静止画像フレームとして表すことができます。このようなデータには通常、大量の空間的および時間的冗長性が含まれていますビデオ圧縮アルゴリズムは、冗長性を減らし、情報をよりコンパクトに保存しようとします。

ほとんどのビデオ圧縮形式コーデックは、空間的冗長性と時間的冗長性の両方を活用します(たとえば、動き補償を使用した差分コーディングを通じて)。類似性は、たとえば時間的に隣接するフレーム(フレーム間コーディング)または空間的に隣接するピクセル(フレーム内コーディング)の間の差異のみを格納することによってエンコードできます。フレーム間圧縮(時間差分エンコーディング)は、シーケンス内の1つ以上の前または後のフレームからのデータを(再)使用して、現在のフレームを記述します。一方、フレーム内コーディングは、現在のフレーム内のデータのみを使用し、事実上静止画像圧縮になります。[43]

The intra-frame video coding formats used in camcorders and video editing employ simpler compression that uses only intra-frame prediction. This simplifies video editing software, as it prevents a situation in which a P or B frame refers to data that the editor has deleted.

通常、ビデオ圧縮は、人間の視覚の知覚的特徴を利用することによって、人間の視覚とは(多かれ少なかれ)無関係なソースデータの側面を減らす量子化のような不可逆圧縮技術をさらに採用します。たとえば、色のわずかな違いは、明るさの変化よりも認識が困難です。圧縮アルゴリズムは、JPEG画像圧縮で使用されるのと同様の方法で、これらの同様の領域全体の色を平均してスペースを削減できます[9]すべての不可逆圧縮と同様にビデオ品質ビットレートのにはトレードオフあります、圧縮と解凍の処理コスト、およびシステム要件。高度に圧縮されたビデオは、目に見えるまたは気を散らすアーティファクトを提示する場合があります

フラクタル圧縮マッチング追跡離散ウェーブレット変換(DWT)の使用など、一般的なDCTベースの変換形式以外の方法もいくつかの研究の対象となっていますが、通常、実際の製品では使用されていません(動き補償なしの静止画像コーダーとしてウェーブレットコーディングの使用)。フラクタル圧縮への関心は、そのような方法の有効性が比較的不足していることを示す最近の理論的分析のために衰えているようです。[43]

フレーム間コーディング

フレーム間コーディングは、ビデオの各フレームを前のフレームと比較することによって機能します。ビデオシーケンスの個々のフレームは、あるフレームから次のフレームへと比較され、ビデオ圧縮コーデック違いのみを送信します参照フレームに。フレームに何も移動していない領域が含まれている場合、システムは、前のフレームのその部分を次のフレームにコピーする短いコマンドを発行するだけです。フレームのセクションが単純な方法で移動する場合、コンプレッサーは、コピーをシフト、回転、明るく、または暗くするようにデコンプレッサーに指示する(少し長い)コマンドを発行できます。この長いコマンドは、フレーム内圧縮よりもはるかに短いままです。通常、エンコーダは、残りのより微妙な違いを説明する残差信号も参照画像に送信します。エントロピーコーディングを使用すると、これらの残差信号は完全な信号よりもコンパクトに表現されます。動きの多いビデオの領域では、変化するピクセル数の増加に対応するために、圧縮でより多くのデータをエンコードする必要があります。一般的に爆発、炎、動物の群れ、および一部のパンショットでは、高周波の詳細が品質の低下または増加につながります可変ビットレート

ハイブリッドブロックベースの変換フォーマット

典型的なビデオエンコーダの処理段階

今日、ほとんどすべての一般的に使用されているビデオ圧縮方法(たとえば、ITU-TまたはISOによって承認された標準の方法)は、1988年にITU-Tによって標準化されたH.261にまでさかのぼる同じ基本アーキテクチャを共有していますそれらは主に、隣接するピクセルの長方形ブロックに適用されるDCT、動きベクトルを使用した時間予測、および最近ではループ内フィルタリングステップにも依存しています。

In the prediction stage, various deduplication and difference-coding techniques are applied that help decorrelate data and describe new data based on already transmitted data.

Then rectangular blocks of (residue) pixel data are transformed to the frequency domain to ease targeting irrelevant information in quantization and for some spatial redundancy reduction. The discrete cosine transform (DCT) that is widely used in this regard was introduced by N. Ahmed, T. Natarajan and K. R. Rao in 1974.[14]

In the main lossy processing stage that data gets quantized in order to reduce information that is irrelevant to human visual perception.

最終段階では、統計的冗長性は、何らかの形式の算術符号化を適用することが多いエントロピーコーダーによって大幅に排除されます。

追加のループ内フィルタリングステージでは、再構成された画像信号にさまざまなフィルタを適用できます。これらのフィルターをエンコードループ内でも計算することにより、予測プロセスで使用される前に参照資料に適用でき、元の信号を使用してガイドできるため、圧縮に役立ちます。最も一般的な例は、変換ブロック境界での量子化の不連続性からブロックアーティファクトをぼかすブロック解除フィルターです。

歴史

In 1967, A.H. Robinson and C. Cherry proposed a run-length encoding bandwidth compression scheme for the transmission of analog television signals.[62] Discrete cosine transform (DCT), which is fundamental to modern video compression,[63] was introduced by Nasir Ahmed, T. Natarajan and K. R. Rao in 1974.[14][64]

1988年にデビューしたH.261は、ビデオ圧縮技術の一般的な基本アーキテクチャを商業的に導入しました。[65]これは、DCT圧縮に基づく最初のビデオコーディング形式であり、その後、その後のすべての主要なビデオコーディング形式の標準となりました。[63] H.261は、日立PictureTelNTTBT東芝など、多くの企業によって開発されました[66]

The most popular video coding standards used for codecs have been the MPEG standards. MPEG-1 was developed by the Motion Picture Experts Group (MPEG) in 1991, and it was designed to compress VHS-quality video. It was succeeded in 1994 by MPEG-2/H.262,[65] which was developed by a number of companies, primarily Sony, Thomson and Mitsubishi Electric.[67] MPEG-2 became the standard video format for DVD and SD digital television.[65]1999年には、MPEG-4 / H.263が続きました。これは、ビデオ圧縮技術の大きな飛躍でした。[65]これは、主に三菱電機、日立パナソニックなどの多くの企業によって開発されました[68]

The most widely used video coding format is H.264/MPEG-4 AVC. It was developed in 2003 by a number of organizations, primarily Panasonic, Godo Kaisha IP Bridge and LG Electronics.[69] AVC commercially introduced the modern context-adaptive binary arithmetic coding (CABAC) and context-adaptive variable-length coding (CAVLC) algorithms. AVC is the main video encoding standard for Blu-ray Discs, and is widely used by video sharing websites and streaming internet services such as YouTube, Netflix, Vimeo, and iTunes Store, web software such as Adobe FlashPlayerMicrosoftSilverlight、および地上波テレビと衛星テレビを介したさまざまなHDTV放送。

遺伝学

遺伝学圧縮アルゴリズムは、従来の圧縮アルゴリズムと特定のデータタイプに適合した遺伝的アルゴリズムの両方を使用してデータ(通常はヌクレオチドのシーケンス)を圧縮する最新世代のロスレスアルゴリズムです。2012年、ジョンズホプキンス大学の科学者チームは、圧縮にリファレンスゲノムを使用しない遺伝子圧縮アルゴリズムを公開しました。HAPZIPPERはHapMap用に調整されましたデータを収集し、20倍以上の圧縮(ファイルサイズの95%削減)を実現し、主要な汎用圧縮ユーティリティよりも2倍から4倍優れた圧縮をはるかに高速に提供します。このために、Chanda、Elhaik、およびBaderはMAFベースのエンコーディング(MAFE)を導入しました。これは、マイナーアレル頻度でSNPを並べ替えることでデータセットの不均一性を減らし、データセットを均質化します。[70] 2009年および2013年の他のアルゴリズム(DNAZipおよびGenomeZip)の圧縮率は最大1200倍であり、60億塩基対の二倍体ヒトゲノムを2.5メガバイトで保存できます(リファレンスゲノムと比較して、または多くのゲノムで平均)。[71] [72]遺伝学/ゲノミクスデータコンプレッサーのベンチマークについては、[73]を参照してください

Outlookと現在未使用の可能性

世界のストレージデバイスに保存されているデータの総量は、既存の圧縮アルゴリズムを使用して、残りの平均係数4.5:1でさらに圧縮できると推定されています。[74]情報を保存する世界の総合的な技術的能力は、2007年に1,300エクサバイトのハードウェア桁を提供すると推定されていますが、対応するコンテンツが最適に圧縮されている場合、これは295エクサバイトのシャノン情報にすぎません[75]

も参照してください

参考文献

  1. ^ ウェイド、グラハム(1994)。信号のコーディングと処理(2版)。ケンブリッジ大学出版局。NS。34. ISBN 978-0-521-42336-62011年12月22日取得ソースコーディングの幅広い目的は、PCMソースの「非効率的な」冗長性を活用または削除し、それによって全体的なソースレートRの削減を実現することです。
  2. ^ a b マハディ、OA; マサチューセッツ州モハメッド; モハメド、AJ(2012年11月)。「ハイブリッド技術を介してオーディオ圧縮をテキストコーディングに変換する新しいアプローチの実装」(PDF)コンピュータサイエンス問題の国際ジャーナル9(6、No。3):53–59 取得した6年3月2013
  3. ^ Pujar、JH; Kadlaskar、LM(2010年5月)。「ハフマン符号化技術を使用した画像圧縮および解凍の新しいロスレス方法」(PDF)Journal of Theoretical and Applied InformationTechnology15(1):18–23。
  4. ^ Salomon、David(2008)。データ圧縮の簡潔な紹介ベルリン:スプリンガー。ISBN 9781848000728
  5. ^ タンク、MK(2011)。「VHDLを使用した可逆圧縮のためのLempel-ZIVアルゴリズムの実装」。VHDLを使用したロスレス圧縮のためのLimpel-Zivアルゴリズムの実装Thinkquest 2010:コンピューティングテクノロジーの輪郭に関する最初の国際会議の議事録ベルリン:スプリンガー。pp。275–283。土井10.1007 / 978-81-8489-989-4_51ISBN 978-81-8489-988-7
  6. ^ Navqi、Saud; Naqvi、R。; リアズ、RA; Siddiqui、F。(2011年4月)。「高帯域幅アプリケーション向けの最適化されたRTL設計とLZWアルゴリズムの実装」(PDF)電気レビュー2011(4):279–285。
  7. ^ スティーブン、ウルフラム(2002)。新しい種類の科学イリノイ州シャンペーン。NS。1069. ISBN 1-57955-008-8
  8. ^ a b Mahmud、Salauddin(2012年3月)。「一般データの改善されたデータ圧縮方法」(PDF)科学技術研究の国際ジャーナル3(3):2 取得した6年3月2013
  9. ^ a b レーン、トム。「JPEG画像圧縮に関するFAQ、パート1」インターネットFAQアーカイブ独立したJPEGグループ取得した6年3月2013
  10. ^ GJサリバン; J.-R. オーム; W.-J. ハン; T.ウィーガンド(2012年12月)。「高効率ビデオコーディング(HEVC)規格の概要」ビデオ技術のための回路とシステムに関するIEEEトランザクションIEEE22(12):1649–1668。土井10.1109 /TCSVT.2012.2221191
  11. ^ Wolfram、Stephen(2002)。新しい種類の科学Wolfram Media、Inc.p。 1069ISBN 978-1-57955-008-0
  12. ^ アーキャンジェル、コーリー。「圧縮について」(PDF)取得した6年3月2013
  13. ^ a b Ahmed、Nasir(1991年1月)。「離散コサイン変換をどうやって思いついたのか」デジタル信号処理1(1):4–5。土井10.1016 / 1051-2004(91)90086-Z
  14. ^ a b c d Nasir Ahmed ; T.ナタラジャン; カミセティ・ラマモハン・ラオ(1974年1月)。「離散コサイン変換」(PDF)コンピューターでのIEEEトランザクションC-23(1):90–93。土井10.1109 /TC.1974.223784
  15. ^ CCITT Study Group VIII und die Joint Photographic Experts Group(JPEG)von ISO / IEC Joint Technical Committee 1 / Subcommittee 29 / Working Group 10(1993)、 "Annex D – Arithmeticcoding"、Recommendation T.81:Digital Compression and Coding連続階調の静止画像-要件とガイドライン(PDF) 頁54頁以降、取得した2009年11月7日に
  16. ^ マラク、ラズロ。「画像圧縮について」(PDF)マルヌラヴァレ大学。2015年5月28日にオリジナル(PDF)からアーカイブされまし取得した6年3月2013
  17. ^ マホニー、マット。「大きなテキスト圧縮ベンチマークの理論的根拠」フロリダ工科大学検索された5年3月2013
  18. ^ Shmilovici A。;カヒリY .;ベンガルI .;ハウザーS.(2009)。「ユニバーサルデータ圧縮アルゴリズムによる日中の外国為替市場の効率の測定」(PDF)計算経済学33(2):131–154。CiteSeerX 10.1.1.627.3751土井10.1007 / s10614-008-9153-3S2CID 17234503   
  19. ^ I.ベンガル(2008)。「ロバストな設計を分析するためのデータ圧縮手段の使用について」(PDF)信頼性に関するIEEEトランザクション54(3):381–388。土井10.1109 /TR.2005.853280S2CID 9376086  
  20. ^ D。スカリー; カーラE.ブロドリー(2006)。「圧縮と機械学習:特徴空間ベクトルに関する新しい視点」。データ圧縮会議、2006:332 DOI10.1109 / DCC.2006.13ISBN 0-7695-2545-8S2CID  12311412
  21. ^ コーン、D。; etal。「RFC3284:VCDIFF Generic Differencing andCompressionDataFormat」インターネットエンジニアリングタスクフォース検索された5年3月2013
  22. ^ コーン、DG; Vo、KP(1995)。B.クリシュナムルシー(編)。Vdelta:差分と圧縮実用的な再利用可能なUnixソフトウェア。ニューヨーク:John Wiley&Sons、Inc。
  23. ^ Claude Elwood Shannon (1948). Alcatel-Lucent (ed.). "A Mathematical Theory of Communication" (PDF). Bell System Technical Journal. 27 (3–4): 379–423, 623–656. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:11858/00-001M-0000-002C-4314-2. Retrieved 2019-04-21.
  24. ^ David Albert Huffman (September 1952), "A method for the construction of minimum-redundancy codes" (PDF), Proceedings of the IRE, 40 (9), pp. 1098–1101, doi:10.1109/JRPROC.1952.273898
  25. ^ プラット、WK; ケイン、J。; アンドリュース、HC(1969)。「アダマール変換画像コーディング」。IEEEの議事録57:58–68。土井10.1109 /PROC.1969.6869
  26. ^ 「T.81–連続トーン静止画像のデジタル圧縮とコーディング–要件とガイドライン」(PDF)CCITT1992年9月2019年7月12日取得
  27. ^ 「JPEG画像フォーマットの説明」BT.comBTグループ2018年5月31日2019年8月5日取得
  28. ^ Baraniuk、Chris(2015年10月15日)。「コピー防止はJPEGに来る可能性があります」BBCニュースBBC 2019年9月13日取得
  29. ^ 「JPEGとは何ですか?あなたが毎日見る目に見えないオブジェクト」大西洋2013年9月24日2019年9月13日取得
  30. ^ 「GIF論争:ソフトウェア開発者の視点」検索された5月26 2015
  31. ^ L.ピータードイチュ(1996年5月)。DEFLATE圧縮データフォーマット仕様バージョン1.3IETFNS。1秒。概要。土井10.17487 / RFC1951RFC 1951 2014年4月23取得
  32. ^ ホフマン、ロイ(2012)。デジタルシステムにおけるデータ圧縮シュプリンガーサイエンス&ビジネスメディアNS。124. ISBN 9781461560319基本的に、ウェーブレットコーディングは、DCTベースの変換コーディングの変形であり、その制限の一部を軽減または排除します。(...)もう1つの利点は、JPEGやその他のブロックベースのDCT手法のように、8×8ブロックのピクセルを処理するのではなく、ウェーブレットコーディングで画像全体を同時に圧縮できることです。
  33. ^ トーブマン、デビッド; マルセリン、マイケル(2012)。JPEG2000画像圧縮の基礎、標準および実践:画像圧縮の基礎、標準および実践シュプリンガーサイエンス&ビジネスメディアISBN 9781461507994
  34. ^ Unser、M。; Blu、T。(2003)「JPEG2000ウェーブレットフィルターの数学的特性」画像処理に関するIEEEトランザクション12(9):1080-1090。Bibcode2003ITIP ... 12.1080U土井10.1109 /TIP.2003.812329PMID 18237979S2CID 2765169  
  35. ^ サリバン、ゲイリー(2003年12月8〜12日)。「時間サブバンドビデオコーディングの一般的な特性と設計上の考慮事項」ITU-Tビデオコーディングエキスパートグループ2019年9月13日取得
  36. ^ Bovik、Alan C.(2009)。ビデオ処理の基本ガイドアカデミックプレスNS。355. ISBN 9780080922508
  37. ^ Swartz、Charles S.(2005)。デジタルシネマを理解する:プロフェッショナルハンドブックテイラーアンドフランシスNS。147. ISBN 9780240806174
  38. ^ カニンガム、スチュアート; マクレガー、イアン(2019)。「AAC、MP3、および非圧縮PCMと比較したACERコーデックで圧縮された音楽の主観的評価」デジタルマルチメディア放送の国際ジャーナル2019:1〜16。土井10.1155 / 2019/8265301
  39. ^ オリンパスWS-120デジタルスピーチレコーダーは、そのマニュアルによると、500MBのフラッシュメモリに.WMA形式で約178時間のスピーチ品質のオーディオを保存できます。
  40. ^ コールソン、ジョシュ。「FLACの比較」2020823日取得
  41. ^ 「フォーマットの概要」2020823日取得
  42. ^ a b Jaiswal、RC(2009)。オーディオビデオエンジニアリングマハラシュトラ州プネ:ニラリプラカシャン。NS。3.41。ISBN 9788190639675
  43. ^ a b c Faxin Yu; ハオルオ; Zheming Lu(2010)。3次元モデルの分析と処理ベルリン:スプリンガー。NS。 47ISBN 9783642126512
  44. ^ 米国特許2605361C。ChapinCutler、「通信信号の微分量子化」、1952-07-29発行 
  45. ^ Cummiskey、P。; ジャヤント、NS; フラナガン、JL(1973)。「音声の差分PCMコーディングにおける適応量子化」。ベルシステムテクニカルジャーナル52(7):1105–1118。土井10.1002 /j.1538-7305.1973.tb02007.x
  46. ^ Cummiskey、P。; ジャヤント、ニキルS。; フラナガン、JL(1973)。「音声の差分PCMコーディングにおける適応量子化」。ベルシステムテクニカルジャーナル52(7):1105–1118。土井10.1002 /j.1538-7305.1973.tb02007.xISSN 0005から8580まで 
  47. ^ a b c Schroeder、Manfred R.(2014)。「ベル研究所」音響、情報、およびコミュニケーション:マンフレートR.シュローダーに敬意を表して記念巻スプリンガー。NS。388. ISBN 9783319056609
  48. ^ グレイ、ロバートM.(2010)。「パケットネットワークでのリアルタイムデジタル音声の歴史:線形予測符号化とインターネットプロトコルのパートII」(PDF)見つかった。トレンドシグナルプロセス3(4):203–303。土井10.1561 / 200000093ISSN 1932から8346まで  
  49. ^ Guckert、ジョン(2012年春)。「MP3オーディオ圧縮でのFFTとMDCTの使用」(PDF)ユタ大学2019年7月14日取得
  50. ^ Luo、Fa-Long(2008)。モバイルマルチメディア放送規格:技術と実践シュプリンガーサイエンス&ビジネスメディアNS。590. ISBN 9780387782638
  51. ^ Britanak、V。(2011)。「ドルビーデジタル(プラス)AC-3オーディオコーディング標準におけるフィルターバンクのプロパティ、関係、および簡略化された実装について」。音声、音声、および言語処理に関するIEEEトランザクション19(5):1231–1241。土井10.1109 /TASL.2010.2087755S2CID 897622 
  52. ^ Brandenburg、Karlheinz(1999)。「MP3とAACの説明」(PDF)2017-02-13のオリジナルからアーカイブ(PDF)
  53. ^ Princen、J。; ジョンソン、A。; ブラッドリー、A。(1987)。「時間領域エイリアシングキャンセルに基づくフィルターバンク設計を使用したサブバンド/変換コーディング」。ICASSP'87。音響、音声、および信号処理に関するIEEE国際会議12pp。2161–2164。土井10.1109 /ICASSP.1987.1169405S2CID 58446992 
  54. ^ Princen、J。; ブラッドリー、A。(1986)。「時間領域エイリアシングキャンセルに基づく分析/合成フィルターバンクの設計」。音響、音声、および信号処理に関するIEEEトランザクション34(5):1153–1161。土井10.1109 /TASSP.1986.1164954
  55. ^ 「放送工学へのSolidyneの貢献のいくつかの要約」Solidyneの簡単な歴史ブエノスアイレス:ソリダイン。2013年3月8日にオリジナルからアーカイブされまし取得した6年3月2013
  56. ^ Zwicker、Eberhard; etal。(1967)。コミュニケーションレシーバーとしての耳ニューヨーク州メルビル:アメリカ音響学会。2000-09-14にオリジナルからアーカイブされまし2011年1111取得
  57. ^ 「ファイル圧縮の可能性」4つの異なる方法でファイルを圧縮するための簡単なガイド
  58. ^ 「ビデオコーディング」CSIPWebサイトジョージア工科大学信号情報処理センター。2013年5月23日にオリジナルからアーカイブされまし取得した6年3月2013
  59. ^ Dmitriy Vatolin; etal。(グラフィックス&メディアラボビデオグループ)(2007年3月)。ロスレスビデオコーデックの比較 '2007 (PDF)(レポート)。モスクワ州立大学。
  60. ^ 陳、傑; Koc、Ut-Va; 劉、KJレイ(2001)。デジタルビデオコーディングシステムの設計:完全な圧縮ドメインアプローチCRCプレスNS。71. ISBN 9780203904183
  61. ^ Li、Jian Ping(2006)。Wavelet Active Media Technology and Information Processingに関する2006年国際コンピュータ会議の議事録:中国、重慶、2006年8月29〜31日世界科学NS。847. ISBN 9789812709998
  62. ^ ロビンソン、AH; チェリー、C。(1967)。「プロトタイプのテレビ帯域幅圧縮方式の結果」。IEEEの議事録IEEE55(3):356–364。土井10.1109 /PROC.1967.5493
  63. ^ a b Ghanbari、Mohammed(2003)。標準コーデック:高度なビデオコーディングへの画像圧縮工学技術研究所pp。1–2。ISBN 9780852967102
  64. ^ 読者、クリフ(2016-08-31)。「ロイヤリティフリーのビデオコーディングの特許ランドスケープ」テッシャーでは、アンドリューG(編)。デジタル画像処理XXXIXのアプリケーション9971カリフォルニア州サンディエゴ:Society of Photo-Optical InstrumentationEngineers。pp.99711B。Bibcode2016SPIE.9971E..1BR土井10.1117 /12.2239493 講義録音、3:05:10から。
  65. ^ a b c d 「ビデオファイル形式の歴史インフォグラフィック—RealPlayer」2012年4月22日。
  66. ^ 「H261-07として登録された特許ステートメント宣言」ITU 2019年7月11日取得
  67. ^ 「MPEG-2特許リスト」(PDF)MPEGLA2019年7月7日取得
  68. ^ 「MPEG-4ビジュアル-特許リスト」(PDF)MPEGLA2019年7月6日取得
  69. ^ 「AVC / H.264–特許リスト」(PDF)MPEGLA 2019年7月6日取得
  70. ^ Chanda P、Bader JS、Elhaik E(2012年7月27日)。「HapZipper:HapMapの母集団の共有が簡単になりました」核酸研究40(20):e159。土井10.1093 / nar / gks709PMC 3488212PMID 22844100  
  71. ^ Christley S、Lu Y、Li C、Xie X(2009年1月15日)。「電子メールの添付ファイルとしてのヒトゲノム」バイオインフォマティクス25(2):274–5。土井10.1093 / bioinformatics / btn582PMID 18996942 
  72. ^ Pavlichin DS、Weissman T、Yona G(2013年9月)。「ヒトゲノムは再び収縮する」バイオインフォマティクス29(17):2199–202。土井10.1093 / bioinformatics / btt362PMID 23793748 
  73. ^ Hosseini、Morteza; プラタス、ディオゴ; ピニョ、アルマンド(2016)。「生物学的配列のためのデータ圧縮方法に関する調査」情報7(4):56 DOI10.3390 / info7040056
  74. ^ 「論理合成によるデータ圧縮」(PDF)
  75. ^ ヒルベルト、マーティン; ロペス、プリシラ(2011年4月1日)。「情報を保存、通信、および計算するための世界の技術的能力」。科学332(6025):60–65。Bibcode2011Sci ... 332 ... 60H土井10.1126 /science.1200970PMID 21310967S2CID 206531385  

外部リンク