การบีบอัดข้อมูล

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

ในทฤษฎีสารสนเทศการบีบอัดข้อมูลการเข้ารหัสต้นทาง[1]หรือการลดอัตราบิตเป็นกระบวนการเข้ารหัสข้อมูลโดยใช้บิต น้อย กว่าการแสดงต้นฉบับ [2]การบีบอัดใด ๆ โดยเฉพาะมีทั้งแบบสูญเสียหรือแบบไม่สูญเสีย การบีบอัดแบบไม่สูญเสียข้อมูลช่วยลดบิตด้วยการระบุและขจัดความซ้ำซ้อนทางสถิติ ข้อมูลจะไม่สูญหายไปในการบีบอัดแบบไม่สูญเสียข้อมูล การบีบอัดแบบ Lossy ช่วยลดบิตโดยการลบข้อมูลที่ไม่จำเป็นหรือสำคัญน้อยกว่า [3]โดยปกติ อุปกรณ์ที่ทำการบีบอัดข้อมูลจะเรียกว่าตัวเข้ารหัส และตัวที่ทำการย้อนกลับของกระบวนการ (คลายการบีบอัด) เป็นตัวถอดรหัส

กระบวนการลดขนาดของไฟล์ข้อมูลมักเรียกว่าการบีบอัดข้อมูล ในบริบทของการส่งข้อมูลเรียกว่าซอร์สโค้ด; การเข้ารหัสทำที่แหล่งที่มาของข้อมูลก่อนที่จะจัดเก็บหรือส่ง [4]การเข้ารหัสแหล่งที่มาไม่ควรสับสนกับการเข้ารหัสช่องสัญญาณสำหรับการตรวจจับและแก้ไขข้อผิดพลาด หรือการเข้ารหัสสายวิธีการในการแมปข้อมูลไปยังสัญญาณ

การบีบอัดมีประโยชน์เนื่องจากช่วยลดทรัพยากรที่จำเป็นในการจัดเก็บและส่งข้อมูล ทรัพยากรการคำนวณถูกใช้ในกระบวนการบีบอัดและขยายขนาด การบีบอัดข้อมูลอยู่ภายใต้การแลกเปลี่ยนความซับซ้อนของกาล-อวกาศ ตัวอย่างเช่นรูปแบบการบีบอัดสำหรับวิดีโออาจต้องใช้ฮาร์ดแวร์ ราคาแพง สำหรับวิดีโอที่จะคลายการบีบอัดได้เร็วพอที่จะดูได้ในขณะที่กำลังคลายการบีบอัด และตัวเลือกในการคลายการบีบอัดวิดีโอแบบเต็มก่อนรับชม อาจไม่สะดวกหรือต้องใช้พื้นที่จัดเก็บเพิ่มเติม การออกแบบรูปแบบการบีบอัดข้อมูลเกี่ยวข้องกับการประนีประนอมระหว่างปัจจัยต่างๆ รวมถึงระดับของการบีบอัด จำนวนการบิดเบือนที่เกิดขึ้น (เมื่อใช้การบีบอัดข้อมูลแบบสูญเสียข้อมูล) และทรัพยากรการคำนวณที่จำเป็นในการบีบอัดและขยายขนาดข้อมูล[5]

ไม่มีการสูญเสีย

อัลกอริธึมการบีบอัด ข้อมูลแบบไม่สูญเสีย มักจะใช้ประโยชน์จากความซ้ำซ้อนทางสถิติเพื่อแสดงข้อมูลโดยไม่สูญเสียข้อมูล ใดๆ เพื่อให้กระบวนการย้อนกลับได้ การบีบอัดแบบไม่สูญเสียข้อมูลเป็นไปได้เนื่องจากข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่มีความซ้ำซ้อนทางสถิติ ตัวอย่างเช่น รูปภาพอาจมีพื้นที่สีที่ไม่เปลี่ยนแปลงในหลายพิกเซล แทนที่จะเข้ารหัส "พิกเซลสีแดง พิกเซลสีแดง ..." ข้อมูลอาจถูกเข้ารหัสเป็น "279 พิกเซลสีแดง" นี่เป็นตัวอย่างพื้นฐานของ การเข้ารหัส ความยาวรัน มีแผนการมากมายที่จะลดขนาดไฟล์โดยกำจัดความซ้ำซ้อน

วิธี การ บีบอัด Lempel–Ziv (LZ) เป็นหนึ่งในอัลกอริทึมที่ได้รับความนิยมมากที่สุดสำหรับการจัดเก็บแบบไม่สูญเสียข้อมูล [6] DEFLATEเป็นรูปแบบหนึ่งของ LZ ที่ปรับให้เหมาะสมสำหรับความเร็วของการบีบอัดและอัตราส่วนการอัด แต่การบีบอัดอาจช้า ในช่วงกลางทศวรรษ 1980 ตามผลงานของTerry Welch อัลกอริธึ มLempel–Ziv–Welch (LZW) ได้กลายเป็นวิธีการทางเลือกสำหรับระบบบีบอัดเอนกประสงค์ส่วนใหญ่อย่างรวดเร็ว LZW ใช้ใน อิมเมจ GIFโปรแกรม เช่น PKZIP และอุปกรณ์ฮาร์ดแวร์ เช่น โมเด็ม [7]เมธอด LZ ใช้โมเดลการบีบอัดแบบตารางโดยแทนที่รายการตารางสำหรับสตริงข้อมูลที่ซ้ำกัน สำหรับวิธี LZ ส่วนใหญ่ ตารางนี้ถูกสร้างขึ้นแบบไดนามิกจากข้อมูลก่อนหน้าในอินพุต ตัวตาราง เองมักจะเข้ารหัส Huffman รหัสที่ใช้ไวยากรณ์ในลักษณะนี้สามารถบีบอัดข้อมูลที่ป้อนซ้ำได้อย่างมีประสิทธิภาพสูงสุด เช่น การรวบรวมข้อมูลทางชีววิทยาของสายพันธุ์เดียวกันหรือที่เกี่ยวข้องอย่างใกล้ชิด การรวบรวมเอกสารเวอร์ชันขนาดใหญ่ การเก็บถาวรทางอินเทอร์เน็ต ฯลฯ งานพื้นฐานของรหัสตามหลักไวยากรณ์คือการสร้าง ไวยากรณ์ที่ไม่มีบริบทมาจากสตริงเดียว อัลกอริธึมการบีบอัดไวยากรณ์เชิงปฏิบัติอื่นๆ ได้แก่Sequiturและ Re-Pair

คอมเพรสเซอร์ Lossless สมัยใหม่ที่แข็งแกร่งที่สุดใช้ แบบจำลอง ความน่าจะเป็น เช่นการคาดคะเนโดยการจับคู่บางส่วน การแปลง Burrows–Wheelerยังสามารถมองว่าเป็นรูปแบบทางอ้อมของการสร้างแบบจำลองทางสถิติ [8]ในการปรับแต่งเพิ่มเติมของการใช้การสร้างแบบจำลองความน่าจะ เป็นโดยตรง การ ประมาณทางสถิติสามารถใช้ร่วมกับอัลกอริธึมที่เรียกว่ารหัสเลขคณิต การเข้ารหัสเลขคณิตเป็นเทคนิคการเข้ารหัสที่ทันสมัยกว่าซึ่งใช้การคำนวณทางคณิตศาสตร์ของเครื่องที่มีสถานะ จำกัดเพื่อสร้างสตริงของบิตที่เข้ารหัสจากชุดสัญลักษณ์ข้อมูลอินพุต มันสามารถบรรลุการบีบอัดที่เหนือกว่าเมื่อเทียบกับเทคนิคอื่น ๆ เช่นอัลกอริธึม Huffman ที่รู้จักกันดี ใช้สถานะหน่วยความจำภายในเพื่อหลีกเลี่ยงความจำเป็นในการทำแผนที่แบบหนึ่งต่อหนึ่งของสัญลักษณ์อินพุตแต่ละรายการเพื่อการแสดงที่แตกต่างกันซึ่งใช้จำนวนบิตเป็นจำนวนเต็ม และจะล้างหน่วยความจำภายในออกหลังจากเข้ารหัสสตริงของสัญลักษณ์ข้อมูลทั้งหมดเท่านั้น . การเขียนโค้ดเลขคณิตใช้ได้ดีเป็นพิเศษกับงานบีบอัดข้อมูลแบบปรับตัวได้ โดยที่สถิติแตกต่างกันและขึ้นอยู่กับบริบท เนื่องจากสามารถใช้ร่วมกับแบบจำลองที่ปรับเปลี่ยนได้ของการแจกแจงความน่าจะเป็นของข้อมูลที่ป้อนเข้า ตัวอย่างแรกๆ ของการใช้รหัสเลขคณิตอยู่ในคุณสมบัติทางเลือก (แต่ไม่ได้ใช้กันอย่างแพร่หลาย) ของJPEGมาตรฐานการเข้ารหัสภาพ [9]มันถูกนำไปใช้ในการออกแบบอื่นๆ มากมายรวมถึงH.263 , H.264/MPEG-4 AVCและHEVCสำหรับการเข้ารหัสวิดีโอ [10]

โดยทั่วไป ซอฟต์แวร์เก็บถาวรมีความสามารถในการปรับ "ขนาดพจนานุกรม" ซึ่งขนาดที่ใหญ่ขึ้นต้องการหน่วยความจำเข้าถึงโดยสุ่ม มากขึ้น ระหว่างการบีบอัดและคลายการบีบอัด แต่จะบีบอัดได้แรงกว่า โดยเฉพาะอย่างยิ่งในรูปแบบการทำซ้ำในเนื้อหาของไฟล์ [11] [12]

สูญเสีย

ในช่วงปลายทศวรรษ 1980 ภาพดิจิทัลกลายเป็นเรื่องธรรมดามากขึ้นและมาตรฐานสำหรับการบีบอัดภาพ แบบไม่สูญเสียข้อมูล ก็เกิดขึ้น ในช่วงต้นทศวรรษ 1990 วิธีการบีบอัดแบบสูญเสียเริ่มมีการใช้กันอย่างแพร่หลาย [13]ในรูปแบบเหล่านี้ การสูญเสียข้อมูลบางส่วนเป็นที่ยอมรับเนื่องจากการทิ้งรายละเอียดที่ไม่จำเป็นสามารถประหยัดพื้นที่จัดเก็บได้ มีการแลกเปลี่ยนระหว่างการรักษาข้อมูลและการลดขนาด ที่สอดคล้องกัน แผนการบีบอัดข้อมูลแบบสูญเสียข้อมูลได้รับการออกแบบโดยการวิจัยว่าผู้คนรับรู้ข้อมูลที่เป็นปัญหาอย่างไร ตัวอย่างเช่น ดวงตาของมนุษย์มีความไวต่อการเปลี่ยนแปลงของความส่องสว่าง ที่ละเอียดอ่อน มากกว่าการแปรผันของสี การบีบอัดภาพ JPEGทำงานบางส่วนโดยการปัดเศษข้อมูลที่ไม่จำเป็นออก [14] รูปแบบการบีบอัดที่เป็นที่นิยมจำนวนหนึ่งใช้ประโยชน์จากความแตกต่างของการรับรู้เหล่านี้ ซึ่งรวมถึงจิต อะคูสติก สำหรับเสียง และจิตวิชวลสำหรับรูปภาพและวิดีโอ

รูปแบบส่วนใหญ่ของการบีบอัดแบบสูญเสียข้อมูลจะขึ้นอยู่กับการเข้ารหัสการแปลงโดยเฉพาะอย่างยิ่งการแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) มันถูกเสนอครั้งแรกในปี 1972 โดยNasir Ahmedซึ่งต่อมาได้พัฒนาอัลกอริธึมการทำงานกับ T. Natarajan และKR Raoในปี 1973 ก่อนที่จะเปิดตัวในเดือนมกราคม 1974 [15] [16] DCT เป็นวิธีการบีบอัดแบบสูญเสียที่ใช้กันอย่างแพร่หลายมากที่สุด และ ใช้ในรูปแบบมัลติมีเดียสำหรับรูปภาพ (เช่นJPEGและHEIF ) วิดีโอ[17] (เช่นMPEG , AVCและHEVC ) และเสียง (เช่นMP3 ,AACและVorbis ).

การ บีบอัดภาพแบบ Lossy ใช้ในกล้องดิจิตอลเพื่อเพิ่มความจุในการจัดเก็บ ในทำนองเดียวกันดีวีดีลูเรย์และวิดีโอสตรีมมิ่ง ใช้ รูปแบบการเข้ารหัสวิดีโอ ที่ สูญเสียไป การบีบอัดแบบ Lossy ถูกใช้อย่างกว้างขวางในวิดีโอ

ในการบีบอัดเสียงที่สูญเสียไป วิธีการของจิตอะคูสติกใช้เพื่อลบส่วนประกอบที่ไม่ได้ยิน (หรือได้ยินน้อยกว่า) ของสัญญาณเสียง การบีบอัดคำพูดของมนุษย์มักใช้เทคนิคเฉพาะทางมากขึ้น การเข้ารหัสคำพูดมีความโดดเด่นเป็นวินัยที่แยกจากการบีบอัดเสียงเอนกประสงค์ การเข้ารหัสคำพูดใช้ในโทรศัพท์ทางอินเทอร์เน็ตตัวอย่างเช่น การบีบอัดเสียงจะใช้สำหรับการริปซีดีและถอดรหัสโดยเครื่องเล่นเสียง [8]

การบีบอัดที่สูญเสียอาจทำให้สูญเสียการสร้าง

ทฤษฎี

พื้นฐานทางทฤษฎีสำหรับการบีบอัดนั้นจัดทำโดยทฤษฎีสารสนเทศและโดยเฉพาะอย่างยิ่งทฤษฎีข้อมูลอัลกอริธึมสำหรับการบีบอัดแบบไม่สูญเสียข้อมูลและทฤษฎีอัตรา-บิดเบือนสำหรับการบีบอัดแบบสูญเสียข้อมูล พื้นที่ของการศึกษาเหล่านี้ถูกสร้างขึ้นโดยพื้นฐานโดยClaude Shannonผู้ตีพิมพ์เอกสารพื้นฐานในหัวข้อนี้ในช่วงปลายทศวรรษที่ 1940 และต้นทศวรรษ 1950 หัวข้ออื่นๆ ที่เกี่ยวข้องกับการบีบอัด ได้แก่ทฤษฎีการเข้ารหัสและการอนุมานทางสถิติ [18]

การเรียนรู้ของเครื่อง

มีความเชื่อมโยงอย่างใกล้ชิดระหว่างการเรียนรู้ของเครื่องและการบีบอัดข้อมูล ระบบที่คาดการณ์ความน่าจะเป็นหลังของลำดับโดยให้ประวัติทั้งหมด สามารถใช้สำหรับการบีบอัดข้อมูลที่เหมาะสมที่สุด (โดยใช้การเข้ารหัสเลขคณิตในการกระจายเอาต์พุต) สามารถใช้คอมเพรสเซอร์ที่เหมาะสมที่สุดในการทำนาย (โดยการค้นหาสัญลักษณ์ที่บีบอัดได้ดีที่สุดจากประวัติก่อนหน้า) ความเท่าเทียมกันนี้ถูกใช้เป็นเหตุผลสำหรับการใช้การบีบอัดข้อมูลเป็นเกณฑ์มาตรฐานสำหรับ "ข่าวกรองทั่วไป" [19] [20] [21]

มุมมองทางเลือกสามารถแสดงอัลกอริธึมการบีบอัดโดยปริยาย จับคู่สตริงเข้ากับเวกเตอร์พื้นที่คุณลักษณะ โดยนัย และความคล้ายคลึงกันตามการบีบอัดจะวัดความคล้ายคลึงกันภายในช่องว่างของคุณลักษณะเหล่านี้ สำหรับคอมเพรสเซอร์ C(.) แต่ละตัว เรากำหนดเวคเตอร์สเปซที่เกี่ยวข้อง ℵ เพื่อให้ C(.) แมปสตริงอินพุต x ซึ่งสอดคล้องกับบรรทัดฐานเวกเตอร์ ||~x|| การตรวจสอบอย่างละเอียดของพื้นที่คุณลักษณะที่อยู่ภายใต้อัลกอริธึมการบีบอัดทั้งหมดจะถูกตัดด้วยช่องว่าง แทน คุณลักษณะเวกเตอร์เลือกที่จะตรวจสอบวิธีการบีบอัดแบบไม่สูญเสียข้อมูลตัวแทนสามวิธี ได้แก่ LZW, LZ77 และ PPM [22]

ตาม ทฤษฎี AIXIการเชื่อมต่อที่อธิบายโดยตรงมากขึ้นในHutter Prizeการบีบอัด x ที่ดีที่สุดคือซอฟต์แวร์ที่เล็กที่สุดที่สร้าง x ตัวอย่างเช่น ในรูปแบบดังกล่าว ขนาดที่บีบอัดของไฟล์ zip จะรวมทั้งไฟล์ zip และซอฟต์แวร์คลายซิป เนื่องจากคุณไม่สามารถแตกไฟล์ได้หากไม่มีทั้งสองไฟล์ แต่อาจมีรูปแบบรวมกันที่เล็กกว่านั้นอีก

ความแตกต่างของข้อมูล

การบีบอัดข้อมูลสามารถดูเป็นกรณีพิเศษของ ความแตกต่าง ของข้อมูล [23] [24]ความแตกต่างของข้อมูลประกอบด้วยการสร้างความแตกต่างโดยให้แหล่งที่มาและเป้าหมาย โดยมีการแพทช์ทำซ้ำเป้าหมายโดยให้แหล่งที่มาและความแตกต่าง เนื่องจากไม่มีแหล่งที่มาและเป้าหมายที่แยกจากกันในการบีบอัดข้อมูล เราจึงพิจารณาว่าการบีบอัดข้อมูลเป็นผลต่างของข้อมูลด้วยข้อมูลต้นทางที่ว่างเปล่า ไฟล์บีบอัดที่สอดคล้องกับความแตกต่างจากไม่มีอะไรเลย นี่เหมือนกับการพิจารณาเอนโทรปี สัมบูรณ์ (ซึ่งสัมพันธ์กับการบีบอัดข้อมูล) เป็นกรณีพิเศษของเอนโทรปีสัมพัทธ์(สอดคล้องกับความแตกต่างของข้อมูล) โดยไม่มีข้อมูลเบื้องต้น

การบีบอัดข้อมูลแบบ ดิฟเฟอเรนเชีย ลใช้เพื่อเน้นการเชื่อมต่อข้อมูลที่แตกต่าง

ใช้

รูปภาพ

การเข้ารหัสเอนโทรปีเกิดขึ้นในปี 1940 โดยมีการนำการเข้ารหัส Shannon–Fanoมา ใช้ [25]ซึ่งเป็นพื้นฐานสำหรับการเข้ารหัส Huffmanซึ่งได้รับการพัฒนาในปี 1950 [26] การเข้ารหัส Transformมีขึ้นในช่วงปลายทศวรรษ 1960 โดยมีการนำการแปลงฟูริเยร์แบบเร็ว (FFT) ) การเข้ารหัสในปี 1968 และการเปลี่ยนแปลง Hadamardในปี 1969 [27]

เทคนิคการบีบอัดภาพที่สำคัญ คือการ แปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ซึ่งเป็นเทคนิคที่พัฒนาขึ้นในช่วงต้นทศวรรษ 1970 [15] DCT เป็นพื้นฐานสำหรับJPEGซึ่งเป็น รูปแบบ การบีบอัดแบบสูญเสียซึ่งเปิดตัวโดยJoint Photographic Experts Group (JPEG) ในปี 1992 [28] JPEG ช่วยลดปริมาณข้อมูลที่จำเป็นในการแสดงภาพอย่างมากโดยมีค่าใช้จ่ายค่อนข้างมาก คุณภาพของภาพลดลงเล็กน้อยและกลายเป็น รูปแบบไฟล์ภาพที่ใช้กันอย่างแพร่หลายมากที่สุด [29] [30]อัลกอริธึมการบีบอัดแบบ DCT ที่มีประสิทธิภาพสูงมีส่วนสำคัญต่อการขยายภาพดิจิตอล ในวงกว้างและภาพถ่ายดิจิทัล [31]

Lempel–Ziv–Welch (LZW) เป็น อัลกอริธึม การบีบอัดแบบไม่สูญเสียข้อมูลซึ่งพัฒนาขึ้นในปี 1984 ใช้ใน รูปแบบ GIFซึ่งเปิดตัวในปี 1987 [32] DEFLATEซึ่งเป็นอัลกอริธึมการบีบอัดแบบไม่สูญเสียซึ่งระบุในปี 1996 ใช้ในPortable Network Graphics ( รูปแบบ PNG) [33]

การบีบอัดเวฟเล็ตการใช้เวฟ เล็ต ในการบีบอัดภาพ เริ่มต้นขึ้นหลังจากการพัฒนาการเข้ารหัส DCT [34]มาตรฐานJPEG 2000ถูกนำมาใช้ในปี 2000 [35]ตรงกันข้ามกับอัลกอริทึม DCT ที่ใช้โดยรูปแบบ JPEG ดั้งเดิม JPEG 2000 จะใช้ อัลกอริธึม การแปลงเวฟเล็ตแบบไม่ต่อเนื่อง (DWT) แทน [36] [37] [38]เทคโนโลยี JPEG 2000 ซึ่งรวมถึง ส่วนขยาย Motion JPEG 2000ได้รับเลือกให้เป็นมาตรฐานการเข้ารหัสวิดีโอสำหรับภาพยนตร์ดิจิทัลในปี 2547 [39]

เสียง

การบีบอัดข้อมูลเสียง เพื่อไม่ให้สับสนกับการบีบอัดช่วงไดนามิกมีศักยภาพในการลดแบนด์วิดท์ การส่ง และข้อกำหนดในการจัดเก็บข้อมูลของข้อมูลเสียง อัลกอริธึมการบีบอัดเสียงถูกนำมาใช้ในซอฟต์แวร์เป็นตัวแปลงสัญญาณเสียง ในการบีบอัดทั้งแบบสูญเสียและไม่สูญเสียข้อมูล ความซ้ำซ้อน ของข้อมูล จะลดลง โดยใช้วิธีการต่างๆ เช่นการเข้ารหัส การหาปริมาณ การ แปลงโคไซน์แบบไม่ต่อเนื่องและการทำนายเชิงเส้นเพื่อลดปริมาณข้อมูลที่ใช้เพื่อแสดงข้อมูลที่ไม่บีบอัด

อัลกอริธึมการบีบอัดเสียงแบบ Lossy ให้การบีบอัดที่สูงขึ้นและใช้ในแอปพลิเคชันเสียงจำนวนมากรวมถึงVorbisและMP3 อัลกอริธึมเหล่านี้เกือบทั้งหมดอาศัยจิตอะคูสติกในการกำจัดหรือลดความเที่ยงตรงของเสียงที่ได้ยินน้อยกว่า ซึ่งจะช่วยลดพื้นที่ที่จำเป็นในการจัดเก็บหรือส่งสัญญาณ [2] [40]

การแลกเปลี่ยนที่ยอมรับได้ระหว่างการสูญเสียคุณภาพเสียงและการส่งหรือขนาดที่เก็บข้อมูลขึ้นอยู่กับแอปพลิเคชัน ตัวอย่างเช่นคอมแพคดิสก์ (CD) ขนาด 640 MB บรรจุเพลง ที่มีความเที่ยงตรงสูงแบบไม่มีการบีบอัดได้ประมาณหนึ่งชั่วโมงเพลงที่บีบอัดไว้น้อยกว่า 2 ชั่วโมงโดยไม่สูญเสียข้อมูล หรือเพลง 7 ชั่วโมงที่บีบอัดใน รูปแบบ MP3ที่อัตราบิตปานกลาง เครื่องบันทึกเสียงดิจิทัลสามารถจัดเก็บคำพูดที่เข้าใจได้ชัดเจนประมาณ 200 ชั่วโมงใน 640 MB [41]

การบีบอัดเสียงแบบไม่สูญเสียข้อมูลจะสร้างการแสดงข้อมูลดิจิทัลที่สามารถถอดรหัสเป็นสำเนาดิจิทัลของต้นฉบับได้อย่างแม่นยำ อัตราการบีบอัดอยู่ที่ประมาณ 50-60% ของขนาดดั้งเดิม[42]ซึ่งคล้ายกับการบีบอัดข้อมูลแบบไม่สูญเสียข้อมูลทั่วไป ตัวแปลงสัญญาณแบบไม่สูญเสียใช้การปรับเส้นโค้งหรือการทำนายเชิงเส้นเป็นพื้นฐานสำหรับการประเมินสัญญาณ พารามิเตอร์ที่อธิบายการประมาณค่าและความแตกต่างระหว่างการประมาณค่ากับสัญญาณจริงจะถูกเข้ารหัสแยกกัน [43]

มีรูปแบบการบีบอัดเสียงแบบไม่สูญเสียจำนวนหนึ่ง ดูรายการตัวแปลงสัญญาณแบบไม่สูญเสียสำหรับรายการ บางรูปแบบเชื่อมโยงกับระบบที่แตกต่างกัน เช่นDirect Stream Transferที่ใช้ในSuper Audio CDและMeridian Lossless Packingที่ใช้ในDVD-Audio , Dolby TrueHD , Blu-rayและHD DVD

รูปแบบไฟล์เสียงบาง รูปแบบ มีทั้งรูปแบบการสูญเสียและการแก้ไขแบบไม่สูญเสีย ซึ่งช่วยให้สามารถลอกการแก้ไขเพื่อให้ได้ไฟล์ที่สูญเสียไปได้อย่างง่ายดาย รูปแบบดังกล่าวรวมถึงMPEG-4 SLS (Scalable to Lossless), WavPack และ OptimFROG DualStream

เมื่อไฟล์เสียงต้องได้รับการประมวลผล ไม่ว่าจะด้วยการบีบอัดเพิ่มเติมหรือเพื่อแก้ไขขอแนะนำให้ทำงานจากต้นฉบับที่ไม่เปลี่ยนแปลง (บีบอัดแบบไม่บีบอัดหรือบีบอัดแบบไม่สูญเสีย) การประมวลผลไฟล์บีบอัดแบบสูญเสียข้อมูลเพื่อวัตถุประสงค์บางอย่างมักจะให้ผลลัพธ์สุดท้ายที่ด้อยกว่าการสร้างไฟล์บีบอัดเดียวกันจากต้นฉบับที่ไม่บีบอัด นอกเหนือจากการแก้ไขหรือมิกซ์เสียงแล้ว การบีบอัดเสียงแบบไม่สูญเสียข้อมูลมักใช้สำหรับการจัดเก็บถาวรหรือเป็นสำเนาต้นแบบ

การบีบอัดเสียงที่สูญเสียไป

การเปรียบเทียบสเปกโตรแกรมของเสียงในรูปแบบที่ไม่บีบอัดและรูปแบบการสูญเสียหลายรูปแบบ สเปกโตรแกรมแบบสูญเสียจะแสดงการ จำกัด แบนด์ของความถี่ที่สูงขึ้น ซึ่งเป็นเทคนิคทั่วไปที่เกี่ยวข้องกับการบีบอัดเสียงแบบสูญเสีย

การบีบอัดเสียงแบบสูญเสียนั้นใช้ในแอพพลิเคชั่นที่หลากหลาย นอกเหนือจากแอปพลิเคชันเล่นไฟล์เสียงแบบสแตนด์อโลนในเครื่องเล่น MP3 หรือคอมพิวเตอร์แล้ว สตรีมเสียงที่บีบอัดแบบดิจิทัลยังใช้ในวิดีโอดีวีดี โทรทัศน์ระบบดิจิตอล สื่อสตรีมมิ่งบนอินเทอร์เน็ตวิทยุดาวเทียมและเคเบิล และการออกอากาศทางวิทยุภาคพื้นดินเพิ่มมากขึ้น การบีบอัดแบบ Lossy มักจะประสบความสำเร็จในการบีบอัดที่มากกว่าการบีบอัดแบบไม่สูญเสียข้อมูล โดยการละทิ้งข้อมูลที่มีความสำคัญน้อยกว่าโดยพิจารณาจากการปรับให้เหมาะสมทางจิตวิทยา [44]

Psychoacoustics ตระหนักดีว่า ระบบการได้ยินของมนุษย์ไม่สามารถรับรู้ข้อมูลทั้งหมดในสตรีมเสียงได้ การบีบอัดแบบสูญเสียข้อมูลส่วนใหญ่จะลดความซ้ำซ้อนด้วยการระบุเสียงที่ไม่เกี่ยวข้องในขั้นแรก ซึ่งก็คือเสียงที่ได้ยินยากมาก ตัวอย่างทั่วไป ได้แก่ ความถี่สูงหรือเสียงที่เกิดขึ้นพร้อมกับเสียงที่ดังขึ้น เสียงที่ไม่เกี่ยวข้องเหล่านั้นถูกเข้ารหัสด้วยความแม่นยำที่ลดลงหรือไม่เลย

เนื่องจากธรรมชาติของอัลกอริธึมที่สูญเสียคุณภาพเสียง จึง สูญเสียการสร้างดิจิตอลเมื่อไฟล์ถูกคลายการบีบอัดและบีบอัดใหม่ ทำให้การบีบอัดแบบสูญเสียข้อมูลไม่เหมาะสำหรับการจัดเก็บผลลัพธ์ขั้นกลางในแอปพลิเคชันวิศวกรรมเสียงระดับมืออาชีพ เช่น การตัดต่อเสียงและการบันทึกเสียงแบบหลายแทร็ก อย่างไรก็ตาม รูปแบบการสูญเสีย เช่นMP3เป็นที่นิยมอย่างมากกับผู้ใช้ปลายทาง เนื่องจากขนาดไฟล์ลดลงเหลือ 5-20% ของขนาดดั้งเดิม และเมกะไบต์สามารถจัดเก็บเพลงได้ประมาณหนึ่งนาทีด้วยคุณภาพที่เพียงพอ

วิธีการเข้ารหัส

ในการพิจารณาว่าข้อมูลใดในสัญญาณเสียงที่ไม่เกี่ยวข้องตามการรับรู้ อัลกอริธึมการบีบอัดแบบสูญเสียข้อมูลส่วนใหญ่ใช้การแปลง เช่น การปรับเปลี่ยนการแปลงโคไซน์แบบไม่ต่อเนื่อง (MDCT) เพื่อแปลงรูปคลื่นของโดเมนเวลาที่ สุ่มตัวอย่างเป็นโดเมนการแปลง โดย ทั่วไป จะเป็น โดเมนความถี่ เมื่อแปลงแล้ว ความถี่ของส่วนประกอบสามารถจัดลำดับความสำคัญได้ตามความสามารถในการได้ยิน การประเมินการได้ยินขององค์ประกอบสเปกตรัมโดยใช้เกณฑ์การได้ยินที่แน่นอนและหลักการของการกำบังพร้อมกัน - ปรากฏการณ์ที่สัญญาณถูกปิดบังโดยสัญญาณอื่นที่คั่นด้วยความถี่ - และในบางกรณีการปิดบังชั่วคราว - โดยที่สัญญาณถูกปิดบังโดยสัญญาณอื่น แยกจากกันตามเวลาเส้นขอบความดังที่เท่ากันอาจใช้เพื่อชั่งน้ำหนักความสำคัญในการรับรู้ของส่วนประกอบ แบบจำลองของการผสมผสานระหว่างหูและสมองของมนุษย์ที่รวมเอฟเฟกต์ดังกล่าวเข้าด้วยกันมักเรียกว่า แบบจำลอง ทางจิต [45]

คอมเพรสเซอร์แบบสูญเสียประเภทอื่นๆ เช่นLinear Predictive Coding (LPC) ที่ใช้กับคำพูด คือตัวเข้ารหัสตามแหล่งที่มา LPC ใช้แบบจำลองของระบบเสียงพูดของมนุษย์ในการวิเคราะห์เสียงพูดและอนุมานพารามิเตอร์ที่ใช้โดยแบบจำลองเพื่อสร้างเสียงดังกล่าวเป็นช่วงเวลา พารามิเตอร์ที่เปลี่ยนแปลงเหล่านี้จะถูกส่งหรือจัดเก็บและใช้เพื่อขับเคลื่อนโมเดลอื่นในตัวถอดรหัสซึ่งสร้างเสียงขึ้นมาใหม่

รูปแบบการสูญเสียมักจะใช้สำหรับการกระจายเสียงสตรีมมิ่งหรือการสื่อสารแบบโต้ตอบ (เช่นในเครือข่ายโทรศัพท์มือถือ) ในแอปพลิเคชันดังกล่าว ข้อมูลจะต้องถูกคลายการบีบอัดเมื่อกระแสข้อมูล แทนที่จะส่งผ่านสตรีมข้อมูลทั้งหมด ตัวแปลงสัญญาณเสียงบางตัวไม่สามารถใช้กับแอปพลิเคชันการสตรีมได้ [44]

เวลาแฝงถูกนำมาใช้โดยวิธีการที่ใช้ในการเข้ารหัสและถอดรหัสข้อมูล ตัวแปลงสัญญาณบางตัวจะวิเคราะห์ส่วนที่ยาวกว่า เรียกว่าเฟรมของข้อมูลเพื่อเพิ่มประสิทธิภาพ จากนั้นจึงเข้ารหัสในลักษณะที่ต้องใช้กลุ่มข้อมูลที่ใหญ่ขึ้นในคราวเดียวเพื่อถอดรหัส เวลาแฝงโดยธรรมชาติของอัลกอริธึมการเข้ารหัสอาจมีความสำคัญ ตัวอย่างเช่น เมื่อมีการส่งข้อมูลแบบสองทาง เช่น กับการสนทนาทางโทรศัพท์ ความล่าช้าที่สำคัญอาจทำให้คุณภาพการรับรู้ลดลงอย่างมาก

ตรงกันข้ามกับความเร็วของการบีบอัด ซึ่งแปรผันตามจำนวนการดำเนินการที่อัลกอริทึมต้องการ เวลาแฝงหมายถึงจำนวนตัวอย่างที่ต้องวิเคราะห์ก่อนที่จะประมวลผลบล็อกเสียง ในกรณีขั้นต่ำ เวลาแฝงจะเป็นศูนย์ตัวอย่าง (เช่น ถ้าตัวเข้ารหัส/ตัวถอดรหัสลดจำนวนบิตที่ใช้ในการหาปริมาณของสัญญาณลง) อัลกอริธึมโดเมนเวลา เช่น LPC มักจะมีเวลาแฝงต่ำ ดังนั้นจึงเป็นที่นิยมในการเข้ารหัสเสียงพูดสำหรับโทรศัพท์ อย่างไรก็ตาม ในอัลกอริธึมเช่น MP3 จะต้องวิเคราะห์ตัวอย่างจำนวนมากเพื่อใช้แบบจำลองทางจิตวิเคราะห์ในโดเมนความถี่ และเวลาแฝงอยู่ที่ 23 มิลลิวินาที

การเข้ารหัสเสียง

การเข้ารหัสเสียงเป็นหมวดหมู่ที่สำคัญของการบีบอัดข้อมูลเสียง แบบจำลองการรับรู้ที่ใช้ในการประเมินว่าลักษณะของคำพูดที่หูของมนุษย์สามารถได้ยินได้โดยทั่วไปจะค่อนข้างแตกต่างจากที่ใช้สำหรับดนตรี ช่วงความถี่ที่จำเป็นในการถ่ายทอดเสียงของมนุษย์มักจะแคบกว่าช่วงความถี่ที่จำเป็นสำหรับดนตรี และโดยปกติเสียงจะมีความซับซ้อนน้อยกว่า ส่งผลให้สามารถเข้ารหัสคำพูดคุณภาพสูงโดยใช้อัตราบิตที่ค่อนข้างต่ำ

โดยทั่วไปแล้วทำได้โดยการผสมผสานสองวิธี:

  • การเข้ารหัสเสียงที่สามารถสร้างได้โดยเสียงมนุษย์เพียงเสียงเดียวเท่านั้น
  • ทิ้งข้อมูลในสัญญาณออกไปให้มากขึ้น รักษาให้เพียงพอเพื่อสร้างเสียงที่ "เข้าใจได้" ขึ้นใหม่ แทนที่จะใช้ช่วงความถี่เต็มรูปแบบของการได้ยิน ของ มนุษย์

อัลกอริธึมแรกสุดที่ใช้ในการเข้ารหัสคำพูด (และการบีบอัดข้อมูลเสียงโดยทั่วไป) คืออัลกอริธึม A-law และอัลกอริธึม μ - law

ประวัติ

Solidyne 922: การ์ดเสียง บีบอัดบิตเสียงเชิงพาณิชย์ตัวแรกของโลก สำหรับพีซี 1990

การวิจัยเสียงเบื้องต้นได้ดำเนินการที่Bell Labs ที่นั่นในปี 1950 C. Chapin Cutlerได้ยื่นจดสิทธิบัตรเกี่ยวกับการมอดูเลตรหัสพัลส์ ดิฟเฟอเรนเชียล (DPCM) [46]ในปี 1973 Adaptive DPCM (ADPCM) ได้รับการแนะนำโดย P. Cummiskey, Nikil S. JayantและJames L. Flanagan [47] [48]

ครั้งแรกที่ใช้การเข้ารหัสแบบรับรู้ สำหรับการ บีบอัดการเข้ารหัสเสียงพูด โดยใช้ รหัสทำนายเชิงเส้น (LPC) [49]แนวคิดเบื้องต้นสำหรับ LPC ย้อนหลังไปถึงงานของFumitada Itakura ( มหาวิทยาลัย Nagoya ) และ Shuzo Saito ( Nippon Telegraph and Telephone ) ในปี 1966 [50]ในช่วงปี 1970 Bishnu S. AtalและManfred R. Schroederที่Bell Labsพัฒนารูปแบบของ LPC ที่เรียกว่าAdaptive Predictive coding (APC) ซึ่งเป็นอัลกอริธึมการเข้ารหัสแบบรับรู้ที่ใช้ประโยชน์จากคุณสมบัติการปกปิดของหูของมนุษย์ ตามมาในต้นทศวรรษ 1980 ด้วยอัลกอริทึม การทำนายเชิงเส้นแบบโค้ดตื่นเต้น (CELP) ซึ่งบรรลุอัตราส่วนการบีบอัด ที่สำคัญ ในช่วงเวลานั้น [49]การเข้ารหัสแบบรับรู้ถูกใช้โดยรูปแบบการบีบอัดเสียงที่ทันสมัย ​​เช่นMP3 [49 ] และAAC

การแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ซึ่งพัฒนาโดยNasir Ahmed , T. Natarajan และKR Raoในปี 1974 [16]เป็นพื้นฐานสำหรับการแปลงโคไซน์แบบไม่ต่อเนื่อง (MDCT) ที่ดัดแปลงซึ่งใช้โดยรูปแบบการบีบอัดเสียงสมัยใหม่ เช่น MP3, [51] Dolby ดิจิตอล , [52] [53]และ AAC. [54] MDCT ถูกเสนอโดย JP Princen, AW Johnson และ AB Bradley ในปี 1987 [55]หลังจากงานก่อนหน้าของ Princen และ Bradley ในปี 1986 [56]

ระบบบีบอัดเสียง อัตโนมัติเพื่อการออกอากาศเชิงพาณิชย์เครื่องแรกของโลกได้รับการพัฒนาโดย Oscar Bonello ศาสตราจารย์ด้านวิศวกรรมที่มหาวิทยาลัยบัวโนสไอเรส [57] [ การตรวจสอบล้มเหลว ]ในปีพ. ศ. 2526 โดยใช้หลักการจิตอะคูสติกของการกำบังวงดนตรีที่สำคัญซึ่งตีพิมพ์ครั้งแรกในปี 2510 [58] เขาเริ่มพัฒนาแอปพลิเคชันที่ใช้งานได้จริงโดยใช้ คอมพิวเตอร์ IBM PCที่พัฒนาขึ้นเมื่อเร็ว ๆ นี้และเปิดตัวระบบอัตโนมัติออกอากาศ ในปี 1987 ภายใต้ชื่อAudicom . ยี่สิบปีต่อมา สถานีวิทยุเกือบทั้งหมดในโลกใช้เทคโนโลยีที่คล้ายคลึงกันซึ่งผลิตโดยบริษัทหลายแห่ง

บทสรุปวรรณกรรมสำหรับระบบการเข้ารหัสเสียงที่หลากหลายได้รับการตีพิมพ์ในวารสาร IEEE เรื่อง Selected Areas in Communications ( JSAC ) ในเดือนกุมภาพันธ์ พ.ศ. 2531 แม้ว่าจะมีเอกสารบางส่วนก่อนหน้านั้น ตัวเข้ารหัสเสียงเกือบทั้งหมดใช้เทคนิคการรับรู้และการวิเคราะห์ความถี่บางประเภทและการเข้ารหัสแบบไม่มีเสียงแบ็คเอนด์ [59]

วีดีโอ

วิดีโอที่ไม่บีบอัดต้องใช้อัตราข้อมูลที่ สูง มาก แม้ว่า ตัวแปลงสัญญาณการ บีบอัดวิดีโอแบบไม่สูญเสีย จะ ทำงานที่ปัจจัยการบีบอัดที่ 5 ถึง 12 แต่ วิดีโอการบีบอัดแบบสูญเสียข้อมูล H.264 ทั่วไป มีปัจจัยในการบีบอัดระหว่าง 20 ถึง 200 [60]

เทคนิคการบีบอัดวิดีโอหลักสองแบบที่ใช้ในมาตรฐานการเข้ารหัสวิดีโอได้แก่ การแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) และการชดเชยการเคลื่อนไหว (MC) มาตรฐานการเข้ารหัสวิดีโอส่วนใหญ่ เช่น รูปแบบ H.26xและMPEGมักใช้การเข้ารหัสวิดีโอ DCT ที่ชดเชยการเคลื่อนไหว (การชดเชยการเคลื่อนไหวของบล็อก) [61] [62]

ตัวแปลงสัญญาณวิดีโอส่วนใหญ่จะใช้ควบคู่ไปกับเทคนิคการบีบอัดเสียงเพื่อจัดเก็บสตรีมข้อมูลที่แยกจากกันแต่เสริมเป็นแพ็คเกจเดียวโดยใช้ รูปแบบคอนเทนเนอร์ที่เรียกว่า [63]

ทฤษฎีการเข้ารหัส

ข้อมูลวิดีโออาจแสดงเป็นชุดของเฟรมภาพนิ่ง ข้อมูลดังกล่าวมักจะมี ความซ้ำซ้อนเชิงพื้นที่และเวลาจำนวนมาก อัลกอริธึมการบีบอัดวิดีโอพยายามลดความซ้ำซ้อนและจัดเก็บข้อมูลให้กระชับยิ่งขึ้น

รูปแบบการบีบอัดและตัวแปลงสัญญาณ วิดีโอ ส่วนใหญ่ใช้ประโยชน์จากความซ้ำซ้อนเชิงพื้นที่และเวลา (เช่น ผ่านการเข้ารหัสที่แตกต่างด้วยการชดเชยการเคลื่อนไหว ) ความคล้ายคลึงกันสามารถเข้ารหัสได้โดยการจัดเก็บเฉพาะความแตกต่างระหว่างเฟรมที่อยู่ติดกันชั่วคราว (การเข้ารหัสระหว่างเฟรม) หรือพิกเซลที่อยู่ติดกันเชิงพื้นที่ (การเข้ารหัสภายในเฟรม) การบีบอัด ระหว่างเฟรม (การ เข้ารหัสเดลต้าชั่วคราว) (อีกครั้ง) ใช้ข้อมูลจากเฟรมก่อนหน้าหรือเฟรมที่ใหม่กว่าอย่างน้อยหนึ่งเฟรมในลำดับเพื่ออธิบายเฟรมปัจจุบัน ในทางกลับกัน การเข้ารหัสภายในเฟรมใช้เฉพาะข้อมูลจากภายในเฟรมปัจจุบันเท่านั้น ซึ่งเป็นการบีบอัดภาพนิ่ง ได้ อย่าง มีประสิทธิภาพ [45]

รูปแบบการเข้ารหัสวิดีโอภายในเฟรมที่ใช้ในกล้องวิดีโอและการตัดต่อวิดีโอใช้การบีบอัดที่ง่ายกว่าซึ่งใช้เพียงการคาดการณ์ภายในเฟรมเท่านั้น วิธีนี้ช่วยลดความซับซ้อนของซอฟต์แวร์ตัดต่อวิดีโอ เนื่องจากจะป้องกันสถานการณ์ที่เฟรมบีบอัดอ้างอิงถึงข้อมูลที่โปรแกรมแก้ไขได้ลบไป

โดยปกติ การบีบอัดวิดีโอยังใช้ เทคนิคการ บีบอัดแบบสูญเสียข้อมูลเช่น การหาปริมาณซึ่งลดแง่มุมของข้อมูลต้นทางที่ไม่เกี่ยวข้องกับการรับรู้ด้วยภาพของมนุษย์ (ไม่มากก็น้อย) โดยใช้ประโยชน์จากคุณลักษณะการรับรู้ของการมองเห็นของมนุษย์ ตัวอย่างเช่น ความแตกต่างเล็กน้อยของสีจะมองเห็นได้ยากกว่าการเปลี่ยนแปลงของความสว่าง อัลกอริธึมการบีบอัดสามารถเฉลี่ยสีในพื้นที่ที่คล้ายคลึงกันเหล่านี้ในลักษณะที่คล้ายกับที่ใช้ในการบีบอัดภาพJPEG [9]เช่นเดียวกับการบีบอัดแบบสูญเสียข้อมูลทั้งหมด มีการแลกเปลี่ยนระหว่างคุณภาพวิดีโอและอัตราบิตค่าใช้จ่ายในการประมวลผลการบีบอัดและคลายการบีบอัด และความต้องการของระบบ วิดีโอที่มีการบีบอัดสูงอาจนำเสนอ สิ่งแปลกปลอมที่มอง เห็นได้หรือทำให้เสียสมาธิ

วิธีการอื่นๆ นอกเหนือจากรูปแบบการแปลงแบบใช้ DCT ที่แพร่หลาย เช่นการบีบอัดแฟร็กทัลการแสวงหาการจับคู่และการใช้การแปลงเวฟเล็ตแบบไม่ต่อเนื่อง (DWT) เป็นหัวข้อของการวิจัยบางอย่าง แต่โดยทั่วไปจะไม่ใช้ในผลิตภัณฑ์เชิงปฏิบัติ การบีบอัดเวฟเล็ตใช้ในโปรแกรมสร้างภาพนิ่งและตัวเข้ารหัสวิดีโอโดยไม่มีการชดเชยการเคลื่อนไหว ความสนใจในการบีบอัดเศษส่วนดูเหมือนจะลดลง เนื่องจากการวิเคราะห์ทางทฤษฎีเมื่อเร็วๆ นี้แสดงให้เห็นว่าวิธีการดังกล่าวไม่มีประสิทธิผลเชิงเปรียบเทียบ [45]

การเข้ารหัสระหว่างเฟรม

ในการเข้ารหัสระหว่างเฟรม แต่ละเฟรมของลำดับวิดีโอจะถูกเปรียบเทียบจากเฟรมหนึ่งไปยังเฟรมถัดไป และตัวแปลงสัญญาณการบีบอัดวิดีโอจะบันทึกความแตกต่างไปยังกรอบอ้างอิง หากเฟรมมีพื้นที่ที่ไม่มีการเคลื่อนไหวใดๆ ระบบสามารถออกคำสั่งสั้นๆ ที่คัดลอกส่วนนั้นของเฟรมก่อนหน้าไปยังเฟรมถัดไปได้ หากส่วนต่างๆ ของเฟรมเคลื่อนที่ในลักษณะที่เรียบง่าย คอมเพรสเซอร์สามารถปล่อยคำสั่ง (ยาวกว่าเล็กน้อย) ที่บอกให้ตัวขยายการบีบอัดเลื่อน หมุน ทำให้จางลง หรือทำให้สำเนาเข้มขึ้น คำสั่งที่ยาวกว่านี้ยังคงสั้นกว่าข้อมูลที่สร้างโดยการบีบอัดภายในเฟรมอย่างมาก โดยปกติ ตัวเข้ารหัสจะส่งสัญญาณที่เหลือซึ่งอธิบายความแตกต่างที่ละเอียดยิ่งขึ้นที่เหลือไปยังภาพอ้างอิง โดยใช้การเข้ารหัสเอนโทรปี สัญญาณตกค้างเหล่านี้มีการแสดงแทนแบบกระชับกว่าสัญญาณเต็ม ในพื้นที่ของวิดีโอที่มีการเคลื่อนไหวมากขึ้น การบีบอัดจะต้องเข้ารหัสข้อมูลมากขึ้นเพื่อให้ทันกับจำนวนพิกเซลที่เปลี่ยนไปมากขึ้น ปกติในช่วงที่เกิดการระเบิดบิตเร ต ตัวแปร

รูปแบบการแปลงแบบบล็อกแบบไฮบริด

ขั้นตอนการประมวลผลของตัวเข้ารหัสวิดีโอทั่วไป

ทุกวันนี้ วิธีการบีบอัดวิดีโอที่ใช้กันโดยทั่วไปเกือบทั้งหมด (เช่น วิธีในมาตรฐานที่ได้รับอนุมัติโดยITU-TหรือISO ) มีสถาปัตยกรรมพื้นฐานแบบเดียวกันกับที่ย้อนหลังไปถึงH.261ซึ่งเป็นมาตรฐานในปี 1988 โดย ITU-T ส่วนใหญ่อาศัย DCT ใช้กับบล็อกสี่เหลี่ยมของพิกเซลข้างเคียง และการคาดคะเนชั่วคราวโดยใช้เวกเตอร์การเคลื่อนไหวและในปัจจุบันยังมีขั้นตอนการกรองแบบวนซ้ำอีกด้วย

ในขั้นตอนการคาดการณ์ มีการใช้เทคนิคการขจัดความ ซ้ำซ้อนและการเข้ารหัสความแตกต่างต่างๆ เพื่อช่วยตกแต่งข้อมูลและอธิบายข้อมูลใหม่โดยอิงจากข้อมูลที่ส่งไปแล้ว

จากนั้นบล็อกสี่เหลี่ยมของ ข้อมูล พิกเซล ที่เหลือ จะถูกแปลงเป็นโดเมนความถี่ ในขั้นตอนการประมวลผลการสูญเสียข้อมูลหลัก ข้อมูลโดเมนความถี่จะถูกวัดปริมาณเพื่อลดข้อมูลที่ไม่เกี่ยวข้องกับการรับรู้ด้วยสายตาของมนุษย์

ในขั้นตอนสุดท้าย ความซ้ำซ้อนทางสถิติส่วนใหญ่จะถูกกำจัดโดยตัวเข้ารหัสเอนโทรปีซึ่งมักใช้รูปแบบการเข้ารหัสเลขคณิตบางรูปแบบ

ในขั้นตอนการกรองแบบวนซ้ำเพิ่มเติม สามารถใช้ฟิลเตอร์ต่างๆ กับสัญญาณภาพที่สร้างใหม่ได้ ด้วยการคำนวณตัวกรองเหล่านี้ภายในวงจรการเข้ารหัส พวกมันสามารถช่วยบีบอัดได้ เนื่องจากสามารถใช้กับวัสดุอ้างอิงได้ก่อนที่จะนำไปใช้ในกระบวนการทำนาย และสามารถนำทางได้โดยใช้สัญญาณดั้งเดิม ตัวอย่างที่ได้รับความนิยมมากที่สุดคือ การดีบล็อก ตัวกรองที่เบลอการบล็อกสิ่งประดิษฐ์จากความไม่ต่อเนื่องของการหาปริมาณที่ขอบเขตของบล็อกการแปลง

ประวัติ

ในปีพ.ศ. 2510 AH Robinson และ C. Cherry ได้เสนอ แผนการบีบอัดแบนด์วิดท์การ เข้ารหัสแบบรัน-ยาวสำหรับการส่งสัญญาณโทรทัศน์แอนะล็อก [64] Discrete cosine transform (DCT) ซึ่งเป็นพื้นฐานของการบีบอัดวิดีโอสมัยใหม่[65]ได้รับการแนะนำโดยNasir Ahmed , T. Natarajan และKR Raoในปี 1974 [16] [66]

H.261ซึ่งเปิดตัวในปี 1988 ได้เปิดตัวสถาปัตยกรรมพื้นฐานที่แพร่หลายของเทคโนโลยีการบีบอัดวิดีโอในเชิงพาณิชย์ [67]เป็นรูปแบบการเข้ารหัสวิดีโอรูปแบบ แรก ที่ใช้การบีบอัด DCT ซึ่งต่อมาจะกลายเป็นมาตรฐานสำหรับรูปแบบการเข้ารหัสวิดีโอหลักทั้งหมดที่ตามมา [65] H.261 ได้รับการพัฒนาโดยบริษัทหลายแห่ง รวมถึงHitachi , PictureTel , NTT , BTและToshiba [68]

มาตรฐานการเข้ารหัสวิดีโอที่ได้รับความนิยมมากที่สุดที่ใช้สำหรับตัวแปลงสัญญาณคือมาตรฐานMPEG MPEG-1ได้รับการพัฒนาโดยMotion Picture Experts Group (MPEG) ในปี 1991 และได้รับการออกแบบมาเพื่อบีบอัดวิดีโอคุณภาพVHS ประสบความสำเร็จในปี 1994 โดยMPEG-2 / H.262 , [67]ซึ่งได้รับการพัฒนาโดยบริษัทหลายแห่ง โดยเฉพาะSony , Thomson และ Mitsubishi Electric [69] MPEG-2 กลายเป็นรูปแบบวิดีโอมาตรฐานสำหรับ โทรทัศน์ ระบบดิจิตอลDVDและ SD [67]ในปี 1999 ตามมาด้วยMPEG-4 / H.263ซึ่งเป็นการก้าวกระโดดครั้งสำคัญสำหรับเทคโนโลยีการบีบอัดวิดีโอ [67] ได้รับการพัฒนาโดยบริษัทหลายแห่ง โดย เฉพาะMitsubishi Electric, HitachiและPanasonic [70]

รูปแบบการเข้ารหัสวิดีโอที่ใช้กันอย่างแพร่หลายคือH.264/MPEG-4 AVC ได้รับการพัฒนาในปี 2546 โดยองค์กรหลายแห่ง โดยเฉพาะ Panasonic, Godo Kaisha IP BridgeและLG Electronics [71] AVC ได้นำ อัลกอริทึม การเข้ารหัสเลขคณิตไบนารีแบบบริบทที่ปรับเปลี่ยน ตามบริบทสมัยใหม่ (CABAC) และ อัลกอริทึม การเข้ารหัสความยาวแปรผันตามบริบท (CAVLC) มาใช้ในเชิงพาณิชย์ AVC เป็นมาตรฐานการเข้ารหัสวิดีโอหลักสำหรับBlu-ray Discsและใช้กันอย่างแพร่หลายโดยเว็บไซต์แบ่งปันวิดีโอและบริการอินเทอร์เน็ตสตรีมมิ่งเช่นYouTube , Netflix , VimeoและiTunes Storeซอฟต์แวร์เว็บเช่นAdobe Flash PlayerและMicrosoft Silverlightและการ ออกอากาศ HDTV ต่างๆ ผ่านโทรทัศน์ภาคพื้นดินและดาวเทียม

พันธุศาสตร์

อัลกอริธึมการบีบอัดทางพันธุกรรมเป็นอัลกอริธึมแบบไม่สูญเสียรุ่นล่าสุดที่บีบอัดข้อมูล (โดยทั่วไปคือลำดับของนิวคลีโอไทด์) โดยใช้ทั้งอัลกอริธึมการบีบอัดทั่วไปและอัลกอริธึมทางพันธุกรรมที่ปรับให้เข้ากับประเภทข้อมูลเฉพาะ ในปี 2555 ทีมนักวิทยาศาสตร์จากมหาวิทยาลัยจอห์น ฮอปกินส์ ได้ตีพิมพ์อัลกอริธึมการบีบอัดทางพันธุกรรมที่ไม่ใช้จีโนมอ้างอิงสำหรับการบีบอัด HAPZIPPER ถูกปรับแต่งสำหรับHapMapข้อมูลและบรรลุการบีบอัดมากกว่า 20 เท่า (ลดขนาดไฟล์ลง 95%) ให้การบีบอัดที่ดีขึ้น 2 ถึง 4 เท่าและใช้การคำนวณน้อยกว่ายูทิลิตี้บีบอัดข้อมูลทั่วไปชั้นนำ สำหรับสิ่งนี้ Chanda, Elhaik และ Bader ได้แนะนำการเข้ารหัสแบบใช้ MAF (MAFE) ซึ่งช่วยลดความแตกต่างของชุดข้อมูลโดยการจัดเรียง SNP ตามความถี่อัลลีลเล็กน้อย ซึ่งจะทำให้ชุดข้อมูลเป็นเนื้อเดียวกัน [72]อัลกอริธึมอื่นๆ ในปี 2552 และ 2556 (DNAZip และ GenomeZip) มีอัตราส่วนการบีบอัดสูงถึง 1200 เท่า—ทำให้จีโนมมนุษย์ดิพลอยด์คู่เบสคู่ 6 พันล้านถูกจัดเก็บใน 2.5 เมกะไบต์ (เทียบกับจีโนมอ้างอิงหรือเฉลี่ยมากกว่าหลายจีโนม) [73] [74]สำหรับการเปรียบเทียบในการบีบอัดข้อมูลทางพันธุกรรม/จีโนม ดู[75]

Outlook และศักยภาพที่ไม่ได้ใช้ในปัจจุบัน

คาดว่าจำนวนข้อมูลทั้งหมดที่จัดเก็บไว้ในอุปกรณ์จัดเก็บข้อมูลของโลกสามารถบีบอัดเพิ่มเติมด้วยอัลกอริธึมการบีบอัดที่มีอยู่โดยปัจจัยเฉลี่ยที่เหลือ 4.5: 1 [76]ประมาณการว่าความสามารถทางเทคโนโลยีที่รวมกันของโลกในการจัดเก็บข้อมูลนั้นให้ตัวเลขฮาร์ดแวร์ 1,300 เอ็ก ซาไบต์ในปี 2550 แต่เมื่อเนื้อหาที่เกี่ยวข้องถูกบีบอัดอย่างเหมาะสมที่สุด สิ่งนี้จะแทนข้อมูลแชนนอน 295 เอ็กซาไบต์ เท่านั้น [77]

ดูเพิ่มเติม

อ้างอิง

  1. ^ เวด, เกรแฮม (1994). การเข้ารหัสสัญญาณและการประมวลผล (2 ed.) สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. หน้า 34. ISBN 978-0-2521-42336-6. สืบค้นเมื่อ2011-12-22 . วัตถุประสงค์กว้างๆ ของการเข้ารหัสต้นทางคือการใช้ประโยชน์หรือขจัดความซ้ำซ้อนที่ 'ไม่มีประสิทธิภาพ' ใน แหล่ง PCMและด้วยเหตุนี้จึงทำให้อัตราแหล่งที่มาโดยรวม R ลดลง
  2. อรรถเป็น มาห์ดี โอเอ; โมฮัมเหม็ด แมสซาชูเซตส์; Mohamed, AJ (พฤศจิกายน 2555). "การนำนวนิยายไปใช้ในการแปลงการบีบอัดเสียงเป็นการเข้ารหัสข้อความผ่านเทคนิคไฮบริด" (PDF ) วารสารนานาชาติด้านวิทยาการคอมพิวเตอร์ . 9 (6 ฉบับที่ 3): 53–59 . สืบค้นเมื่อ6 มีนาคม 2556 .
  3. ^ ปูจาร์ เจเอช; Kadlaskar, LM (พฤษภาคม 2010). "วิธีการบีบอัดและคลายการบีบอัดภาพแบบใหม่โดยไม่สูญเสียข้อมูลโดยใช้เทคนิคการเข้ารหัส Huffman" (PDF ) วารสาร เทคโนโลยี สารสนเทศ เชิง ทฤษฎี และ ประยุกต์ . 15 (1): 18–23.
  4. ^ ซาโลมอน เดวิด (2008) บทนำสั้นๆ เกี่ยวกับการบีบอัดข้อมูล เบอร์ลิน: สปริงเกอร์. ISBN 9781848000728.
  5. ^ แทงค์ เอ็มเค (2011). "การนำอัลกอริทึม Lempel-ZIV ไปใช้สำหรับการบีบอัดแบบไม่สูญเสียข้อมูลโดยใช้ VHDL" การใช้อัลกอริทึม Limpel-Ziv สำหรับการบีบอัดแบบไม่สูญเสียโดยใช้ VHDL Thinkquest 2010: การดำเนินการของการประชุมนานาชาติครั้งแรกเกี่ยวกับรูปทรงของเทคโนโลยีคอมพิวเตอร์ เบอร์ลิน: สปริงเกอร์. น. 275–283. ดอย : 10.1007/978-81-8489-989-4_51 . ISBN 978-81-8489-988-7.
  6. นาวี โซด; นาควี, ร.; Riaz, RA; Siddiqui, F. (เมษายน 2011). "การออกแบบ RTL ที่ปรับให้เหมาะสมและการใช้งานอัลกอริธึม LZW สำหรับแอปพลิเคชันแบนด์วิธสูง" (PDF ) ทบทวนไฟฟ้า . 2011 (4): 279–285.
  7. สตีเฟน, วุลแฟรม (2002). วิทยาศาสตร์ชนิดใหม่ . แชมเปญ อิลลินอยส์ หน้า 1069. ISBN 1-57955-008-8.
  8. ^ a b Mahmud, Salauddin (มีนาคม 2012). "วิธีการบีบอัดข้อมูลที่ได้รับการปรับปรุงสำหรับข้อมูลทั่วไป" (PDF ) วารสารนานาชาติด้านการวิจัยทางวิทยาศาสตร์และวิศวกรรม . 3 (3): 2 . สืบค้นเมื่อ6 มีนาคม 2556 .
  9. ^ a b เลน, ทอม. "คำถามที่พบบ่อยเกี่ยวกับการบีบอัดภาพ JPEG ส่วนที่ 1 " คลังเก็บคำถามที่พบบ่อยทางอินเทอร์เน็ต กลุ่ม JPEG อิสระ สืบค้นเมื่อ6 มีนาคม 2556 .
  10. ^ จีเจ ซัลลิแวน ; เจ.-อาร์. โอห์ม; ว.-เจ. ฮัน; ต. วีแกนด์ (ธันวาคม 2555). "ภาพรวมของมาตรฐานการเข้ารหัสวิดีโอประสิทธิภาพสูง (HEVC) " ธุรกรรม IEEE บนวงจรและระบบสำหรับเทคโนโลยีวิดีโอ อี อีอี 22 (12): 1649–1668. ดอย : 10.1109/TCSVT.2012.2221191 .
  11. ^ "วิธีเลือกการตั้งค่าการเก็บถาวรที่เหมาะสมที่สุด – WinRAR" .
  12. ^ "(ตั้งค่าวิธีการบีบอัด) สวิตช์ – 7zip" .
  13. วุลแฟรม, สตีเฟน (2002). วิทยาศาสตร์รูปแบบใหม่ . Wolfram Media, Inc. หน้า 1069 . ISBN 978-1-57955-008-0.
  14. ^ อาร์คแองเจิล, คอรี. "ในการบีบอัด" (PDF) . สืบค้นเมื่อ6 มีนาคม 2556 .
  15. ^ a b Ahmed, Nasir (มกราคม 1991) "ฉันมากับการแปลงโคไซน์แบบไม่ต่อเนื่องได้อย่างไร" . การประมวลผล สัญญาณดิจิตอล 1 (1): 4–5. ดอย : 10.1016/1051-2004(91)90086-Z .
  16. อรรถa b c Nasir Ahmed ; ต. ณัฐราชัน; กามิเซตตี รามาโมฮัน ราว (มกราคม 2517) "การแปลงโคไซน์แบบไม่ต่อเนื่อง" (PDF) . ธุรกรรม IEEE บนคอมพิวเตอร์ C-23 (1): 90–93. ดอย : 10.1109/TC.1974.223784 .
  17. ^ CCITT Study Group VIII und die Joint Photographic Experts Group (JPEG) von ISO/IEC Joint Technical Committee 1/อนุกรรมการ 29/Working Group 10 (1993), "Annex D – Arithmetic coding", Recommendation T.81: Digital Compression and Coding ของภาพนิ่งแบบโทนสีต่อเนื่อง – ข้อกำหนดและแนวทางปฏิบัติ (PDF) , หน้า 54 ff , เรียกข้อมูลเมื่อ2552-11-07
  18. ^ มารัค, ลาสโล. "ในการบีบอัดภาพ" (PDF) . มหาวิทยาลัย Marne la Vallee เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 28 พฤษภาคม 2558 . สืบค้นเมื่อ6 มีนาคม 2556 .
  19. ^ มาโฮนี่ย์, แมตต์. "เหตุผลสำหรับเกณฑ์มาตรฐานการบีบอัดข้อความขนาดใหญ่ " สถาบันเทคโนโลยีฟลอริดา. สืบค้นเมื่อ5 มีนาคม 2556 .
  20. ชมิโลวิชี เอ.; Kahiri Y.; เบ็นกัลฉัน.; เฮาเซอร์ เอส. (2009). "การวัดประสิทธิภาพของตลาด Forex ระหว่างวันด้วยอัลกอริธึมการบีบอัดข้อมูลสากล" (PDF ) เศรษฐศาสตร์คอมพิวเตอร์ . 33 (2): 131–154. CiteSeerX 10.1.1.627.3751 . ดอย : 10.1007/s10614-008-9153-3 . S2CID 17234503 .   
  21. ^ I. Ben-Gal (2008) "การใช้มาตรการบีบอัดข้อมูลเพื่อวิเคราะห์การออกแบบที่มีประสิทธิภาพ" (PDF ) ธุรกรรมของ IEEE เกี่ยวกับความน่าเชื่อถือ 54 (3): 381–388. ดอย : 10.1109/TR.2005.853280 . S2CID 9376086 .  
  22. ^ ดี. สกัลลี; คาร์ลา อี. บรอดลีย์ (2006). "การบีบอัดและการเรียนรู้ของเครื่อง: มุมมองใหม่เกี่ยวกับเวกเตอร์พื้นที่คุณลักษณะ" การประชุมการบีบอัดข้อมูล พ.ศ. 2549 : 332. ดอย : 10.1109/DCC.2006.13 . ISBN 0-7695-2545-8. S2CID  12311412 .
  23. ^ กร, ด.; และคณะ "RFC 3284: รูปแบบข้อมูลความแตกต่างทั่วไปและการบีบอัด VCDIFF " คณะทำงาน ด้านวิศวกรรมอินเทอร์เน็ต สืบค้นเมื่อ5 มีนาคม 2556 .
  24. ^ กร ดีจี; โว, เคพี (1995). ข. กฤษณมูรธี (บรรณาธิการ). Vdelta: ความแตกต่างและการบีบอัด . ซอฟต์แวร์ Unix ที่นำกลับมาใช้ใหม่ได้จริง นิวยอร์ก: John Wiley & Sons, Inc.
  25. คลอดด์ เอลวูด แชนนอน (1948). Alcatel-Lucent (เอ็ด) "ทฤษฎีทางคณิตศาสตร์ของการสื่อสาร" (PDF) . วารสารเทคนิคระบบเบลล์ . 27 (3–4): 379–423, 623–656. ดอย : 10.1002/j.1538-7305.1948.tb01338.x . hdl : 11858/00-001M-0000-002C-4314-2 . สืบค้นเมื่อ2019-04-21 .
  26. เดวิด อัลเบิร์ต ฮัฟฟ์แมน (กันยายน 1952), "วิธีการสร้างรหัสสำรองขั้นต่ำ" (PDF) , การดำเนินการของ IRE , ฉบับที่. 40 ไม่ 9 หน้า 1098–1101 ดอย : 10.1109/JRPROC.1952.273898
  27. ^ แพรตต์ ดับเบิลยูเค; เคน เจ.; แอนดรูว์ เอชซี (1969) Hadamard แปลงการเข้ารหัสรูปภาพ การดำเนินการ ของIEEE 57 : 58–68. ดอย : 10.1109/PROC.1969.6869 .
  28. ^ "T.81 – การบีบอัดแบบดิจิทัลและการเข้ารหัสของภาพนิ่งแบบต่อเนื่อง – ข้อกำหนดและแนวทาง" (PDF ) ซีซี อิท. กันยายน 1992 . สืบค้นเมื่อ12 กรกฎาคม 2019 .
  29. ^ "อธิบายรูป แบบภาพ JPEG" บีที . คอม บีที กรุ๊ป . 31 พ.ค. 2561. เก็บข้อมูลจากต้นฉบับเมื่อ 5 สิงหาคม พ.ศ. 2562 . สืบค้นเมื่อ5 สิงหาคม 2019 .
  30. ^ Baraniuk, Chris (15 ตุลาคม 2558). "การป้องกันการคัดลอกอาจมาที่ JPEG " ข่าวบีบีซี บีบีซี. สืบค้นเมื่อ13 กันยายน 2019 .
  31. ^ "JPEG คืออะไร วัตถุที่มองไม่เห็นที่คุณเห็นทุกวัน " แอตแลนติก . 24 กันยายน 2556 . สืบค้นเมื่อ13 กันยายน 2019 .
  32. ^ "การโต้เถียง GIF: มุมมองของนักพัฒนาซอฟต์แวร์" สืบค้นเมื่อ26 พฤษภาคม 2558 .
  33. ^ L. Peter Deutsch (พฤษภาคม 1996). DEFLATE ข้อมูลจำเพาะรูปแบบข้อมูลที่บีบอัด เวอร์ชัน 1.3 ไออีทีเอฟ หน้า 1. วินาที เชิงนามธรรม. ดอย : 10.17487/RFC1951 . อา ร์เอฟซี 1951 . สืบค้นเมื่อ2014-04-23 .
  34. ^ ฮอฟฟ์แมน, รอย (2012). การบีบอัด ข้อมูลในระบบดิจิตอล สื่อวิทยาศาสตร์และธุรกิจของสปริงเกอร์ หน้า 124. ISBN 9781461560319. โดยพื้นฐานแล้ว การเข้ารหัสเวฟเล็ตเป็นตัวแปรในการเข้ารหัสการแปลงแบบอิง DCT ที่ลดหรือขจัดข้อจำกัดบางประการ (...) ข้อดีอีกประการหนึ่งคือ แทนที่จะทำงานกับพิกเซลขนาด 8 × 8 บล็อก เช่นเดียวกับ JPEG และเทคนิค DCT แบบบล็อกอื่นๆ การเข้ารหัสเวฟเล็ตสามารถบีบอัดภาพทั้งหมดพร้อมกันได้
  35. ^ ทอบมัน เดวิด; มาร์เซลลิน, ไมเคิล (2012). มาตรฐานและแนวทางปฏิบัติเกี่ยวกับการบีบอัดภาพ JPEG2000: ข้อมูลพื้นฐาน มาตรฐานและการปฏิบัติ ในการบีบอัด ภาพ สื่อวิทยาศาสตร์และธุรกิจของสปริงเกอร์ ISBN 9781461507994.
  36. ^ อันเซอร์ ม.; บลู, ต. (2003). "คุณสมบัติทางคณิตศาสตร์ของฟิลเตอร์เวฟเล็ต JPEG2000 " ธุรกรรม IEEE เกี่ยวกับการประมวลผลภาพ 12 (9): 1080–1090. Bibcode : 2003ITIP...12.1080U . ดอย : 10.1109/TIP.2003.812329 . PMID 18237979 . S2CID 2765169 .  
  37. ซัลลิแวน, แกรี (8–12 ธันวาคม พ.ศ. 2546) "ลักษณะทั่วไปและข้อควรพิจารณาในการออกแบบสำหรับการเข้ารหัสวิดีโอซับแบนด์ชั่วคราว " ไอ ทู-ที . กลุ่มผู้เชี่ยวชาญ ด้านการเข้ารหัสวิดีโอ สืบค้นเมื่อ13 กันยายน 2019 .
  38. โบวิค อลัน ซี. (2009). คู่มือที่จำเป็นในการประมวลผลวิดีโอ สื่อวิชาการ . หน้า 355. ISBN 9780080922508.
  39. สวาร์ตซ์, ชาร์ลส์ เอส. (2005). ทำความเข้าใจเกี่ยวกับภาพยนตร์ดิจิทัล: คู่มือระดับมืออาชีพ เทย์เลอร์ & ฟรานซิส . หน้า 147. ISBN 9780240806174.
  40. คันนิงแฮม สจวร์ต; แม็คเกรเกอร์, เอียน (2019). "การประเมินอัตนัยของเพลงที่บีบอัดด้วย ACER Codec เมื่อเทียบกับ AAC, MP3 และ PCM ที่ไม่บีบอัด " วารสารนานาชาติการแพร่ภาพมัลติมีเดียดิจิตอล . 2562 : 1–16. ดอย : 10.1155/2019/8265301 .
  41. ^ ตามคู่มือของเครื่องบันทึกเสียงพูดแบบดิจิทัล Olympus WS-120 สามารถจัดเก็บเสียงคุณภาพเสียงพูดได้ประมาณ 178 ชั่วโมงในรูปแบบ .WMA ในหน่วยความจำแฟลช 500 MB
  42. ^ โคลสัน, จอช. "การเปรียบเทียบ FLAC " สืบค้นเมื่อ2020-08-23 .
  43. ^ "ภาพรวมรูปแบบ" . สืบค้นเมื่อ2020-08-23 .
  44. อรรถเป็น Jaiswal, RC (2009). วิศวกรรมเสียงและวิดีโอ . ปูเน่ รัฐมหาราษฏระ: Nirali Prakashan. หน้า 3.41. ISBN 9788190639675.
  45. ^ a b c Faxin Yu; ห่าวหลัว; เจ้อหมิงหลู่ (2010). การวิเคราะห์และประมวลผล แบบจำลองสามมิติ เบอร์ลิน: สปริงเกอร์. หน้า 47 . ISBN 9783642126512.
  46. ^ สิทธิบัตรสหรัฐอเมริกา 2605361 , C. Chapin Cutler, "Differential Quantization of Communication Signals", ออก 1952-07-29 
  47. คัมมิสกี, พี.; Jayant, NS; ฟลานาแกน เจแอล (1973) "Adaptive Quantization in Differential PCM Coding of Speech". วารสารเทคนิคระบบเบลล์ . 52 (7): 1105–1118. ดอย : 10.1002/j.1538-7305.1973.tb02007.x .
  48. คัมมิสกี, พี.; Jayant, Nikil S.; ฟลานาแกน เจแอล (1973) "การปรับควอนตัมในการเข้ารหัสเสียงพูด PCM ที่แตกต่างกัน" วารสารเทคนิคระบบเบลล์ . 52 (7): 1105–1118. ดอย : 10.1002/j.1538-7305.1973.tb02007.x . ISSN 0005-8580 . 
  49. อรรถเป็น c Schroeder, Manfred R. (2014). "ห้องปฏิบัติการเบลล์" . อะคูสติก ข้อมูล และการสื่อสาร: เล่มอนุสรณ์เพื่อเป็นเกียรติแก่ Manfred R. Schroeder สปริงเกอร์. หน้า 388. ISBN 9783319056609.
  50. เกรย์, โรเบิร์ต เอ็ม. (2010). "ประวัติคำพูดดิจิทัลแบบเรียลไทม์บนเครือข่ายแพ็คเก็ต: ส่วนที่ II ของการเข้ารหัสแบบคาดการณ์เชิงเส้นและอินเทอร์เน็ตโปรโตคอล" (PDF ) พบ. กระบวนการสัญญาณเทรนด์ 3 (4): 203–303. ดอย : 10.1561/2000000036 . ISSN 1932-8346 .  
  51. ^ กัคเคิร์ต, จอห์น (ฤดูใบไม้ผลิ 2012). "การใช้ FFT และ MDCT ในการบีบอัดเสียง MP3" (PDF ) มหาวิทยาลัยยูทาห์ . สืบค้นเมื่อ14 กรกฎาคม 2019 .
  52. ^ หลัว ฟ้าลอง (2008) มาตรฐานการออกอากาศมัลติมีเดียบนมือถือ: เทคโนโลยีและการปฏิบัติ สื่อวิทยาศาสตร์และธุรกิจของสปริงเกอร์ หน้า 590. ISBN 9780387782638.
  53. ^ Britanak, V. (2011). "เกี่ยวกับคุณสมบัติ ความสัมพันธ์ และการใช้งานอย่างง่ายของธนาคารกรองในมาตรฐานการเข้ารหัสเสียง Dolby Digital (บวก) AC-3" ธุรกรรมของ IEEE ในการประมวลผลเสียง คำพูด และภาษา 19 (5): 1231–1241. ดอย : 10.1109/TASL.2010.2087755 . S2CID 897622 . 
  54. บรันเดนบูร์ก, คาร์ลไฮนซ์ (1999). "อธิบาย MP3 และ AAC" (PDF ) เก็บถาวร(PDF)จากต้นฉบับเมื่อ 2017-02-13.
  55. ^ พรินซ์ เจ.; จอห์นสัน, เอ.; แบรดลีย์, เอ. (1987). "การเข้ารหัสซับแบนด์/การแปลงโดยใช้การออกแบบคลังตัวกรองตามการยกเลิกนามแฝงโดเมนเวลา" ICASSP '87. การประชุมนานาชาติ IEEE เกี่ยวกับเสียง คำพูด และการประมวลผลสัญญาณ ฉบับที่ 12. หน้า 2161–2164. ดอย : 10.1109/ICASSP.1987.1169405 . S2CID 58446992 . 
  56. ^ พรินซ์ เจ.; แบรดลีย์, เอ. (1986). "การออกแบบคลังตัวกรองการวิเคราะห์/การสังเคราะห์ตามการยกเลิกนามแฝงโดเมนเวลา" ธุรกรรมของ IEEE เกี่ยวกับเสียง คำพูด และการประมวลผลสัญญาณ 34 (5): 1153–1161. ดอย : 10.1109/TASSP.1986.1164954 .
  57. ^ "บทสรุปของการมีส่วนร่วมของ Solidyne ในด้านวิศวกรรมการออกอากาศ " ประวัติโดยย่อของ Solidyne บัวโนสไอเรส: Solidyne เก็บถาวรจากต้นฉบับเมื่อ 8 มีนาคม 2556 . สืบค้นเมื่อ6 มีนาคม 2556 .[ แหล่งเผยแพร่ด้วยตนเอง? ]
  58. ^ ซวิคเกอร์ เอเบอร์ฮาร์ด; และคณะ (1967). หูเป็นเครื่องรับการสื่อสาร Melville, NY: สมาคมอะคูสติกแห่งอเมริกา เก็บถาวรจากต้นฉบับเมื่อ 2000-09-14 . สืบค้นเมื่อ2011-11-11 .
  59. ^ "ความเป็นไปได้ในการบีบอัดไฟล์" . คำแนะนำสั้น ๆ ในการบีบอัดไฟล์ใน 4 วิธีที่แตกต่างกัน 17 กุมภาพันธ์ 2560.
  60. ดมิตรี วาโตลิน; และคณะ (Graphics & Media Lab Video Group) (มีนาคม 2550) การเปรียบเทียบตัวแปลงสัญญาณวิดีโอแบบไม่สูญเสีย '2007 (PDF) (รายงาน) มหาวิทยาลัยแห่งรัฐมอสโก
  61. ^ เฉิน เจี๋ย; Koc, Ut-Va; หลิว, เค.เจ. เรย์ (2001). การออกแบบระบบเข้ารหัสวิดีโอดิจิทัล: แนวทางโดเมนที่บีบอัดอย่างสมบูรณ์ ซีอาร์ซี เพรส . หน้า 71. ISBN 9780203904183.
  62. ^ หลี่ เจี้ยนปิง (2006). การประชุมคอมพิวเตอร์ระหว่างประเทศ พ.ศ. 2549 เรื่อง Wavelet Active Media Technology and Information Processing: Chongqing, China, 29-31 สิงหาคม พ.ศ. 2549 วิทยาศาสตร์โลก . หน้า 847. ISBN 9789812709998.
  63. ^ "การเข้ารหัสวิดีโอ" . เว็บไซต์คสช. ศูนย์ประมวลผลสัญญาณและข้อมูล สถาบันเทคโนโลยีจอร์เจีย เก็บถาวรจากต้นฉบับเมื่อ 23 พฤษภาคม 2556 . สืบค้นเมื่อ6 มีนาคม 2556 .
  64. ^ โรบินสัน AH; เชอร์รี่, ค. (1967). "ผลลัพธ์ของรูปแบบการบีบอัดแบนด์วิดท์โทรทัศน์ต้นแบบ". การดำเนินการ ของIEEE อี อีอี 55 (3): 356–364. ดอย : 10.1109/PROC.1967.5493 ​​.
  65. อรรถเป็น Ghanbari, โมฮัมเหม็ด (2003). ตัว แปลงสัญญาณมาตรฐาน: การบีบอัดภาพเป็นการเข้ารหัสวิดีโอขั้นสูง สถาบัน วิศวกรรม และเทคโนโลยี . หน้า 1–2. ISBN 9780852967102.
  66. ^ รีดเดอร์ คลิฟ (2016-08-31) "แนวสิทธิบัตรสำหรับการเข้ารหัสวิดีโอปลอดค่าลิขสิทธิ์" . ใน Tescher, Andrew G (ed.) แอปพลิเคชั่นของการประมวลผลภาพดิจิทัล XXXIX ฉบับที่ 9971 ซานดิเอโก แคลิฟอร์เนีย: สมาคมวิศวกรเครื่องมือวัดภาพถ่ายและแสง น. 99711B. Bibcode : 2016SPIE.9971E..1BR . ดอย : 10.1117/12.2239493 . เก็บถาวรจากต้นฉบับเมื่อ 2016-12-08บันทึกการบรรยาย ตั้งแต่ 3:05:10 น.
  67. ^ a b c d "ประวัติความเป็นมาของรูปแบบไฟล์วิดีโอ Infographic — RealPlayer " 22 เมษายน 2555.
  68. ^ "ประกาศสิทธิบัตรที่จดทะเบียนเป็น H261-07" . ไอทียู สืบค้นเมื่อ11 กรกฎาคม 2019 .
  69. ^ "รายการสิทธิบัตร MPEG-2" (PDF) . MPEG แอลเอ สืบค้นเมื่อ7 กรกฎาคม 2019 .
  70. ^ "ภาพ MPEG-4 - รายการสิทธิบัตร" (PDF ) MPEG แอลเอ สืบค้นเมื่อ6 กรกฎาคม 2019 .
  71. ^ "AVC/H.264 – รายการสิทธิบัตร" (PDF ) MPEG แอลเอ สืบค้นเมื่อ6 กรกฎาคม 2019 .
  72. ^ Chanda P, Bader JS, Elhaik E (27 ก.ค. 2555) "HapZipper: การแบ่งปันประชากร HapMap ทำได้ง่ายขึ้น " การวิจัยกรดนิวคลีอิก . 40 (20): e159. ดอย : 10.1093/nar/gks709 . พี เอ็มซี 3488212 . PMID 22844100 .  
  73. ^ Christley S, Lu Y, Li C, Xie X (15 ม.ค. 2552) "จีโนมมนุษย์เป็นสิ่งที่แนบมากับอีเมล" . ชีวสารสนเทศศาสตร์ 25 (2): 274–5. ดอย : 10.1093/bioinformatics/btn582 . PMID 18996942 . 
  74. ^ Pavlichin DS, Weissman T, Yona G (กันยายน 2013) “จีโนมมนุษย์หดตัวอีกแล้ว” . ชีวสารสนเทศศาสตร์ 29 (17): 2199–202. ดอย : 10.1093/bioinformatics/btt362 . PMID 23793748 . 
  75. ฮอสเซนี, มอร์เตซา; พราตัส, ดิโอโก้; พินโฮ, อาร์มันโด (2016). "การสำรวจวิธีการบีบอัดข้อมูลสำหรับลำดับทางชีวภาพ" . ข้อมูล _ 7 (4): 56. ดอย : 10.3390/info7040056 .
  76. ^ "การบีบอัดข้อมูลผ่านการสังเคราะห์ลอจิก" (PDF )
  77. ฮิลเบิร์ต มาร์ติน; López, Priscila (1 เมษายน 2011). "ความสามารถทางเทคโนโลยีของโลกในการจัดเก็บ สื่อสาร และประมวลผลข้อมูล" วิทยาศาสตร์ . 332 (6025): 60–65 Bibcode : 2011Sci...332...60H . ดอย : 10.1126/science.1200970 . PMID 21310967 . S2CID 206531385 .  

ลิงค์ภายนอก

0.082571983337402