资料压缩 - The mini wiki

资料压缩编辑

在计算机科学和信息论中，数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元表示信息的过程。例如，如果我们将“compression”编码为“comp”那么这篇文章可以用较少的数据位元表示。常见的例子是ZIP，此格式不仅仅提供压缩功能，还可作为归档工具，能够将许多文件存储到同一个文件中。

相关

视讯压缩是指运用资料压缩技术将数位视讯资料中的冗余资讯去除，降低表示原始视讯所需的资料量，以便视讯资料的传输与储存。实际上，原始视讯资料的资料量往往过大，例如未经压缩的电视品质视讯资料的位元率高达216Mbps，绝大多数的应用无法处理如此庞大的资料量，因此视讯压缩是必要的。目前最新的视讯编码标准为ITU-T视讯编码专家组和ISO／IEC动态图像专家组联合组成的联合视讯组所提出的H.264/MPEG-4 AVC。

非破坏性资料压缩，是指资料经过资料压缩后，资讯不被破坏，还能完全恢复到压缩前的原样。相比之下，破坏性资料压缩只允许一个近似原始资料进行重建，以换取更好的压缩率。

量子压缩是一个较鲜为人知的资料压缩方法，由Cinematronics, LLC的David Stafford发明。这个资料压缩方法授权给Borland、Microsoft和Novell使用。

最小描述长度原则是将奥卡姆剃刀形式化后的一种结果。其想法是，在给予假说的集合的情况下，能产生最多资料压缩效果的那个假说是最好的。它是在1978年由Jorma Rissanen所引入的。在信息论和机器学习中，最小描述长度原则是个重要观念。

K-L转换是建立在统计特性基础上的一种转换，它是均方差意义下的最佳转换，因此在资料压缩技术中占有重要的地位。

散列板在密码学中是一种将字母式明文替换至纯数字的工具。其同时实现分馏和资料压缩。它也是单-双体密码。VIC密码主要依靠散列板来进行加密。

向量量化是一个在讯号处理中的一个量化法，其为借由样本向量的训练来估算密度几率函数，并借由此密度函数推估最有效的量化方案。此技术原用于资料压缩，透过分割大数量的资料点，让每个小聚类分析都有相同的资料点，而这些小群集的所有资料就由其正中央的点作为代表，这点与K-means以及其他群集分析的特性相当。
向量量化所使用的密度分布法的优势在于，此种压缩法对于高几率出现的资料误差小，而对低几率的资料误差大，故特别适用于大量且高维度的向量破坏性资料压缩。
向量量化是竞逐式学习的一种技巧，故与深度学习的自编码器其中使用的自组织对应以及稀疏神经编码有关系。

zlib是一个用于资料压缩的函式库，由Jean-loup Gailly与Mark Adler开发，初版0.9版发布于1995年5月1日。zlib使用抽象化的DEFLATE算法，最初是为libpng函式库所设计，后来逐渐被许多其他软件使用。此函式库为自由软件，使用zlib授权许可。