none.gif

d0d13441

数据压缩的本质是什么?

不知道有没有除了信息熵之外的解读和应用

openai的观点:https://www.youtube.com/watch?v=dO4TPJkeaaU

1343747.jpg

岁晚煎堆

B1F  2023-05-29 22:18
([sell=0]头像无出处[/sell])
减少重复内容

a10.gif

peox

无损压缩应该不改变信息熵?
感觉有损压缩不能算数据压缩
无损压缩的话,几乎可以被认为是在用几个几这样的形式替代原文的重复内容
可以b站找点关于压缩算法的科普视频看看

1037406.jpg

大菠萝

B3F  2023-05-29 22:31
(木有鱼丸)
信息熵不就是理论根据么,就跟火箭公式一样,信息熵能证明你最大的压缩率是多少,往那个方向努力。

数据压缩本质是提取共同特征,

比如 我有数据   "AAAAAAABBBBBBBCCCCCCCDDDDDDD" 共28B,

然后软件定义了一套算法 * x n,表示有 n 个 *,

那么上面就可以压缩为 “Ax7Bx7Cx7Dx7” 共 共12B,压缩率 12/28 = 42%

进一步,可以把“xn”,也提取出来,类似ipv6一样把它缩写,第一行写数据,第二行写每个数据的数量

ABCD
7:

现在算上换行只有7B了,压缩率 7/28 = 25%,只有原来的1/4了

实际情况肯定没这么理想,数据会交叉,各种字符。

随便搜的文章,可以参考下

哈夫曼编码及其应用——数据压缩 https://zhuanlan.zhihu.com/p/144562146

HZJ4176


1355725.jpg

撸树

B5F  2023-05-29 23:18
(其实这话我本没说过,只是说是我说的人多了,也就变成了我说的)
熵编码
算术编码

none.gif

d0d13441

回 3楼(大菠萝) 的帖子

同样是高频词统计,小数计算的算术编码比哈夫曼更接近于信息熵极限
想看看有没有什么新角度来解读压缩这个现实

a13.gif

终点

B7F  2023-05-30 01:19
(绝不妥协)
数据压缩是通过使用各种算法和技术来减小数据的存储空间或传输带宽需求的过程。数据压缩的目标是减少冗余信息,以便有效地表示和存储数据,同时尽可能保持数据的完整性和可还原性。

以下是一些常见的数据压缩方法:

无损压缩:无损压缩是一种压缩数据的方法,可以在解压缩时完全还原原始数据。无损压缩方法通常基于统计、字典或算术编码。这些方法利用数据中的统计特性、重复模式或固定的字典来消除冗余信息。
统计编码:统计编码方法根据输入数据的频率分布对其进行编码。常见的统计编码算法有霍夫曼编码和算术编码。
字典压缩:字典压缩方法利用数据中的重复模式来建立一个字典,并用较短的标记代替常见的模式。Lempel-Ziv编码是一种常见的字典压缩方法,例如LZ77和LZ78。
无损图像压缩:无损图像压缩方法包括基于预测的压缩算法(如PNG)和基于转换的压缩算法(如无损JPEG)。
有损压缩:有损压缩是一种压缩数据的方法,可以在解压缩时近似地还原原始数据。有损压缩方法通过舍弃对人眼或感知系统来说相对不重要的信息来减小数据量。
图像压缩:常见的有损图像压缩方法包括JPEG、JPEG 2000等。这些方法通过减少颜色深度、抽取高频细节、使用离散余弦变换等方式来减小图像文件的大小。
音频压缩:有损音频压缩方法包括MP3、AAC等。这些方法通过去除听觉上不可察觉的信号成分、减少采样率等方式来压缩音频数据。
视频压缩:常见的有损视频压缩方法包括H.264、H.265等。这些方法通过去除视频中的冗余信息、利用运动估计、空间和时间分析等方式来压缩视频数据。
需要注意的是,压缩率和数据质量之间存在一定的权衡。无损压缩方法能够完全还原原始数据,但通常无法达到与有损压缩

369738.jpg

Führer

B8F  2023-05-30 01:39
(Malo esse quam videri bonus.)

回 7楼(Kaysril) 的帖子

说道无损压缩……
我最服气的就是7zip,真的牛逼,压缩率竟然可以这么高

none.gif

iceoon

我发现压缩跟没压缩大小差不多·····

none.gif

哥哥试

压缩就是找规律然后编成算法然后删除能被算法反推的部分

369738.jpg

Führer

B11F  2023-05-30 02:15
(Malo esse quam videri bonus.)

回 9楼(iceoon) 的帖子

说明你压缩的是已经被压缩过的文件,像是图片、视频之类的。如果你压缩的是非图片形式的电子文档,你就会发现压缩率到底有多高了。

1261132.jpg

马化腾

B12F  2023-05-30 02:23
(zs96500)
引用
引用第1楼439cd740于2023-05-29 22:18发表的  :
减少重复内容

是数位化,然后重新编写

none.gif

014e4289

你们搁搞颜色的论坛里面搞学术?谁叫你们这么搞的?

XwX


none.gif

ismygem

通常我们说WiFi密码是8个8,其实就是压缩,如果不压缩的话应该是88888888才对。