吴军SEO:信息指纹特征及其应用处理

作者: 少校seo 分类: 黑帽seo资讯 发布时间: 2019-09-06 16:20

任何一段信息文本都可以对应一个随机数,这个随机数的长度不超过指纹的长度,因此无法将其与其他信息区分开来。只要算法设计得当,任何两条信息的指纹都很难重复,就像人的指纹一样。信息指纹广泛应用于加密、信息压缩和处理。

我们在图论和网络爬虫中提到,为了防止重复下载同一网页,我们需要在哈希表中记录我们访问过的网址。然而,以字符串形式将网址seo页面指纹直接存储在哈希表中会消耗内存空间和搜索时间。今天的网站通常更长。例如,如果你在谷歌或百度上寻找数学美,相应的网站长度超过100个字符。以下是百度的链接

?ie=gb2312&。bs = % CA % FD % D1 % A7 % D6 % AE % C3 % C0 & amp;sr = & ampampz = & ampcl = 3 & ampf=8

& ampwd = % CE % E2 % BE % FC+% CA % FD % D1 % A7 % D6 % AE % C3 % C0 & amp;ct=0

假设网站的平均长度为100个字符,存储200亿个网站本身至少需要2 TB或2,000 GB的容量。考虑到哈希表的存储效率通常只有50%,实际需要的内存超过4 TB。即使这些网址被存入计算机的存储器,以字符串形式搜索的效率也会很低,因为网址的长度是不固定的。因此,如果我们能找到一个函数,我们可以将这200亿个网站随机映射到128个二进制或16字节整数空间,例如,我们可以将上面的长字符串映射到一个随机数,如下所示:

893249432984398432980545454543

这样,每个网站只需要占用16个字节,而不是原来的100个。这可以将存储网址的内存需求减少到原来的1/6。这个16字节的随机数被称为网站指纹。可以证明,只要生成随机数的算法足够好,就几乎不可能有两个字符串的相同指纹,就像不可能有两个人的相同指纹一样。因为指纹是固定的128位整数,所以搜索的计算量比字符串小得多。当网络爬虫下载网页时,它将被访问网页的网址更改为信息指纹,并将其存储在哈希表中。每当遇到新的网址时,计算机计算它的指纹,然后比较指纹是否已经在哈希表中,以决定是否下载网页。这种整数搜索可能比原始字符串搜索快几倍到几十倍。

生成信息指纹的关键算法是伪随机数发生器算法。最早的prng算法是由计算机之父冯·诺依曼提出的。他的方法非常简单,即在开始时剪下一个数的平方,在结束时去掉,取中间数。例如,一个四位二进制数1001(相当于十进制数9),其平方为010001(十进制数81),结束并结束,剩下中间的四位0100。当然,这种方法产生的数字不是非常随机的,也就是说,两种不同的信息可能有相同的指纹。现在常用的梅森尼·威斯特算法要好得多。

信息指纹的使用远不止是消除沉重的网站。信息指纹的孪生兄弟是密码。信息指纹的特征之一是其不可逆性,即不能根据信息指纹推断出原始信息,这正是网络加密传输所需要的。例如,网站可以根据不同的用户的Cookie(信息指纹)来识别他们。但是,网站不能根据信息指纹知道用户的身份,这可以保护用户的隐私。在互联网上,加密的可靠性取决于是否很难人工找到具有相同指纹的信息黑帽seo,比如黑客是否可以随机为用户生成cookie。从加密的角度来看,梅森·威斯特(MersenneTwister)的算法并不好,因为它生成的随机数是相关的。

互联网上的加密需要一个基于加密的伪随机数发生器(csprng)。常用的算法包括MD5或SHA1等标准,这些标准可以将不定长度的信息转换成固定长度的128二进制或160二进制随机数。值得一提的是,SHA1以前被认为没有漏洞,现在被中国的王小云教授证明有漏洞。但是你不必惊慌,因为这与窃取你的注册信息不同。

搜索引擎优化关键词

「产品seo」 什么是网站seo优化SEO?SEO能干什么呢?
Warning: Invalid argument supplied for foreach() in /www/wwwroot/wyc.wl9.cc/config.php on line 113

Warning: Invalid argument supplied for foreach() in /www/wwwroot/wyc.wl9.cc/config.php on line 30
黑帽seo培训