137-6477-2377 周一至周五,上午9点到下午5点
qisir@qisir.com 随时欢迎您的来信!
汤臣金融大厦 上海市浦东新区东方路710号706室

识别原创文章的数字指纹到底是什么?

    很多朋友都想知道为什么有些伪原创也能够有排名,有些网站却没有排名?这里面的问题比较复杂,我们今天没办法全部展开,只能先从简单的数字指纹开始聊起。

    首先,我们了解下指纹。我们都知道公安系统会通过指纹来识别罪犯,那么如果两个指纹完全匹配,那么就可以识别出现场留下指纹的人就是谁。

    其次,数字指纹是个什么东西呢?搜索引擎会将每个页面的内容提取后,抽取其中的一个特征作为数字指纹。不同的搜索引擎使用的数字指纹是不一样的,数字指纹也是搜索引擎识别原创文章的最核心机密之一。

timg (8).jpg

    再次,我们谈下百度曾经使用过的数字指纹之一。百度数字指纹1.0版本是这样来识别原来文章的,如果一篇新收录的文章,被搜索引擎去掉标点符号后,最长的字符串跟百度数字库的数字指纹雷同,那么百度就认为这篇文章是抄袭的,也就是非原创。在百度的世界里,只有原创和非原创。没有伪原创,伪原创有可能会破坏数字指纹,有可能破坏不掉,所以有的伪原创被百度识别成了原创,有的识别成了伪原创。

   最后,除了百度的数字指纹外,Google、搜狗等搜索引擎也有自己的数字指纹,跟百度的数字指纹不一样。比如,搜索引擎可以将文章切词后,统计关键词出现的词频和密度,如果两篇文章的词根词频和密度高度相似,比如相似度高达60%,搜索引擎就会判为重复文章,也就是非原创。有些SEO将关键词进行了近义词或反义词替换,而百度目前已经能够识别出来近义词和反义词的关联,所以,我们奇商网络奉劝SEO,不要再想通过绕开数字指纹来欺骗搜索引擎。尤其是百度已经采用了动态数字指纹技术,所以导致有些网站的排名过一段时间就上升了,过一段时间就下降了。

 


原文地址:http://www.qisir.com/blog/17.html