「SEO大军」博主SEO大军从事9年SEO工作,有丰富的网站SEO优化实战经验,诚接网站SEO诊断、SEO顾问!

首页 > SEO常见问题 / 正文

搜索引擎如何判断文章原始出处?

搜索引擎判断文章 2018-12-26 15:58:00 承接网站SEO顾问 SEO常见问题

  有很多人咨询过笔者(Mr.Zhao),百度如何判断伪原创和原创?百度喜欢什么样的文章?什么样的文章比较例如获得长尾词排名?等等诸如此类的问题。

  复制内容网页有的时候会影响网页排名!

  比如说原本是你写的文章,本来应该排名很好,但是其他人抄袭或转载你的文章,而且搜索引擎不幸的判断那篇被抄袭或转载的网页是原始出处的话,你应有的排名就会被那个网页夺走。

  那么搜索引擎怎样才能从多个网页中挑出哪一个是原始出处呢?可能有以下几个考虑:

  1)网页PR值。网页PR值越高,被认为是原始版本的可能性就越大。

  2)网页第一次被收录的时间。网页被搜索引擎收录的时候越早,相比后发现的相同内容的网页来说,被当作原始出处的可能性就越大。

  3)域名注册时间。越老的域名上面的网页被当成原始出处的可能性也越大。

  4)网站的权威度。这就有点说不清了,可能包含前面3个因素,还有很多其他因素。

  但到目前为止,无论以哪一个因素为主,或怎样组合这些因素,都不可能完全正确从多个网页中挑出原始出处。

  比如说我这个博客就很新,域名也很新,文章被收录的时间有的时候也不一定是最早的,就权威地位和被信任度来说,也肯定比不上很多中文网站。但我的博客新,我的域名新,并不意味着我的内容就不是原始出处,实际上我的所有博客都是原创。

  我最近也发现了很多网站都转载,有的时候是抄袭我的博客内容,很多网站的规模,历史,PR值都比我的网站要高的多。

  在检测文章原始出处方面,Google做的比较好,基本上能够正确判断,百度做的就比较差。从我的文章在不同的地方出现的情况看,百度似乎认为域名比较老的就是原创。

  这个问题不是网站管理员自己可以解决的,只有依靠搜索引擎算法的改进。

  现在基本上搜索引擎对于原创的识别,在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的,在其官方博客有相应的文章介绍。这里,我就做个大白话版本的介绍,争取做到简单易懂。

  算法示例:通过分析内容1,得到内容1中权重最高的关键词k,那么按照权重大小进行排序,前N个权重最高的关键词的集合我命名为K,则K={k1,k2,……,kn},则每一个关键词都会对应一个其在页面中获取到的权重特征值,我将k1对应的权重特征值设定为t1,则前N个权重关键词对应的特征值集合则为T={t1,t2,……,tn},那么我们有了这个特征项,就能计算出其相对应的特征向量W={w1,w2,……,wn}。接着我们将K拼成字符串Z,同时MD5(Z)则表示字符串Z的MD5散列值。

  那么假定我们判定的两个页面分别是i与j。

  则计算出两个公式。

  1.当MD5(Zi)=MD5(Zj)时,页面i与页面j完全相同,判断为转载。

  2.设定一个特定值α

  当0≤α≤1的时候,我们判定页面相似为重复。

  由此,对于原创文章的判断就结束了。好了,苦逼烦闷的枯燥讲解告一段落,下面我们用大白话再重新复述一遍。

  首先,你的内容一模一样,一个字都不带改的,那肯定是摘抄的啊,这时候MD5散列值就能迅速的判断出来。

  其次,很多SEO他们懒,进行所谓的伪原创,你说你伪原创时插入点自己的观点与资料也成,结果你们就是改个近义词什么的,于是我就用到了特征向量,通过特征向量的判断,把你们这些低劣的伪原创抓出来。关于这个,判断思想很简单,你权重最高的前N个关键词集合极为相似的时候,判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合,于是构建了特征向量,当对比的两个向量夹角与长度,当夹角与长度的差异度小于某个特定值的时候,我将其定义为相似文章。

大军SEO,9年来一直专注SEO技术研究,营销型网站建设,热爱SEO,希望能和大家多多交流共同学习,目前主要为企业和个人提供网站优化,关键词排名等服务,属于全职个人站长,凡是跟大军合作的每家企业/个人都是认真负责,做好网站每个细节,如有SEO/网络营销技术问题的朋友可以。

本页核心:搜索引擎,网页文章,出处

Tags:

声明:
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,如注作有误请联系我更改;
2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;
3.欢迎您对本文《搜索引擎如何判断文章原始出处?》做点评,可以加我QQ或微信吐槽;
4.本页面网址:https://www.seodajun.com/seowentijieda/743.html

SEO常见问题
了解更多搜索引擎,网页文章,出处,请在查看本站栏目对应内容进行参阅,如对搜索引擎如何判断文章原始出处?有不明之处可以与我交流,如搜索引擎如何判断文章原始出处?信息有误您也可以进行指导,本博客仅为SEO界的伙伴互相交流的一个SEO博客。

【大军SEO,9年如一日因为专业所以专注!做网站优化9年,熟悉各种CMS,精通各种搜索引擎排名,深知产品推广套路。专注于营销型网站建设,整站优化外包、关键词排名、黑帽/白帽SEO技术!承接网站SEO优化服务、SEO顾问服务(QQ:88288050)】
热门标签