首页 > SEO常见问题 / 正文
搜索引擎如何判断文章原始出处?
搜索引擎判断文章 2018-12-26 15:58:00 微信号:15382847313 SEO常见问题 ℃有很多人咨询过笔者(Mr.Zhao),百度如何判断伪原创和原创?百度喜欢什么样的文章?什么样的文章比较例如获得长尾词排名?等等诸如此类的问题。
复制内容网页有的时候会影响网页排名!
比如说原本是你写的文章,本来应该排名很好,但是其他人抄袭或转载你的文章,而且搜索引擎不幸的判断那篇被抄袭或转载的网页是原始出处的话,你应有的排名就会被那个网页夺走。
那么搜索引擎怎样才能从多个网页中挑出哪一个是原始出处呢?可能有以下几个考虑:
1)网页PR值。网页PR值越高,被认为是原始版本的可能性就越大。
2)网页第一次被收录的时间。网页被搜索引擎收录的时候越早,相比后发现的相同内容的网页来说,被当作原始出处的可能性就越大。
3)域名注册时间。越老的域名上面的网页被当成原始出处的可能性也越大。
4)网站的权威度。这就有点说不清了,可能包含前面3个因素,还有很多其他因素。
但到目前为止,无论以哪一个因素为主,或怎样组合这些因素,都不可能完全正确从多个网页中挑出原始出处。
比如说我这个博客就很新,域名也很新,文章被收录的时间有的时候也不一定是最早的,就权威地位和被信任度来说,也肯定比不上很多中文网站。但我的博客新,我的域名新,并不意味着我的内容就不是原始出处,实际上我的所有博客都是原创。
我最近也发现了很多网站都转载,有的时候是抄袭我的博客内容,很多网站的规模,历史,PR值都比我的网站要高的多。
在检测文章原始出处方面,Google做的比较好,基本上能够正确判断,百度做的就比较差。从我的文章在不同的地方出现的情况看,百度似乎认为域名比较老的就是原创。
这个问题不是网站管理员自己可以解决的,只有依靠搜索引擎算法的改进。
现在基本上搜索引擎对于原创的识别,在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的,在其官方博客有相应的文章介绍。这里,我就做个大白话版本的介绍,争取做到简单易懂。
算法示例:通过分析内容1,得到内容1中权重最高的关键词k,那么按照权重大小进行排序,前N个权重最高的关键词的集合我命名为K,则K={k1,k2,……,kn},则每一个关键词都会对应一个其在页面中获取到的权重特征值,我将k1对应的权重特征值设定为t1,则前N个权重关键词对应的特征值集合则为T={t1,t2,……,tn},那么我们有了这个特征项,就能计算出其相对应的特征向量W={w1,w2,……,wn}。接着我们将K拼成字符串Z,同时MD5(Z)则表示字符串Z的MD5散列值。
那么假定我们判定的两个页面分别是i与j。
则计算出两个公式。
1.当MD5(Zi)=MD5(Zj)时,页面i与页面j完全相同,判断为转载。
2.设定一个特定值α
当0≤α≤1的时候,我们判定页面相似为重复。
由此,对于原创文章的判断就结束了。好了,苦逼烦闷的枯燥讲解告一段落,下面我们用大白话再重新复述一遍。
首先,你的内容一模一样,一个字都不带改的,那肯定是摘抄的啊,这时候MD5散列值就能迅速的判断出来。
其次,很多SEO他们懒,进行所谓的伪原创,你说你伪原创时插入点自己的观点与资料也成,结果你们就是改个近义词什么的,于是我就用到了特征向量,通过特征向量的判断,把你们这些低劣的伪原创抓出来。关于这个,判断思想很简单,你权重最高的前N个关键词集合极为相似的时候,判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合,于是构建了特征向量,当对比的两个向量夹角与长度,当夹角与长度的差异度小于某个特定值的时候,我将其定义为相似文章。
- 上一篇:域名种类会影响搜索排名吗?
- 下一篇:ppc竞价排名
猜你喜欢
- 2020-11-06 搜索引擎SEO:小白应避免的5个错误!
- 2019-06-10 技术搜索引擎优化的5个基本方面不容忽视
- 2019-05-21 人工智能的搜索算法是怎样的?
- 2019-03-16 搜索市场:2018年全球搜索引擎市场份额排名前15位
- 2019-02-15 搜索引擎分类有哪些?
- 2019-02-13 为什么有的新站,搜索引擎收录很快?
- 2019-01-30 搜索引擎历史,国内与国外搜索引擎大全
- 2019-01-30 各大搜索引擎提交收录入口大全
- 2019-01-29 seo术语,搜索引擎优化专业术语
- 2019-01-29 B2B网站,做搜索引擎优化的方法
- SEO常见问题
- 了解更多搜索引擎,网页文章,出处,请在查看本站栏目对应内容进行参阅,如对搜索引擎如何判断文章原始出处?有不明之处可以与我交流,如搜索引擎如何判断文章原始出处?信息有误您也可以进行指导,本博客仅为SEO界的伙伴互相交流的一个SEO博客。【大军SEO,9年如一日因为专业所以专注!做网站优化9年,熟悉各种CMS,精通各种搜索引擎排名,深知产品推广套路。专注于营销型网站建设,整站优化外包、关键词排名、黑帽/白帽SEO技术!承接网站SEO优化服务、SEO顾问服务(QQ:88288050)】
- 08-31SEO建立链接的真实目的,我们该如何思考?
- 08-31经常搜索并点击自己排名,会有什么后果?
- 08-31SEO见到效果再付费,可信吗?
- 08-31信息流优化与SEO有关联吗?
- 08-31SEO中,量变与质变的区别有哪些?
- 08-24为什么SEO被认为不值钱,且非常难做?
- 08-24什么是百度热议,百度热议对SEO的价值?
- 08-24为什么百度流量与关键词的排名,与实际查询不符合呢?
- 08-24SEO焦虑症,如何克服排名异常的焦虑?
- 08-24SEO人员,如何解决页面零点击的问题?
- 01-23链接是什么,为什么网站链接很重要?
- 12-26企业网站托管?
- 12-19nofollow标签怎么用?
- 12-14什么是seo
- 12-13如何快速增加网站外链?
- 12-13如何判断网站被黑?
- 12-12网站被黑导致K站怎么办?
- 12-12影响网站关键词排名的因素
- 08-01如何防止网站被黑?
- 08-01网站访问速度和哪些因素有关呢?
- 热门标签