首页 > SEO常见问题 / 正文
搜索引擎如何判断文章原始出处?
搜索引擎判断文章 2018-12-26 15:58:00 承接网站SEO顾问 SEO常见问题 ℃有很多人咨询过笔者(Mr.Zhao),百度如何判断伪原创和原创?百度喜欢什么样的文章?什么样的文章比较例如获得长尾词排名?等等诸如此类的问题。
复制内容网页有的时候会影响网页排名!
比如说原本是你写的文章,本来应该排名很好,但是其他人抄袭或转载你的文章,而且搜索引擎不幸的判断那篇被抄袭或转载的网页是原始出处的话,你应有的排名就会被那个网页夺走。
那么搜索引擎怎样才能从多个网页中挑出哪一个是原始出处呢?可能有以下几个考虑:
1)网页PR值。网页PR值越高,被认为是原始版本的可能性就越大。
2)网页第一次被收录的时间。网页被搜索引擎收录的时候越早,相比后发现的相同内容的网页来说,被当作原始出处的可能性就越大。
3)域名注册时间。越老的域名上面的网页被当成原始出处的可能性也越大。
4)网站的权威度。这就有点说不清了,可能包含前面3个因素,还有很多其他因素。
但到目前为止,无论以哪一个因素为主,或怎样组合这些因素,都不可能完全正确从多个网页中挑出原始出处。
比如说我这个博客就很新,域名也很新,文章被收录的时间有的时候也不一定是最早的,就权威地位和被信任度来说,也肯定比不上很多中文网站。但我的博客新,我的域名新,并不意味着我的内容就不是原始出处,实际上我的所有博客都是原创。
我最近也发现了很多网站都转载,有的时候是抄袭我的博客内容,很多网站的规模,历史,PR值都比我的网站要高的多。
在检测文章原始出处方面,Google做的比较好,基本上能够正确判断,百度做的就比较差。从我的文章在不同的地方出现的情况看,百度似乎认为域名比较老的就是原创。
这个问题不是网站管理员自己可以解决的,只有依靠搜索引擎算法的改进。
现在基本上搜索引擎对于原创的识别,在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的,在其官方博客有相应的文章介绍。这里,我就做个大白话版本的介绍,争取做到简单易懂。
算法示例:通过分析内容1,得到内容1中权重最高的关键词k,那么按照权重大小进行排序,前N个权重最高的关键词的集合我命名为K,则K={k1,k2,……,kn},则每一个关键词都会对应一个其在页面中获取到的权重特征值,我将k1对应的权重特征值设定为t1,则前N个权重关键词对应的特征值集合则为T={t1,t2,……,tn},那么我们有了这个特征项,就能计算出其相对应的特征向量W={w1,w2,……,wn}。接着我们将K拼成字符串Z,同时MD5(Z)则表示字符串Z的MD5散列值。
那么假定我们判定的两个页面分别是i与j。
则计算出两个公式。
1.当MD5(Zi)=MD5(Zj)时,页面i与页面j完全相同,判断为转载。
2.设定一个特定值α
当0≤α≤1的时候,我们判定页面相似为重复。
由此,对于原创文章的判断就结束了。好了,苦逼烦闷的枯燥讲解告一段落,下面我们用大白话再重新复述一遍。
首先,你的内容一模一样,一个字都不带改的,那肯定是摘抄的啊,这时候MD5散列值就能迅速的判断出来。
其次,很多SEO他们懒,进行所谓的伪原创,你说你伪原创时插入点自己的观点与资料也成,结果你们就是改个近义词什么的,于是我就用到了特征向量,通过特征向量的判断,把你们这些低劣的伪原创抓出来。关于这个,判断思想很简单,你权重最高的前N个关键词集合极为相似的时候,判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合,于是构建了特征向量,当对比的两个向量夹角与长度,当夹角与长度的差异度小于某个特定值的时候,我将其定义为相似文章。
- 上一篇:域名种类会影响搜索排名吗?
- 下一篇:ppc竞价排名
猜你喜欢
- 2022-06-23 为什么搜索引擎对内容,总是喜新厌旧?
- 2022-06-22 搜索引擎本地算法,它对SEO的影响有哪些?
- 2022-06-20 SEO黑名单,如何避免网站被搜索引擎列入黑名单?
- 2022-06-14 网站搜索优化,正确认知SEO?
- 2020-11-06 搜索引擎SEO:小白应避免的5个错误!
- 2019-06-10 技术搜索引擎优化的5个基本方面不容忽视
- 2019-05-21 人工智能的搜索算法是怎样的?
- 2019-03-16 搜索市场:2018年全球搜索引擎市场份额排名前15位
- 2019-02-15 搜索引擎分类有哪些?
- 2019-02-13 为什么有的新站,搜索引擎收录很快?
- SEO常见问题
- 了解更多搜索引擎,网页文章,出处,请在查看本站栏目对应内容进行参阅,如对搜索引擎如何判断文章原始出处?有不明之处可以与我交流,如搜索引擎如何判断文章原始出处?信息有误您也可以进行指导,本博客仅为SEO界的伙伴互相交流的一个SEO博客。【大军SEO,9年如一日因为专业所以专注!做网站优化9年,熟悉各种CMS,精通各种搜索引擎排名,深知产品推广套路。专注于营销型网站建设,整站优化外包、关键词排名、黑帽/白帽SEO技术!承接网站SEO优化服务、SEO顾问服务(QQ:88288050)】
- 07-26百度相关搜索是什么目的?
- 07-08url指的是什么,URL是什么意思?
- 07-04网站http协议转https协议怎么操作?
- 06-22如何理解网站SEO主题的矛与盾?
- 06-22外链增长速度怎么算,为什么你要关心?
- 06-22网站关键词排名,容易忽略误区
- 06-22关键词拼写错误,对SEO有什么影响?
- 06-22如何申请网站子链,为什么站点子链很重要?
- 06-22SEO的道与术,因果关系的选择
- 06-22网站页面不参与排名的原因是什么?
- 344℃网站关键词排名,容易忽略误区
- 292℃SEO优化基础教程(主关键词、长尾关键词)
- 260℃SEOer面试常见问题解答
- 241℃在做网站SEO优化时常见的5个疑问
- 232℃什么是降权, 如何做降权查询?
- 223℃SEOVIP 培训单页,如何排名百度首页
- 222℃如何找出网站收录异常的罪魁祸首?
- 195℃网站SEO基础流程图
- 194℃高质量外链资源有哪些?
- 190℃SEO文章转载要注意什么?
- 01-23链接是什么,为什么网站链接很重要?
- 12-26企业网站托管?
- 12-19nofollow标签怎么用?
- 12-14什么是seo
- 12-13如何快速增加网站外链?
- 12-13如何判断网站被黑?
- 12-12网站被黑导致K站怎么办?
- 12-12影响网站关键词排名的因素
- 08-01如何防止网站被黑?
- 08-01网站访问速度和哪些因素有关呢?
- 热门标签