首页 > SEO教程 / 正文
与搜索引擎爬虫对话的方法
搜索引擎爬虫蜘蛛 2019-01-17 15:51:19 承接网站SEO顾问 SEO教程 ℃抓取策略:那些网页是我们需要去下载的,那些是无需下载的,那些网页是我们优先下载的,定义清楚之后,能节省很多无谓的爬取。
更新策略:监控列表页来发现新的页面;定期check 页面是否过期等等。
抽取策略:我们应该如何的从网页中抽取我们想要的内容,不仅仅包含最终的目标内容,还有下一步要抓取的url。
抓取频率:我们需要合理的去下载一个网站,却又不失效率。
让我对“如何和爬虫对话 ”这个课题有了一些思考,下面归纳的主要用于迎合上面提到的爬虫“抓取策略”。
1、通过 robots.txt 和爬虫对话:搜索引擎发现一个新站,原则上第一个访问的就是 robots.txt 文件,可以通过 allow/disallow 语法告诉搜索引擎那些文件目录可以被抓取和不可以被抓取。
关于 robots.txt 的详细介绍:about /robots.txt另外需要注意的是:allow/disallow 语法的顺序是有区别的
2、通过 meta tag 和爬虫对话:比如有的时候我们希望网站列表页不被搜索引擎收录但是又希望搜索引擎抓取,那么可以通过 meta name=“robots” content=“noindex,follow” 告诉爬虫,其他常见的还有 noarchive,nosnippet,noodp 等。
3、通过 rel=“nofollow” 和爬虫对话:关于 rel=“nofollow” 最近国平写了一篇文章《如何用好 nofollow》很值得一读,相信读完之后你会有很大的启发。
4、通过 rel=“canonical” 和爬虫对话:关于 rel=“canonical” 谷歌网站站长工具帮助有很详细的介绍:深入了解 rel=“canonical”
5、通过网站地图和爬虫对话:比较常见的是 xml 格式 sitemap 和 html 格式 sitemap,xml 格式 sitemap 可以分割处理或者压缩压缩,另外,sitemap 的地址可以写入到 robots.txt 文件。
6、通过网站管理员工具和搜索引擎对话:我们接触最多的就是谷歌网站管理员工具,可以设定 googlebot 抓取的频率,屏蔽不想被抓取的链接,控制 sitelinks 等,另外,Bing 和 Yahoo 也都有管理员工具,百度有一个百度站长平台,内测一年多了仍旧在内测,没有邀请码无法注册。
另外,这里面还衍生出一个概念,就是我一直比较重视的网站收录比,所谓网站收录比=网站在搜索引擎的收录数/网站真实数据量,网站收录比越高,说明搜索引擎对网站的抓取越顺利。
暂时就想到这些,目的在于尝试性的探讨如何更有效的提高网站在搜索引擎的收录量。
- 上一篇:网站权重优化
- 下一篇:手机移动网站的优化排名方法
猜你喜欢
- 2022-06-23 为什么搜索引擎对内容,总是喜新厌旧?
- 2022-06-23 如何与恶意“蜘蛛”爬虫暗度陈仓?
- 2022-06-22 搜索引擎本地算法,它对SEO的影响有哪些?
- 2022-06-20 SEO黑名单,如何避免网站被搜索引擎列入黑名单?
- 2022-06-20 网站404错误,是否影响抓取、索引、排名?
- 2022-06-14 网站搜索优化,正确认知SEO?
- 2020-11-06 搜索引擎SEO:小白应避免的5个错误!
- 2020-08-14 SEO养蜘蛛攻略,快速提升收录!
- 2019-06-10 技术搜索引擎优化的5个基本方面不容忽视
- 2019-05-21 人工智能的搜索算法是怎样的?
- SEO教程
- 了解更多搜索引擎,爬虫,蜘蛛,请在查看本站栏目对应内容进行参阅,如对与搜索引擎爬虫对话的方法有不明之处可以与我交流,如与搜索引擎爬虫对话的方法信息有误您也可以进行指导,本博客仅为SEO界的伙伴互相交流的一个SEO博客。【大军SEO,9年如一日因为专业所以专注!做网站优化9年,熟悉各种CMS,精通各种搜索引擎排名,深知产品推广套路。专注于营销型网站建设,整站优化外包、关键词排名、黑帽/白帽SEO技术!承接网站SEO优化服务、SEO顾问服务(QQ:88288050)】
- 07-04SEO和SEM有什么区别?
- 07-04网站SEO之数据分析
- 07-04中小企业网站SEO优化,从哪些方面入手?
- 07-04中小企业怎样做好网站SEO优化?
- 06-23什么是能谋善断,SEO能谋善断的方法?
- 06-23商企网站排名,云优化真的好吗?
- 06-23云备份是什么意思,网站怎么备份?
- 06-23SEO排名万能公式,两个要素值得关注?
- 06-23网站没有“实质性内容”也会有排名?
- 06-23SEO若不懂,不妄议,仍在学习的道路上
- 1489℃企业网络推广方法
- 468℃命中百度飓风算法后怎么恢复?
- 333℃提升伪原创内容的质量
- 264℃百度索引量与收录量区别
- 225℃seo管家中心
- 187℃2019年WordPress CMS怎么做SEO?
- 185℃百度图片推广的方法
- 171℃SEO入门教程技术分享
- 170℃三招教你摆平站内SEO优化
- 168℃优质网页面标题建议
- 06-13SEO推广,排名是唯一的衡量指标吗?
- 12-12百度快速排名优化的捷径
- 12-12更新文章对网站SEO优化有作用?
- 07-26网站优化要注意时时微调
- 07-23网站长期SEO优化没排名是为什么?
- 07-08什么是死链?百度是如何对待死链的?
- 06-26通过SEO占据价值百万的搜索引擎广告位
- 06-23【爱站seo教程】如何做到百度收录快?
- 06-12思维和技术哪个对于seo更重要
- 05-26百度内部seo培训视频教程
- 热门标签