​搜索引擎的具体优化规则是什么?怎么做?

1、搜索引擎的具体优化规则是什么?

这种问题其实很宽泛,相当于问“ SEO怎么做?” 这里我用图片简单说明一下爬取规则

搜索引擎从用户搜索到最终搜索结果呈现的步骤是(以百度为例):

爬行网站seo搜索引擎优化,百度连你的网站都不认识,你怎么能排名呢? 所以要让百度认识你,首先要经过爬取这一步;

过滤,过滤掉低质量的页面内容;

索引,只存储符合条件的页面;

处理,对搜索词进行处理网站seo搜索引擎优化,比如中文特有的分词处理、去除停用词、判断是否启动整合搜索、判断是否有拼写错误或错别字等。

排名,向用户展示优质页面;

蜘蛛():

搜索引擎发送的用于发现和抓取互联网上新网页的程序称为蜘蛛。 它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页网站seo搜索引擎优化,并沿着网页中的链接访问更多的网页。 ,这个过程称为爬行;

网站的蜘蛛爬行策略有两种:深度优先和广度优先。

图片[1]-​搜索引擎的具体优化规则是什么?怎么做?-未来可期SEO

爬取的基本流程:

根据爬取目标和范围,可以分为

批量爬虫:明确爬取目标和范围,达到即停止;

增量爬虫:针对网页不断更新的状态,爬虫需要及时响应,一般商业引擎一般都是这种类型;

垂直爬虫:仅针对特定领域的爬虫,根据主题进行过滤;

百度官方的抓取策略

1、爬取友好性,一段时间内同一网站的爬取频率和爬取流量不同,即错开正常用户访问峰值并不断调整,避免捕获的网站访问行为对正常用户造成过大影响。

2、常用的捕获返回码,如503、404、403、301等;

3、各种url重定向的识别,比如http 30x、meta重定向和js重定向,标签也可以看作是变相的重定向;

4、爬虫优先级分配,如深度优先遍历策略、广度优先遍历策略、PR优先策略、反链策略、大站优先策略等;

5、重复url过滤,包括url规范化识别,例如某个url包含大量无效参数,但实际上是同一个页面;

6、暗网数据的获取,搜索引擎暂时无法捕获的数据,例如网络数据库中存在的数据,或者由于网络环境、网站本身不符合规定、孤岛等问题而无法捕获的数据.、比如百度的“阿拉丁”计划;

7、爬虫和反作弊。 在爬虫的过程中,我们经常会遇到所谓的爬虫黑洞或者大量低质量页面的困扰。 这就要求爬虫系统也需要设计一套完整的爬虫和反作弊系统。 如分析url特征、分析页面大小和内容、分析爬取规模对应的网站规模等;

感兴趣的页面分为 3 类:

图片[2]-​搜索引擎的具体优化规则是什么?怎么做?-未来可期SEO

1. 以前从未抓取过的新页面。

2. 已被抓取但内容发生变化的页面。

3. 已抓取但现已删除的页面。

蜘蛛不能/不喜欢抓取的内容:

1. 页面被机器人屏蔽;

2、图片、视频、Flash等内容;

3.js、框架、表格嵌套;

4、蜘蛛被服务器拦截;

5. 孤岛页面(无任何导入链接);

6、登录后才能获取的内容;

四种类型的近似重复页面:

1、完全重复页面:内容和布局格式没有区别;

2、内容重复的页面:内容相同,但布局格式不同;

3、布局重复页面:一些重要内容相同,布局格式相同;

图片[3]-​搜索引擎的具体优化规则是什么?怎么做?-未来可期SEO

4、部分重复页面重要内容相同,但布局格式不同;

典型网页去重算法:特征提取、文档指纹生成、相似度计算

低质量的内容页面:

1、多个URL地址指向同一个网页和镜像站点,如带www和不带www的同时解析到一个网站;

2. 网页内容重复或近似重复,例如采集内容、错误文字或垃圾信息;

没有丰富的内容,例如纯图片页面或搜索引擎无法识别的页面内容;

过滤 – 如何处理重复文档:

1.低质量内容将被删除

2.高质量重复文档优先展示(重复度高表示受欢迎)

关注我的头条(常州江东)了解我的其他文章:

常见客户SEO问题解答:搜索引擎优化的规则是什么

常见客户SEO问题解答:网站标题如何写

常见客户SEO问题解答:网站的关键词布局到底是怎样的?

常见客户SEO问题解答:如何优化网站关键词?

常见客户SEO问题解答:网站降级了怎么办?

除非注明,否则均为未来可期SEO原创文章,转载必须以链接形式标明本文链接

本文链接:https://www.szsinotech.com/seo_5768.html

© 版权声明
THE END
喜欢就支持一下吧
点赞0赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片