聚泉网提示:欢迎访问聚泉网!(助记本站“聚泉365天—juquan365.com”)建议使用谷歌、火狐、360等浏览器访问本站。

搜索引擎如何抓取网页?

SEO基础知识 admin 2415浏览 0评论

       搜索引擎抓取网页要经过以下三个过程:首先在互联网中发现、搜集网页信息;然后对信息进行提取和组织建立索引库;最后由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

       所以,蜘蛛抓取网站的内容分为四个步骤,分别是抓取、筛选、索引的建立以及结果的输出。其中建立索引实际上就是指排序,即将在第二步中筛选后的页面,以关键词为单位储存于数据库中,并且进行排序,这样做的目的是在用户搜索的时候,能够直接调用这些信息。

搜索引擎如何抓取网页

搜索引擎如何抓取网页

        一、搜索引擎是怎么抓取网页的?

       1. 关键词的提取,取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),我们可以看到其中的情况纷乱繁杂。从认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。

       2. 重复或转载网页的消除与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,因此我们看到Web上的信息存在大量的重复现象。

       3、链接分析大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。

       4、网页重要程度的计算搜索引擎实际上追求的是一种统计意义上的满意。

       二、影响收录的因素有那些?

       1、文章内有重复。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的。大量从网上抄袭、采集或者复制的内容,就很可能不被收录。

       2、文章格式杂乱。往往文章带有之前的格式,或者段落错乱,文章出现大量的空白。这些问题,搜索引擎是很容易识别的。层次不分明也会认为这篇文章质量度不高,用户不喜欢,所以也会影响收录或者不收录。

       3、路径太深或带有中文路径。这关不利于蜘蛛爬取,一般路径最长为255个字节,再长的话蜘蛛爬取有困难。

       4、外链过少。打个比喻,外链就像钓鱼的鱼饵,就是用来钓蜘蛛的,饵少了,自然钓不到。

       5、对搜索引擎的信任度不高。如:大量的抄袭和伪原创,突然写一篇原创,那么原创文章也不会很快被收录。

       6、网站空间不稳定。网站空间经常打不开,蜘蛛不了抓取不到网站信息,通常会影响网站的权重。

       三、什么东西是蜘蛛不能识别的?

       搜索引擎能搜索的内容不像我们看的的一样,是一个完整清晰的页面,而是和我们查看网页源代码一样,看到的是代码,对Flash,js图片,视频的识别比较困难,抓取识别的过程是从上到下从左到右。 搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。为了让搜索引擎更还的识别不能识别的内容,我们可以给那些图片视频加上文字说明。

转载请注明出处:十堰SEO_十堰网站优化_十堰网络营销_十堰聚泉SEO博客: » 搜索引擎如何抓取网页?

发表我的评论
取消评论
表情