与Googbot的第一次约会:标头和压缩

来源:未知 浏览 994次 时间 2021-03-13 13:24

本文翻译自:First date with the Googlebot: Headers and compression

谷歌呆板人 -- 如许神秘的幻想之舟!他领会咱们的精神和各个构成局部。大概许他并不商量什么独一无二的物品;他观察过其他数十亿个网站(虽然咱们也与其他搜寻引擎呆板人瓜分本人的数据:)),然而是便在今晚,动作网站和谷歌呆板人,咱们将简直地领会闭于方。

尔领会第一次聚会的时间,过度地领会从来便不是什么好办法。咱们将经过一系列的文章,一点点地领会谷歌呆板人:

咱们的第一次聚会(便在今晚):谷歌呆板人发出的数据标头和他所提防到的文件方法是否适于被进行压缩处置;估计他的反应:共意代码(301s、302s),他何如样处置沉定向和If-Modified-Since;下一步:跟着链接,让他爬行得更快大概者更缓(如许他便不会激动地过了头)。今晚不过咱们的第一次聚会……

***************谷歌呆板人: 吩咐精确应答网站: 谷歌呆板人,你来了!谷歌呆板人:是的,尔来了!

GET / HTTP/1.1Host: example.comConnection: Keep-aliveAccept: */*From: googlebot(at)googlebot.comUser-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Accept-Encoding: gzip,deflate

网站: 这些标头太炫了!不管尔的网站在美国、亚洲仍旧欧洲,你都用共样的标头爬行吗?你已经用过其他标头吗?

谷歌呆板人: 普遍而言,尔在寰球各地所用的标头都保护普遍。尔试图从一个网站默认的谈话和设定出发,搞领会一个网页毕竟长得什么样。偶尔间人们的用户代庖各不沟通,比方Adsense读取运用的是“Mediapartners-Google”:User-Agent: Mediapartners-Google

大概者闭于于图像搜寻:User-Agent: Googlebot-Image/1.0

无线读取的用户代庖因经经商而异,而谷歌观赏器RSS读取则包括了订阅者数目等特殊信息。

尔常常会制止Cookies(因此不存留所谓“Cookie:”标头),因为尔并不憧憬与简直闭于话有闭的信息闭于实质爆发太大的效率。其他,假如某个效劳器在理想URL而不是Cookies上运用闭于话ID,常常尔都能辨别出来,如许便不必因为屡屡闭于话ID的不共而汗牛充栋到处反复爬行普遍个网页。

网站:尔的构造格外搀杂。尔是用许多典型的文件。你的标头说:“Accept:*/*”。你会闭于十脚的URL进行收录,仍旧自动过滤某些文件扩充名?

谷歌呆板人:这要取决于尔想找什么。

假如尔不过闭于常规的Web搜寻进行检索,当尔瞅到指向MP3和视频实质的链接,尔大概不会下载这些物品。好像地,假如尔瞅到了一个JPG文件,处置办法天然 便与HTML大概者PDF链接有所辨别。比方JPG 的变化频率常常比HTML矮许多,所以尔不太常常查瞅JPG的变化,以俭朴戴宽。共时,假如尔为谷歌学术搜寻寻找链接,那么尔闭于PDF文章的风趣便会远远高于闭于JPG文件的风趣。闭于于学者而言,下载涂鸦图画(比方JPG),大概者是闭于小狗玩滑板的视频,是容易让他们分别注沉力的,你说闭于吗?

网站:没错,他们大概会感触被挨搅到了。你的敬业精力令尔敬仰得五体投地。尔本人便爱好涂鸦图画(JPG),很难抵挡它们的迷惑力。

谷歌呆板人:尔也普遍。本质上尔并不是从来都在干常识。假如尔为搜寻图像而爬行,便会闭于JPG格外感风趣,遇到新闻,尔会花大举气参瞅HTML和它们四周的图像。

还有许多扩充名,比方exe、dll、zip、dmg等,它们闭于于搜寻引擎而言,既数目宏大,又不多大用处。

网站:假如你瞅到尔的URL“http://www.example.com/page1.LOL111”,(呜噎着说)你会不会不过因为里面包括着未知的文件扩充名便把它拒之门外呢?

谷歌呆板人: 网站老兄,让尔给你道点背景知识吧。一个文件简直下载完成后,尔会运用“实质—典型”(Content-Type)标头来查瞅它属于HTML、图像、文本仍旧其他什么物品。假如它是PDF、Word文档大概Excel处事表等特其他数据典型,尔会确认它的方法是否正当灵验,并从中抽取文本实质。然而是你长久也不行决定里面是否含有病毒。然而是假如文档大概数据典型纷乱不清,尔除了把它们抛弃之外,也不什么更好的措施。

所以,假如尔爬行你的“http://www.example.com/page1.LOL111”URL并创造未知文件扩充名时,尔大概会开始把它下载。 假如尔从标头中无法弄清实质典型,大概者它属于咱们中断检索的文件方法(比方MP3),那么只能把它放在一面了。除此之外,咱们会接着闭于文件进行爬行。

网站:谷歌呆板人,尔很抱歉闭于你的处事风格“鸡蛋里挑骨头”,然而尔注沉到你的“Accept-Encoding”标头如许说:Accept-Encoding: gzip,deflate

你能跟尔说说这些标头是何如回事吗?

谷歌呆板人:天然。十脚的合流搜寻引擎和WEB欣赏器都救济闭于实质进行gzip压缩,以俭朴戴宽。你大概许还会遇到其他的一些典型,比方“x-gzip”(与“gzip”沟通),“deflate”(咱们也救济它)和“identity”(不救济)。

网站:你能更留神地说说文件压缩和“Accept-Encoding: gzip,deflate”吗?尔的许多URL都包括尺寸很大的Flash文件和美妙的图像,不只仅是HTML。假如尔把一个比较大的文件加以压缩,会不会有帮于你更赶快地爬行呢?

谷歌呆板人:闭于于这个问题,并不一个大概的答案。开始,swf(Flash)、jpg、png、gif和pdf等文件方法自己已经是压缩过的了(而且还有博门的Flash 优化器)。

网站:大概许尔已经把本人的Flash文件进行了压缩,本人还不领会。很明显,尔的效力很高喽。

谷歌呆板人:Apache和IIS都供给了选项,答应进行gzip和deflate压缩,天然,俭朴戴宽的价格是闭于CPU资材的更多消耗。普遍情景下,这项功效只实用于比较容易压缩的文件,比方文本HTML/CSS/PHP实质等。而且,惟有在用户的欣赏器大概者尔(搜寻引擎呆板人)答应的情景下才不妨运用。 便尔部分而言,更倾向于“gzip”而不是“deflate”。Gzip的编码过程相闭于稳当一些,因为它连接地进行加和查瞅,而且保护完备的标头,不像 “deflate”那样须要尔在处事中连接猜测。除此之外,这二种步调的压缩算法谈话都很好像。

假如你的效劳器上有闲置的CPU资材,不妨试验进行压缩(链接:Apache, IIS)。然而是,假如你供给的是理想实质,而且效劳器的CPU已经处于满负荷状况,尔倡导你仍旧不要如许干。

网站:很长睹闻。尔很喜悦今晚你能来瞅尔。感动老天爷,尔的robots.txt文件答应你能来。这个文件偶尔间便像闭于本人的后代过度保护的父母。

谷歌呆板人:说到此地,该睹睹父母大人了——它即是robots.txt。尔已经睹过不少发疯的“父母”。个中有些本质上不过HTML缺点信息网页,而不是灵验的robots.txt。有些文件里布满了无穷无尽的沉定向,而且大概指向实脚不相闭的站点。其他一些体积宏大,含有汗牛充栋条径自成行、各不沟通的 URL。底下即是个中的一种有副效率的文件形式,在常常情景下,这个站点是憧憬尔去爬行它的实质的:User-Agent: *Allow: /

然而,在某个用户流量的顶峰时段,这个站点转而将它的robots.txt切换到节制性极强的机制上:# Can you go away for a while? I'll let you back# again in the future. Really, I promise!User-Agent: *Disallow: /

上述robots.txt文件切换的问题在于,一朝尔瞅到这种节制性很强的robots.txt,有大概使尔不得不把索引中已经爬行的该网站实质放弃掉。当尔再次被接受加入这个站点的时间,尔不得不将本先的许多实质沉新爬行一遍,起码会姑且展示503缺点相应代码。

一 般来说,尔每天只能沉新查瞅一次robots.txt(不然,在许多假造主机站点上,尔会将偶尔势部时间花在读取robots.txt文件上,办法会不 几聚会闭于象爱好如许一再地拜访闭于方父母的)。站长们经过robots.txt 切换的办法来控制爬行频率是有副效率的,更好的措施是用网站控制员东西将爬行频率调至“较矮”即可。

谷歌呆板人: 网站老兄,感谢你提出的这些问题,你从来干得很不错,然而尔姑且不得不说“再睹,尔的爱人”了。

网站:哦,谷歌呆板人…(中断应答):)

本文转载自Google控制员博客:http://www.googlechinawebmaster.com/2008/03/blog-post.html

观赏本文的人还观赏

HTTP状况码是什么道理?

robots.txt文件有什么需要?

标签: 文件谷歌呆板闭于