关于网站爬行问题和解决方案

来源:未知 浏览 289次 时间 2021-04-25 02:08

SEO教程:当你面对成千上万的大型网站可能遇到的潜在问题你从哪里开始呢?这是我们试图解决的问题的时候重建web爬行。答案几乎完全取决于你的网站这可能需要一个深入了解其历史和目标网站被爬虫认知这可能需要一个深入了解其历史和目标但是我想概括一个SEO的过程可以帮助你减少噪音和开始使用它。简单操作有时是危险的。为什么?在此之前我们想每个问题在网站的开始标记为高中低优先级。这个简单的方法可能是有用的但我们发现它不可能这样做你可能想知道为什么我们放弃了它。

首先网站优化的优先级元素取决于你的意图。如果一个搜索引擎搜索一个网站误解你的意图会导致坏的结果从混乱到灾难性的结果。例如我们雇用了一个全新的seo moz发现以下问题:有近35000 noindex标签同时在网站上?如果我们使用搜索引擎优化工具来快速删除这些标记网站本身会遭受很多而不是认识到这些指令大多数是经过深思熟虑的。我们可以让我们的系统更聪明但他们不?t理解所以我们需要谨慎假警报。

其次优先级问题不能帮助你理解这些问题的本质或如何解决它们。我们现在描述web爬行划分为4个类型:历史问题重定向问题的元数据内容分类的数据类型可以使你获得更多的搜索引擎优化技术。

帮你发现问题是最后一步。我们希望能更好的帮助你解决这个问题。与爬行动物开始严重的问题这并不意味着一切都是主观的。一些问题将防止爬虫(不仅我们的而且搜索引擎)进入你的页面。我们把这些“关键履带问题”进行分类目前包括5 xx错误4 xx错误重定向到4 xx。如果你突然得到一个5 xx错误你需要知道一些人故意把输出重定向到404。整个网络爬虫接口您将看到一个突出严重的履带问题:找到红色预警图标快速找到关键问题。

首先解决这些问题。如果你不能抓取页面那么所有其他爬虫的问题不能解决这是非常不利于搜索引擎优化。2. 在解决你的技术搜索引擎优化问题平衡的问题我们也必须平衡问题的严重程度和数量。如果你不?不知道你的网站我想说404错误可能值得解决之前复制内容如果你有11复制404和1784页?你优先考虑的事情突然变得非常不同。我们已经做了一些搜索引擎优化数据分析为你增加紧迫感的普遍性问题。这需要一些假设优先级但如果你的时间是有限的我们希望为您提供至少一个快速解决几个关键问题的起点。

解决多页问题的另一个优点是解决大容量的问题。在许多情况下你可以修复数百(甚至数千)的页面。这是一个更多的战术方法节省你大量的时间和金钱。

因此我们可以通过URL过滤解决web爬行的问题:我很快就会看到这些页面占392页和我没有描述高达43%。如果我担心这个问题也许我可以解决它与一个相当简单的CMS页面消除数以百计的几行代码的问题。在不久的将来我们希望为你做一些分析但如果过滤做不到这一点你也可以出口任何csv的问题列表。然后杞县网站优化你也可以出口任何csv的问题列表。然后旋转和过滤你的心的内容。

进入页面通过PA和爬行深度。如果你找不到一个明确的模式或者你已经解决了一些重大问题下一步是什么?如果你知道这些url很重要值得解决成千上万的问题。幸运的是您现在可以按页面排序权限(PA)在web爬行和抓取深度。PA是一个内部的指标我们的排名能力(主要是由链接权重)爬行深度之间的距离页面和主页:在这里我可以看到Mozbar网站重定向链这是一个非常高的特权页面。这可能是一个问题值得解决的即使它不是一个明显的一部分更大的组织。

标签: 网站抓取问题