搜索引擎检索页面。下一步是分析页面的内容包括页面类型确定提取页面主题北京网页设计确定提取页面主题删除页面噪声去除停止词中文分词统计、登记和重新创建关键字索引数据库。
确定页面是一个正常的页面或一个特殊的如PDF、WPS PPT TXT等;区分文本、图片、视频和其他内容形式并确定页面的网站论坛视频文本等等
目前搜索引擎基本上不承认JS的内容AJAX flash图像视频框架和iframe框架结构主要使用文本关键词来捕获文本处理和搜索信息。提取页面级功能内容比如标题、关键字和描述。这些特征所占的比例非常高网页的内容相关性。在正常情况下它还表明web页面的主题。
消除噪声等内容无关的广告登录框版权声明等等并提取主题内容。这部分不是很严格每个搜索引擎的处理是不同的。一般推荐内容锚文本、导航等仍然很有价值。
分词中文搜索引擎是一个独特的一步。搜索引擎需要认识到哪些词可以组合成单词。每个搜索引擎都有自己的巨大的词汇量。根据词典匹配的内容网页分割。中文分词有两种主要方法:乐此不疲词典匹配和基于统计的分词。他们有自己的优点和缺点。在实际应用中它们混合方法这不仅是快速和有效的但也可以识别生词和消除歧义。
百度搜索引擎可以使用快照页面来查看哪些关键字分为输入文本如下所示:
分词的目的是理解网页的内容。停止词如“德”、“德”、“啊”、“Ba”将被删除第一个页面文本的主题更加突出。当然虚词也不是很好。例如发音、意义和用法的单词介绍了新华字典页面上“?”为主题。主题是“?”字。关键字排名优化是搜索引擎的持续跟踪和分析和历史数据的条目。
分词后搜索引擎会将页面上的每个单词出现的次数和计算密度以便搜索引擎可以识别页面内容的相关性。建议关键词布局密度在2% - -8%之间。如果太低很容易被视为低相关性的主题内容如果它太高了它可能被视为一个不喜欢的关键字优化容易受到惩罚。
 
 
从索引的建立网站网站的优化结果可以估计
内容相关性:除了页面标题关键词描述和词密度、H标记(H1标签也很重一般用于文章标题、H2和H3标签也有一定的影响。他们通常用于段主题但不是H4)后和内容以粗体标记显然会吸引更多的关注比其他普通的标签。此外最好是核心关键字出现在页面的前面比后面。锚文本链接的相关性和重要的数据收集和分析。
搜索引擎喜欢原创的内容不像许多重复的内容页面。完成上述步骤后他们可以识别的内容功能页面重复的内容。
上述处理后页面关键字记录和重量因素如词频、位置、格式(H标记大胆锚文本)记录。搜索引擎为页面创建一个索引结构和关键字表。指标有两种结构:一个积极的指标结构和反向指标结构。的索引结构每个文件对应一个文件ID和文件的内容表示为一组关键字。
搜索引擎用户的搜索关键词。积极的索引不利于查询效率搜索引擎将会积极的指数反向索引。反向索引结构的映射关键字文件集。用户只会检索索引页面。
包括:只要它可以被搜索引擎蜘蛛爬行分析后有价值的页面将被包括在内。
指数:搜索引擎已经包含页面和会议的内容用户认为是有意义的可以创建一个索引可能会有交通。网站排名优化是基于web页面被索引。