[搜索引擎原理]搜索引擎初步工作原理

来源:未知 浏览 157次 时间 2021-05-25 01:24

[搜索引擎原理]搜索引擎预处理的工作原理

[搜索引擎原理]搜索引擎预处理工作原理

通过上述编辑对搜索引擎预处理概念的简要介绍读者必须有一定的了解那么在许多预处理过程中是什么样的工作流程呢?让我们来看看预处理中搜索引擎的各种工作流程!

[搜索引擎原理]搜索引擎预处理工作原理

1.关键字提取:搜索引擎可以完全识别的主要原因是基于文本内容的网络资源。搜索引擎蜘蛛也会抓取大量HTML代码如关键字网页设计制作如关键字描述标题Hcssdiv标签等其主要工作是处理HTML标签程序等然后提取文本内容用于排名计算。

2.删除重复无用的单词:在网页中多次出现相同的单词如“得得”“我”“的”“你”“地地”“啊”“呀” “无用的词语如”“”重新“和”到“虽然发生的频率非常高但一旦反复出现就没有多少价值。一般来说这样的词语都归结为停用词。这样的话也是需要删除。

3.中文分词技术:分词是中文搜索引擎的独特技术支持。中文信息和英文信息的区别在于:英文单词和单词用空格分隔。这对中国人来说是不可行的。搜索引擎必须将整个句子切成小单位例如“我是中国人”。出来的形式是“我”“是”“中国”“人”。分词技术的效率直接影响整个系统的效率。

基本上有两种分词方法:基于分词的:分词方法和基于统计的分词方法。

1)基于单词匹配的分词

根据匹配方向可分为正匹配反向匹配和最小切割字。这三种方法可以组合使用即前向最大匹配反向最大匹配前向最小匹配和反向最小匹配。

前向最大匹配:假设字典中最长的单词是m首先根据中文标点符号和特征单词将中文句子分成短语然后取短语的前m个单词找出该单词是否存在于字体中。如果它存在该短语将删除该单词;如果它不存在则删除m个单词的最后一个单词网页设计制作则删除m个单词的最后一个单词然后检查剩余单词是否是单个单词如果是则输出单词并从短语中删除单词如果不是则继续判断单词是否存在于字体中然后重复循环直到输出一个单词然后继续重复读取剩余短语的前m个单词。这允许您将短语划分为单词组合。

以“我是一个好人”为例。假设字典中最长的单词是3正的最大匹配顺序是:

(1)取出短语“我在中间”并检查字典中是否存在“我在中间”或单个单词。处理方法是删除最后一个“中间”字;

(2)检查字典或单词中是否存在短语“我”处理方法是删除“是”;

(3)检查字典中是否存在单词“I”或单个单词“I”是单个单词并输出单词“I”;

(4)继续删除“是中国”这个短语并通过删除最后一个“国家”字来检查字典中是否存在“中国”或单个词;

(5)检查词典中是否存在短语“单词”或单个单词处理方法是删除“中间”单词;

(6)检查字典中是否存在单词“是”或单个单词“是”是单个单词并输出单词“是”;

(7)取出“中文”一词通过处理最后一个“好”字检查字典中是否存在“中文”或单个字;

(8)检查短语“中国”发现它是字典中的一个单词直接输出;

(9)检查短语“nationals”网页设计制作直接输出;

(9)检查短语“nationals”发现它是字典中的一个单词直接输出;

(10)最终输出为:我是中国人。

反向最大匹配:句子末尾的分割方法。反向最大匹配技术的最大影响之一是消除歧义。例如“在下城子镇举行全营销线下派对”根据正面最大匹配结果为:富/营销/线/下/派对/进/出/城子镇/举行显然这是一个歧义。 Xiachengzi Town是一个地名尚未正确分割。可以通过使用反向最大匹配的技术来纠正此错误。例如如果分词节点的大小设置为7那么显然“持有”被划分为“下城子镇”最后“党在下城”所以消除了歧义。

很少使用前向最小匹配/反向最小匹配:并且实际使用中反向匹配的准确度高于正匹配。

2)基于统计分词方法

标签: 原理搜索引擎工作预处理