首先要问几个主要步骤来构建倒排索引:
()收集要编入索引的文件:
(2)将这些文件中的文字加以说明
(3)对步骤2中产生的术语进行语言预处理以获得术语
(4)根据条款索引所有文件。
本章首先定义文档的基本组成部分上海专业网站优化
(3)对步骤2中产生的术语进行语言预处理以获得术语
(4)根据条款索引所有文件。
本章首先定义文档的基本组成部分并在文档中介绍这些文档的主要语言方面。第2节)。接下来我将详细讨论词法和语言预处理过程中的大问题通过词法和语言预处理来确定系统使用的术语词典(见22)。所谓的okizio指的是将原始字符流翻译成单个术语(oken)的过程。语言学处理的目的是建立术语的等价类其中每个等价类对应于一个术语最终用于建立文档的索引。建立指数的过程主要在第1章和第4章中介绍。这在北京没有详细说明。本章最后讨论了倒排记录表的具体实现。第2节检查具有反转表记录的扩展数据结构该记录可以支持快速处理查询。 2.4节介绍了适用于处理短语查询和邻近查询的索引结构这些查询通常用于支持扩展布尔运算的检索系统和Web搜索系统。
2.1文档分析和编码转换
2 1.1字符序列的生成
作为索引构建过程的输家数字文档通常由文件或Web服务器上的一系列字节组成。
因此文档处理的第一步通常是将这些字节序列转换为线性字符序列。对于ASCI代码的简明英文文本处理它并不困难。然而在实践中经常遇到非常复杂的情况。例如字符序列可以使用各种单字节或多字节编码方法(例如Unicode中的UTF-8编码)或者可以使用来自不同国家和不同制造商的特定编码方法。因此为了实现从字节序列到字符序列的转换首先需要正确地判断文档的编码模式。判断过程可以看作是基于机器学习的分类问题(我们将在第13章讨论)但在实践中它通常是通过启发式方法实现的文档的元信息也可以直接利用或者直接用户手动选择确定。确定编码方法后我们可以将字节序列转换为字符序列并在此过程中还应保存编码信息因为这些信息有时可以帮助确定文档的语言类型。
分类器是将具有相同属性的对象分配给一个或多个类别的数字。它通常由机器学习方法(例如速率方法)实现但也可以通过手动编写的规则来实现。