倒排索引
倒排索引是单词文档矩阵的一种存储形式
分词系统将文档切分成单词序列
单词文档矩阵 = 单词词典 + 倒排文件
单词词典:所有单词的集合,包括单词本身的信息和指向倒排列表的指针
倒排文件:所有单词的倒排列表顺序地存储在磁盘里形成的文件
倒排列表最简单的形式仅记录包含某个单词的文档编号(DocID),复杂一些的,还记录了单词在某个文档出现的次数,即单词频率(TF),还可能包含某个单词的文档数,即文档频率(DF),和单词在文档中的位置(Pos)
Elasticsearch是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的 RESTful API 来隐藏Lucene的复杂性,从而让全文搜索变得简单。