您的位置  > 互联网

Open是开源的企业搜索和链接数据开放标准

基本功能介绍:

集成的研究工具使您可以在自己的服务器上使用免费软件更轻松地搜索、监控、分析、发现和文本挖掘异构和大型文档集合和新闻。

( )研究全部:

跨多个数据源和多种不同文件格式的简单全文搜索。 只需输入搜索查询(可以包括强大的搜索运算符)并浏览结果即可。

& ( ) 语义搜索:

基于同义词库,多语言语义搜索引擎将发现同义词、下义词和别名。 还可以使用启发式语法规则(例如词干提取)找到其他单词形式。

( )多方位搜索:

使用交互式过滤器(分面搜索)轻松浏览许多结果,该过滤器聚合了(元)数据(例如作者、组织、人员、位置、日期、产品、标签或文档类型)的概述和交互式过滤器。

, & ( ) 探索性搜索:

文本挖掘,通过预览分析或查看文档集来提取文本或词汇。 探索数据或搜索结果,聚合搜索结果的不同方面(即文件路径、标签、人员、位置、组织或产品)并生成概述。

& (&)社交搜索和协同过滤:

使用没有关键字、类别、名称或文本注释的原始内容标记文档,以便以后更好地查找它们(文档管理和知识管理)或在其他研究或搜索上下文中查找它们。 能够通过交互式过滤器(分面搜索)过滤带注释或标记的文档。 或评估、评价、评价或过滤文档(即验证或协同过滤)。

()数据可视化:

将数据(例如文档日期)可视化为趋势图或文本分析(例如词云、连接和网络),或将地理数据作为交互式地图查看。

: & () 动态消息:

通过监视列表从媒体监控或文件共享中新的或更改的文档的活动流获取新闻警报:以 RSS 订阅搜索和过滤器,并在有更改或新文档、新闻或搜索结果、搜索上下文或过滤器时收到通知。

文件

无论是结构化数据,如数据库、表格或电子表格,还是非结构化数据,如文本文档、电子邮件甚至扫描的旧文档:搜索许多不同的格式和内容类型(文本文件、Word 和其他文档或文档、Excel 或 Calc 工作表、 PDF、电子邮件、CSV、文档、图像、照片、图片、JPG、TIFF、视频和许多其他文件格式)此搜索引擎支持。

数据

在一处查找所有数据:搜索许多不同的数据源,例如文件和文件夹、文件服务器、文件共享、数据库、网站、内容管理系统、RSS-Feed 等。 数据集成负载(ETL)框架的连接器和导入器连接和组合多个数据源,作为集成的文档分析和数据丰富框架,它利用各种分析工具的分析结果增强数据。

文本

光学字符识别 (OCR) 或自动文本识别以图形格式存储的图像和文本内容,例如扫描的旧文档、屏幕截图或图像文件形式或嵌入 PDF 文件中的拍照文档。

基于可互操作开放标准的开源企业搜索和信息检索技术

( )移动端响应式设计:

开放语义搜索不仅适用于每个桌面(Linux 或 Mac)或 Web 浏览器。 得益于其响应式设计和 HTML5 等开放标准,可以在平板电脑、智能手机和其他手机上进行搜索。

(RDF)元数据管理:

在 Wiki 或其他内容管理系统 (CMS) 中构建您的研究、调查、导航、文档集、集合、元数据表单或注释,或使用带有分类法和自定义字段的创新注释框架来标记文档、注释、链接关系、映射和结构化注释。 因此,您可以使用可互操作的开放标准(例如资源描述框架(RDF)和简单知识组织系统(SKOS))集成强大而灵活的元数据管理或注释工具。

文件系统监控:

使用文件监控,可以在几秒钟内对新的或更改的文件建立索引,而无需频繁地重新爬网(如果文件很多,则这是不可能的)。 在数据管理系统、数据注册或数字资产管理 (DAM) 系统中,同事可以立即发现新数据(通常会被遗忘),而无需为每个新的或更改的文档或数据集填写数据注册表。

快速开始:

只需几个步骤即可设置搜索引擎服务器

打开 :

如果您是用户并且只想自己进行搜索,您可能需要使用开放虚拟机或加密实时 - 这对于单个最终用户来说更容易安装。

Open使用具体流程:

用法

, 和

索引或数据:

将文档复制到受监视的目录或在此类目录或文件共享中工作的目录,以便立即自动对新的和更改的文件和文档建立索引。 从不同格式提取文本或通过 OCR 识别文本,并且使用不同分析器或定性数据或结构丰富数据后,您可以搜索、探索和分析文本和结构:

打开:

开放式安装教程展示了如何将搜索引擎设置为公共网站,无论是在运行 GNU/Linux 或 Linux (Web) 服务器的管理员 服务器上,还是在现有虚拟机中。

索尔和 .

什么是 Solr?

Solr是一个面向Web的企业级搜索应用服务器。

具体的,将从搜索输入界面获取的信息转换为索引搜索信息并录入数据库。 将数据库中的相同索引提取到Solr项目中,通过Solr项目进行查询,提高查询效率。

solr索引类别:

正向索引( index):转发表使用文档的ID作为键。 表中记录了每个单词在文档中的位置信息。 搜索时,会扫描表中文档中每个单词的信息,直到找到所有包含查询的单词。 关键字文档。

倒排索引(反向索引):倒排表以词或词作为关键字来建立索引。 表中该关键词对应的记录条目记录了出现该词或词的所有文档。 一个条目是一个单词列表。 段,记录了文档的ID以及字符在文档中的位置。

Solr写入数据流程:

源字符串首先由分词器处理,包括分词和删除。 然后进行语言处理,包括大小写转换和单词转换。 将源数据中需要的信息添加到每个Field字段中,对需要索引的Field字段进行索引,并存储需要存储的Field字段。 然后索引被写入存储,可以是内存或磁盘。

Solr读取数据流程:

用户提供搜索关键词,即搜索语句,需要经过分词器和语言处理的处理。 对于处理后的关键字,通过索引查找对应的记录。 用户根据需要从找到的Field字段中提取所需的Field字段。

参考:

Solr 和关系:

第一个介绍是什么?

它是一个基于Java的全文信息检索工具包。 它不是一个完整的搜索应用程序,但为您的应用程序提供索引和搜索功能。 目前它是一个开源项目。 它也是最流行的基于Java的开源全文搜索工具包。

基于搜索功能的应用已经有很多,比如帮助系统的搜索功能。 它可以索引文本类型的数据,因此您只需将要索引的数据格式转换为文本格式即可对文档进行索引和搜索。

工作准则:

使用倒排文件索引结构

有两篇文章1和2

第1条的内容是:汤姆住在,我也住在

第2条的内容是:他曾经住在

通常需要进行如下处理:

A。 我们现在得到的是文章的内容,即一个字符串。 我们首先需要找到字符串中的所有单词,即分词。 英语单词更容易处理,因为它们是用空格分隔的。 中文单词是连在一起的,需要特殊的分词处理。

b. 文中的“在”、“曾经”、“太”等词语没有实际意义。 汉语中的“的”和“是”等词通常没有特定的含义。 这些不代表概念的词可以被过滤掉。

C。 用户在搜索“He”时通常希望找到包含“he”和“HE”的文章,因此所有单词需要大小写相同。

d. 用户在搜索“live”时通常希望找到包含“lives”和“lived”的文章,因此需要将“lives”和“lived”恢复为“live”。

e. 文章中的标点符号通常不代表某种概念,也可以过滤掉。

以上措施均按班级完成。

经过上述处理后,第1条所有关键词为:[tom][live][][live][]第2条所有关键词为:[he][live][]**

一旦我们有了关键字,我们就可以创建倒排索引。 上面的对应关系是:“文章编号”与“文章中的所有关键词”。 倒排索引将这种关系颠倒过来,变成:“关键词”与“含有该关键词的所有文章号”。倒排后,文章1和2就变成了

通常仅仅知道关键词出现在哪些文章中是不够的,我们还需要知道关键词在文章中出现的次数以及出现的位置。 通常有两种立场:

a) 字符位置,即记录该词在文章中的哪个字符(优点是关键词高亮时可以快速定位);

b) 关键词位置,即记录该词是文章中的哪个关键词(优点是节省索引空间,短语(相)查询快)。 这是 中记录的位置。

我们以live这一行为例来说明一下结构:live在第1条中出现了两次,在第2条中出现了一次。它的出现位置是“2,5,2”。 这是什么意思? 我们需要根据文章的数量和出现的频率来分析。 在第 1 条中出现了两次,所以“2,5”表示 live 在第 1 条中出现的两个位置。在第 2 条中出现了一次,剩下的“2”表示 live 是第 2 条中的第二个关键字。

以上就是索引结构的核心部分。 我们注意到,关键字是按字符顺序排列的(没有使用B树结构),因此可以使用二分查找算法来快速定位关键字。

实现时,将上述三列分别保存为词典文件(Term)、频率文件()、位置文件()。 字典文件不仅保存每个关键词,还保留指向频率文件和位置文件的指针。 通过指针可以找到关键词的出现频率信息和位置信息。

字段的概念用于表达信息的位置(例如在标题中、在文章中、在URL中)。 在建立索引的过程中,字段信息也记录在字典文件中。 每个关键字都有一个字段信息(因为每个关键字必须属于一个或多个字段)。

为了减小索引文件的大​​小,在索引上还采用了压缩技术。 首先,对词典文件中的关键词进行压缩。 关键字压缩为,例如:当前单词为“”,前一个单词为“”,则“”压缩为。 其次,数字压缩被广泛使用。 数字只存储与之前值的差值(这可以减少数字的长度,从而减少保存数字所需的字节数)。 例如,当前文章编号为16389(未压缩时使用了3个字节保存),之前的文章编号为16382,压缩后保存为7(仅使用了1个字节)。

下面我们可以通过查询索引来解释为什么要创建索引。

假设要查询“live”这个词,首先在字典中进行二分查找,找到这个词,通过频率文件的指针读出所有的文章编号,然后返回结果。 字典通常很小,因此整个过程需要几毫秒。

使用普通的顺序匹配算法并不建立索引,而是对所有文章的内容进行字符串匹配。 这个过程将会相当缓慢。 当文章数量较多时,时间往往难以忍受。

Solr 对比:

Solr 与 Solr 并不存在竞争关系,相反,Solr 依赖于它,因为 Solr 的底层核心技术是使用 .

Solr与Solr的本质区别在于:搜索服务器、企业级和管理。 本质上是一个搜索库,而不是 Solr 那样的独立应用程序。 Solr专注于搜索底层构建,Solr专注于企业应用。 它不负责支持搜索服务所需的管理,但 Solr 负责。

因此,用一句话来概括 Solr:Solr 是企业搜索应用程序的扩展。

参考:

Solr安装教程:

/lsdb/p/.html

Solr国内下载地址:///solr/8.9.0/solr-8.9.0.tgz