您的位置  > 互联网

在线工具优化的词典存储,更小的内存占用

.png

详细信息:在线工具

它是一个基于Java语言开发的开源、轻量级的中文分词工具包。 最初是一个基于开源项目、结合字典分词和语法分析算法的中文分词组件。 .0新版本已经发展成为Java的公共分词组件,独立于项目之外,并提供了默认的优化实现。

.png

采用独特的“前向迭代最细粒度分词算法”,拥有50万字/秒的高速处理能力。

采用多子处理器分析模式,支持英文字母(IP地址、电子邮件、URL)、数字(日期、常用中文数字、罗马数字、科学记数法)、中文词汇(人名、地名处理)等分词处理), ETC。

优化词典存储,更小的内存占用。支持用户词典扩展定义

针对全文检索进行优化的查询分析器; 利用歧义分析算法优化查询关键词的搜索排列组合,可以大大提高检索命中率。

在线工具窗口:

.png

百度在线分词

百度分词算法实现精准分词和匹配。 基于主特征空间相似度计算的分割算法和分割框架。 构建分割的上下文,并巧妙地将统计特征投影到其主要特征空间中。 (特征空间是矩阵所有特征向量跨越的空间,主特征空间是矩阵主特征向量跨越的空间。与特征空间相比,主特征空间可以覆盖特征空间中的大部分信息,并且可以辅助相关应用进行有效的降维、去噪、数据变换等)、计算相似度,并根据主特征空间的维度进行分割。

百度在线分词窗口

.png

从图中可以看出,用户可以选择分词的准确度,包括歧义处理、新词识别、多维分词等。

该算法的一个核心点是主特征空间维度k的确定。 换句话说,对于给定的待处理字符串,如果预先知道需要分片的数量,那么可以使用一些简单的统计策略(例如MI)对其进行更好的分片。

该切分算法从数据分布出发,根据切分片段特征制定假设,通过基本标记在一定相关语义下的统计分布进行切分。 与基于EM/HMM等模型的无监督分割算法相比,该方法的一个明显优势是充分考虑了整个分割片段的信息,而不是相邻token之间的统计; 同时该方法采用了空间变换等方法,通过有效的数据去干燥等策略,使数据分布变得更加真实。

与CRF等监督学习相比,该方法的输入是ngram语言模型,不需要手动标注数据。 同时,该方法可以识别新词,这在互联网应用中极为有利。 同时,对于不同的语言不兼容领域,只要我们提供足够可靠的语言模型,就可以很大程度上解决他们的切分需求。

分词经验1.:

.png

2.百度在线分词工具

原文:

.png

(1)默认分段:

.png

(2)选择歧义处理:

.png

(3)选择歧义处理和新词识别:

.png

(4)选择歧义处理、新词识别、多重分词:

.png

3. 对比分析

从图中可以看出,在线工具本身集成了歧义处理、新词识别、多距离切分等功能。 分词结果与百度分词工具选择各种精度得到的结果最为接近。 我们来对比一下新词“蓝薄蘑菇”的分词:

.png

.png