elasticsearch 拼音分词(elasticsearch-analysis-pinyin)

标签: elasticsearch


elasticsearch 拼音分词(elasticsearch-analysis-pinyin)

 

官网:https://github.com/medcl/elasticsearch-analysis-pinyin

 

*****************************

安装pinyin分词

 

进入容器,在线安装

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.5.1/elasticsearch-analysis-pinyin-7.5.1.zip

 

查看分词插件

      

 

 

*****************************

pinyin分词介绍

 

pinyin插件提供:analyzer:pinyin、tokenizer:pinyin、token-filter:pinyin

 

**********************

相关参数

 

keep_first_letter:默认为true,刘德华==》ldh

keep_separate_first_letter:默认为false,刘德华==》l、d、h

limit_first_letter_length:限制first_letter的长度,默认为16

keep_none_chinese_in_first_letter:首字母中保存非中文,默认为true,刘德华2020==》ldh2020

 

keep_full_pinyin:默认为true,刘德华==》[liu、de、hua]

keep_joined_full_pinyin:默认为false,刘德华==》liudehua

keep_none_chinese:保存非中文字符,默认为true

keep_none_chinese_together:非中文字符在一起,默认为true,DJ音乐家==》[DJ、yin、yue、jia]

 

none_chinese_pinyin_tokenize:非中文分词,默认为true,liudehua==》liu、de、hua,需先开启keep_none_chinese、keep_none_chinese_together

 

keep_original:保存原始文本,默认为false

lowercase:非中文字符小写,默认为true

trim_whitespace:空白字符分隔,默认为true

remove_duplicated_term:移除重复的分词,默认为true,de的==》de

ignore_pinyin_offset:忽略拼音的偏移量,默认为true

 

 

*****************************

测试pinyin分词

 

        

 

        

 

 

版权声明:本文为weixin_43931625原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43931625/article/details/104000371

智能推荐

Elasticsearch 5.5.1 中文/拼音分词 亲测有效

所有不说明elastic 版本的博客都是耍流氓 。 ——某码农 原文链接 版本如题。拼音和中文分词一起的整个测试流程如下: 预备 删除 index 创建一个 index_name 的 index 修改 type 的 mapping 创建测试数据 测试拼音分词效果 测试分词 搜索数据 拼音搜索 在做分词时遇到的问题 问题和解决 配置完成之后发现分词不生效,查看 elastcs...

spring boot 整合 elasticsearch 拼音分词 jest方式 学习笔记

一 环境安装 安装elasticsearch ,下载地址https://mirrors.huaweicloud.com/elasticsearch/7.4.0/ 下载安装插件:ik分词器,pinyin插件 下载安装 elasticsearch head ; 二 springboot 项目配置pom spring 添加如下配置 spring: elasticsearch: jest: uris: h...

【Elasticsearch教程20】Pinyin拼音分词器 以及多音字修改

Elasticsearch Pinyin拼音分词器 1. 前言 2. pinyin分词器的多音字的错误修改 3. 案例 3.1 创建Mapping 3.2 插入测试文档 3.3 测试拼音搜索 3.4 查看拼音分词后结果 4. 结语 1. 前言 在开发企业项目时,根据拼音搜索是很常见的场景,比如: 人员通讯录,不确定人名具体是哪个汉字,只知道读音,可以输入汉字+全拼音、汉字+拼音首字母、拼音首字母等...

linux上安装Qt4.8.6+QtCreator4.0.3

一、Qt简介 Qt是1991年奇趣科技开发的一个跨平台的C++图形用户界面应用程序框架。它提供给应用程序开发者建立艺术级的图形用户界面所需的所有功能。Qt很容易扩展,并且允许真正地组件编程。 准备工作 操作系统:centos6.5 位数:64位 二、安装 1、获取源码Qt4.8.6 2、获取源码QtCreator4.0.3 2、安装QtCreator4.0.3 进入QtCreator安装界面,指定...

react-native metro 分析

文章目录 前言 概念 Resolution Transformation Serialization 打包方式 Moudles Plain bundle Indexed RAM bundle File RAM bundle 流程 前置流程 resolve流程 Transformer流程 序列化流程 缓存 为什么要缓存 缓存的请求与缓存 Metro配置 结构 前言 metro是一种支持ReactNa...

猜你喜欢

嵌入式Linux——应用调试:用户态打印段错误信息

简介:     很多时候我们会遇到段错误:segmentation fault,而段错误有时是由内核引起的,有时是由应用程序引起的。在内核态时,发生段错误时会打印oops信息,但是在用户态时,发生段错误却只会打印segmentation fault而并不会打印其他的信息。所以本文主要介绍在用户态时,通过修改内核设置和添加启动参数来打印引发segmentati...

springboot1.4.1整合logback 遇到的问题

springboot1.4.1整合logback 遇到的问题 项目使用了springboot1.4.1整合logback,然而设置的过期时间15 并没有生效, 2GB达到2G自动删除也没有生效,仅仅实现了按大小分割。 经过查看pom 父工程内的源码发现是默认的logback版本是1.1.7,而过期时间配置是在logback 1.1.8以后才支持的。 不得不说这是springboot1.4.1 的b...

记一次C/S架构的渗透测试

概述 目标站点是http://www.example.com,官网提供了api使用文档,但是对其测试后没有发现漏洞,目录、端口扫描等都未发现可利用的点。后发现官网提供了客户端下载,遂对其进行一番测试。 信息收集 先抓了下客户端的包,使用Fiddler和BurpSuite都抓不到,怀疑走的不是HTTP协议,用WireShark查看其确实用的是HTTP协议,但是数据包不好重放,这里最后使用了WSExp...

Linux:结合Securecrt进行文件上传(lrzsz)P2

1、安装rzsz软件   2、点击Scurecrt的option——X/Y/Z配置上传和下载目录   3、首先在Linux里切换到一个目录,然后用rz命令,文件就会上传到钙Linux的目录下   只要敲rz即可,然后在弹出的对话框里选择需要上传的文件即可 4、下载文件用sz   下载单个文件:在当前目录下有该文件     sz filename   下载...

SQL 提示作为 布局 生存工具指南

下面是一些展示AdventureWorks中表现最好的销售人员并列出他们的经理的结构化查询语言代码。 它产生以下结果。 所以,代码是有效的,但它是丑陋的。 如果我需要理解和改进代码,我首先需要把它变成可读的形式。 我有结构化查询语言提示,所以我可以按下计算机的ctrl按键键 踢你自己),它会应用默认的内置代码样式,并对此进行修复。 不,不是,因为我相信你仍然不喜欢它的格式。 没有两个开发人员能够就...