OpenCC git项目地址 一、OpenCC介绍 OpenCC是一款开源的中文处理工具,支持字符级别的转换,可以在中文简体和繁体以及香港、台湾之间相互转换。git上提供了在Debian、Ubuntu、Fedora、Arch Linux、Mac OS以及Node.js的安装方法,并没有提供在windows上面的安装。这篇文章主要介绍如何在Windows上安装和使用OpenCC。 二、在Window...

kenlm使用 C++

自然语言处理

  

2019-12-17 20:01:19

语言模型kenlm库的编译及C++接口使用 简介 源码编译 依赖库安装 修改CMakelist.txt 注意 自己工程中使用kenlm时cmakelist编写 NOTE C++接口测试 参考资料 简介 近期需要使用语言模型对句子打分,因此需要用到第三方开源库kenlm,在此记录下使用过程。因为python下使用kenlm比较简单,这里就不做介绍了,本博客主要针对将kenlm编译到自己工程中的方法做...

隐马尔可夫模型词性标注 1 隐马尔可夫模型(Hidden Markov Model) yty_{t}yt​:ttt时刻,观测变量; ztz_{t}zt​:ttt时刻,隐含变量。 2 词性标注(part of speech tagging,POS-Tagging) HMM词性标注(part of speech tagging,POS-Tagging)属于推理问题(inference problem)...

一、 阅读理解型问答 1、 概念 机器阅读理解与问答主要涉及到深度学习、自然语言处理和信息检索。机器阅读理解具有很高的研究价值和多样的落地场景。它能够让计算机帮助人类在大量文本中快速找到准确答案,从而减轻人们对信息的获取的成本。 具体来讲,机器阅读理解和问答任务(QA)指的是给定一个问题和一个或多个文本,训练的QA系统可以依据文本找出问题答案。一般情况下,有以下三种问题:Simple (facto...

rasa_nlu调研报告

自然语言处理

  

2019-12-29 01:34:40

RASA_NLU调研报告 一、rasa_nlu模块 1、rasa简介 Rasa是一个开源机器学习框架,用于构建上下文AI助手和聊天机器人。 Rasa有两个主要模块: Rasa NLU :用于理解用户消息,包括意图识别和实体识别,它会把用户的输入转换为结构化的数据。 Rasa Core:是一个对话管理平台,用于举行对话和决定下一步做什么。 Rasam框架的基本流程: 2、rasa_nlu简介 Ras...

1.背景 NLP中一个最基本任务就是分词,当我们分词完成之后怎么来评判分词结果的好坏呢?换句话来说就是我该如何对分词结果打分?这个分数怎么算法,依照的标准是什么?例如: 原句子:武汉市长江大桥 分词一:武汉 市长 江大桥 分词二: 武汉市 长江大桥 对于分词一和分词二的打分应该是多少呢?为了搞清楚这个问题,我们先来学习(回顾)一些机器学习中的常见分类评估标准。 2.机器学习中的分类评估 2.1 准...

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得...

论文地址:https://openreview.net/pdf?id=H1eA7AEtvS 中文预训练ALBERT模型:https://github.com/brightmart/albert_zh   1、对Embedding因式分解(Factorized embedding parameterization) 在BERT中,词embedding与encoder输出的embedding...

Python3自然语言处理——获得文本语料库和词汇资源 注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭! 1.获取文本语料库 古腾堡语料库 NLTK包含Project Gutenberg电子文本档案的一小部分文本。我们先要用Python解释器加载NLTK包,然后尝试获得语料库中的文件标识符: Python还提...

Python3自然语言处理——语言处理与Python 注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭! 《Python自然语言处理》是美国斯坦福大学Steven Bird,Edward Loper和Ewan Klein编著的NLP实用书籍,该书条理清晰,内容详尽,适合各种技术水平的读者,非常值得推荐,但是书中...

1、需要安装的库: 2、关于数据的解压 首先我们需要下载:维基百科中文数据。一 、维基百科(Wikipedia),是一个基于维基技术的多语言百科全书协作计划,也是一部用不同语言写成的网络百科全书。维基百科是由吉米·威尔士与拉里·桑格两人合作创建的,于2001年1月13日在互联网上推出网站服务,并在2001年1月15日正式展开网络百科全书的项目。中文维基百科数据按月进行更...

项目简介,做一个网页版的摘要提取程序,就是第一句加最后一句。主要是体现网页端的输入和输出。 最后的效果是这样的: 项目结构: 项目文件层级如下 static --> js -->jquery-3.4.1.min.js templates --> back.html ajax.py process.py jquery-3.4.1.min.js 这个文件不需要我们动,直接在网上下载一...

文章目录一瞥 1. 引言:朴素贝叶斯的局限性 2. N-gram语言模型是啥? 2.1从假设性独立到联合概率链规则 2.2 从联合概率链规则到n-gram语言模型 2.3 怎样选择依赖词的个数"n"? 3. N-gram实际应用举例 3.1 词性标注 3.2 垃圾邮件识别 3.3 中文分词 3.4机器翻译与语音识别 4. 平滑技术 4.1 拉普拉斯平滑 4.2 古德图灵(Goo...