900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 新手探索NLP(四)

新手探索NLP(四)

时间:2021-01-11 00:22:59

相关推荐

新手探索NLP(四)

学习NLP需要一个比较系统的概要。所以理论上这个应该写在第一篇。

【NLP的技术概貌】

NLP里细分领域和技术实在太多,根据NLP的终极目标,大致可以分为自然语言理解(NLU)和自然语言生成(NLG)两种。NLU侧重于如何理解文本,包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等;NLG则侧重于理解文本后如何生成自然文本,包括自动摘要、机器翻译、问答系统、对话机器人等。两者间不存在有明显的界限,如机器阅读理解实际属于问答系统的一个子领域。

大致来说,NLP可以分为以下几个领域:

【文本检索】:多用于大规模数据的检索,典型的应用有搜索引擎【机器翻译】:跨语种翻译,该领域目前已较为成熟。目前谷歌翻译已用上机翻技术【文本分类/情感分析】:本质上就是个分类问题。目前也较为成熟,难点在于多标签分类(即一个文本对应多个标签,把这些标签全部找到)以及细粒度分类(二极情感分类精度很高,即好中差三类,而五级情感分类精度仍然较低,即好、较好、中、较差、差)【信息抽取】:从不规则文本中抽取想要的信息,包括命名实体识别、关系抽取、事件抽取等。应用极广。【序列标注】:给文本中的每一个字/词打上相应的标签。是大多数NLP底层技术的核心,如分词、词性标注、关键词抽取、命名实体识别、语义角色标注等等。曾是HMM、CRF的天下,近年来逐步稳定为BiLSTM-CRF体系。【文本摘要】:从给定的文本中,聚焦到最核心的部分,自动生成摘要。【问答系统】:接受用户以自然语言表达的问题,并返回以自然语言表达的回答。常见形式为检索式抽取式生成式三种。近年来交互式也逐渐受到关注。典型应用有智能客服【对话系统】:与问答系统有许多相通之处,区别在于问答系统旨在直接给出精准回答,回答是否口语化不在主要考虑范围内;而对话系统旨在以口语化的自然语言对话的方式解决用户问题。对话系统目前分闲聊式和任务导向型。前者主要应用有siri、小冰等;后者主要应用有车载聊天机器人。(对话系统和问答系统应该是最接近NLP终极目标的领域)【知识图谱】:从规则或不规则的文本中提取结构化的信息,并以可视化的形式将实体间以何种方式联系表现出来。图谱本身不具有应用意义,建立在图谱基础上的知识检索、知识推理、知识发现才是知识图谱的研究方向【文本聚类】:一个古老的领域,但现在仍未研究透彻。从大规模文本数据中自动发现规律。核心在于如何表示文本以及如何度量文本之间的距离

所涉及的基本技术有:

分词:基本算是所有NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步词性标注:判断文本中的词的词性(名词、动词、形容词等等),一般作为额外特征使用句法分析:分为句法结构分析依存句法分析两种词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理命名实体识别:识别并抽取文本中的实体,一般采用BIO形式指代消歧:文本中的代词,如“他”“这个”等,还原成其所指实体关键词抽取:提取文本中的关键词,用以表征文本或下游应用词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础文本生成:给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域

分词、词干提取在新手探索NLP(一)中都有粗略的介绍。下一篇准备探索命名实体识别。

文章摘自:知乎 自然语言处理话题/topic/19560026/intro

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。