NLP入门

Python中有一个自然语言处理工具包(Natural Language Toolkit,简称NLTK)的开源库。NLTK包含大量软件、数据和文档,所有这些都可以从官网免费下载。

语言处理任务与相应的NLTK模块:

语言处理任务 NLTK模块 功能描述
获取和处理语料库 nltk.corpus 语料库和词典的标准化接口
字符串处理 nltk.tokenize, nltk.stem 分词,句子分解提取主干
搭配发现 nltk.collocations t-检验,卡方,点互信息 PMI
词性标识符 nltk.tag n-gram,backoff,Brill,HMM,TnT
分类 nltk.classify, nltk.cluster 决策树,最大熵,贝叶斯,EM,k-means
分块 nltk.chunk 正则表达式,n-gram ,命名实体
解析 nl tk.parse 图表,基于特征,一致性,概率,依赖
语义解释 nltk.sem, nltk.inference λ演算,一阶逻辑,模型检验
指标评测 nltk.metrics 精度,召回率,协议系数
概率与估计 nltk.probability 频率分布,平滑概率分布
应用 nltk.app, nltk.chat 图形化的关键词排序,分析器,WordNet 查看器,聊天机器人
语言学领域的工作 nltk.toolbox 处理 SIL 工具箱格式的数据
Author

preccrep

Posted on

2021-07-22

Updated on

2021-07-22

Licensed under

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

Comments

You forgot to set the shortname for Disqus. Please set it in _config.yml.