查看原文
其他

建议收藏 | nltk和spacy配置方法

大邓 大邓和他的Python 2022-07-09

nltk库和spacy库都是英文自然语言处理常用库,但是配置起来比较麻烦,今天就分享配置方法。


nltk配置

安装nltk库,命令行输入以下命令

pip3 install nltk

有些时候的nltk代码需要语料库才能运行,nltk语料库很庞大,这时候运行下面的python代码,就会下载语料库

import nltknltk.download()

不过经常因为网络问题导致语料库无法下载下来,这时候需要我们手动下载并配置语料库

大邓已经将语料库资源放到百度网盘,链接:https://pan.baidu.com/s/13DXmvAuGtEHjXIV-UK6swQ  密码:9pzp

下载并解压,得到nltk_data文件夹,现在我们要知道nltk_data文件夹应该放置的位置(路径), 运行下面代码即可得到nltk_data在本机中放置的位置

import nltknltk.data.find(".")

Run

FileSystemPathPointer('/Users/电脑用户忙/nltk_data')

我们将nltkdata文件夹放到对应的路径(/Users/电脑用户忙/nltk_data),nltk配置完成~



spacy配置

安装spacy库,命令行输入以下命令

pip3 install spacy

通nltk类似,spacy很多的代码运行时候需要用到训练好的模型,模型列表https://spacy.io/models

  • English
  • Chinese
  • German
  • French
  • Spanish
  • Portuguese
  • Italian
  • Dutch
  • Greek
  • Multi-language

我们以中文为例。

spacy有4种英文模型 https://spacy.io/models/zh ,本文使用zh_core_web_sm模型作为案例进行安装

打开 https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.1.0/zh_core_web_sm-3.1.0-py3-none-any.whl 网页下载 zh_core_web_sm-3.1.0-py3-none-any.whl文件链接进行下载。

下载完成后将其移动至桌面,方面安装。

打开命令行,切换至桌面

#mac
#cd desktop

#Win
cd Desktop

命令行中安装模型

pip3 install h_core_web_sm-3.1.0-py3-none-any.whl

注意spacy使用时候需要声明使用的模型

import spacy
nlp_model = spacy.load('zh_core_web_sm')

之后就可以愉快的使用nltk和spacy



近期文章

视频专栏课 | Python网络爬虫与文本分析

Shifterator库 | 词移图分辨两文本用词风格差异

DataShare | 6000+个股票的每日财经新闻  

SmartScraper | 简单、自动、快捷的Python网络爬虫

读完本文你就了解什么是文本分析

文本分析在经管领域中的应用概述

综述:文本分析在市场营销研究中的应用

文本分析方法在《管理世界》(2021.5)中的应用

中文金融情感词典发布啦 | 附代码

wordexpansion包 | 新增词向量法构建领域词典

语法最简单的微博通用爬虫weibo_crawler

hiResearch 定义自己的科研首页

SciencePlots | 科研样式绘图库

plydata库 | 数据操作管道操作符>>

plotnine: Python版的ggplot2作图库

Wow~70G上市公司定期报告数据集

漂亮~pandas可以无缝衔接Bokeh  

YelpDaset: 酒店管理类数据集10+G

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存