分词是文本分析第一步,NLTK适合英文、jieba专攻中文;需安装并下载NLTK语料,jieba开箱即用;NLTK按标点空格切分,jieba有精确/全/搜索引擎三种模式;中英文混合应先分离再分别处理。
想用Python做中文或英文的文本分析,分词是绕不开的第一步。NLTK适合英文处理,jieba专为中文设计,两者搭配使用能覆盖大部分基础场景。
确保已安装Python 3.6以上版本。打开终端或命令行,依次执行:
NLTK的word_tokenize()能按空格、标点自动切分,对规范英文效果稳定:
w', 'are', 'you', '?']
string.punctuation或正则清洗jieba提供三种切分策略,日常推荐cut()(精确模式),兼顾速度与准确率:
jieba.cut("我爱自然语言处理") → ["我", "爱", "自然语言处理"]
jieba.cut("小明硕士毕业于中国科学院") → 包含所有可能组合,如"中国"、"科学院"、"中科院"等,易产生冗余真实文本常夹杂中英文、数字和符号。建议分步处理:
r'[a-zA-Z]+' )和中文片段(r'[\u4e00-\u9fff]+' )分词不是终点,而是后续词性标注、停用词过滤、TF-IDF或词向量建模的基础。选对工具、理解模式差异,比追求“最准”更重要。