实现英文自然语言处理的预处理功能。
源数据是从网页爬取的文本数据,所以很杂乱。
本代码实现了一直整套的数据预处理过程,最终将其清洗为比较整齐单词集合,放置在列表中。
此外,注释拉满,方便中文阅读者学习。
shared.ipynb在preprocessing的基础上构建了关于两个字典的映射,如果只看NLP预处理部分可以忽略。
-
Notifications
You must be signed in to change notification settings - Fork 1
stxupengyu/NLP-Preprocessing
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
实现英文自然语言处理的预处理功能, 处理网页爬取的NLP数据. To deal with the XML data, and implement the NLP preprocessing function.
Topics
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published