Skip to content

huangrs494/extract_message

Repository files navigation

requirement:python2

id_msg:提取csv表格的第2列和第3列,并删除无用字符,并写入new_file中

circle_topic:提取内容中的话题(也可以理解为,给用户发的内容,打上话题的标签)

circle_keywords:合并同一个用户同一个话题所发表的内容(确定唯一字段为同一个用户和同一个话题),并对内容提取关键字(同时删除内容里面的话题字符串) ----这一部分涉及了逻辑问题,代码仔细再看看。

keyword_chinese:对固定列,过滤数字和英文信息,提取中文信息并提取关键词

join_keywords:对中文内容进行关键词提取,并输出对应的词频。

circle_keywords0:提交了一个新版本的合并内容,并提取中文信息的关键词(合并同一个话题的内容,并提取关键字,对话题生成了用户自定义词典)

deltest:过滤广告词test

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages