-
Notifications
You must be signed in to change notification settings - Fork 21
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
数据里的预处理 #7
Comments
你好,感谢你对这篇工作的关注。法英数据集从这下载。中英LDC数据集因为有版权问题,如果确定北大有这些数据集的使用权的话,可以通过邮件联系我。 预处理方面,对于中文的预处理是normalize+thulac分词+tokenize+lowercase,对其他语言的预处理是normalize+tokenize+lowercase。 |
谢谢您的回复! |
LDC的数据是按学校卖使用权的,所以这个应该没有问题。normalize使用的是实验室写的一个脚本,我先找一下,稍后通过邮箱一起给你吧。 |
实在太感谢了!!!~ |
我好像没找到您的邮箱,我看我回信都是回到github的链接上,等您方便的时候,我的邮箱是这个[email protected],十分感谢~ |
好的,已发送! |
您好!请问您论文中使用的验证集和测试集NIST2002-2008是开源的吗?改怎么获取呢? |
您好:
我是北京大学的一名学生,正在研究document_nmt这部分,想请问您,如果方便的话,是否可以提供论文中提到的数据集呢?此外,想请问下,对于数据集的预处理部分,可以开放看看么,对于中文该进行哪些预处理呢~
期待您的回复~
祝好~
The text was updated successfully, but these errors were encountered: