Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据里的预处理 #7

Open
zl1300012994 opened this issue Jul 2, 2019 · 7 comments
Open

数据里的预处理 #7

zl1300012994 opened this issue Jul 2, 2019 · 7 comments

Comments

@zl1300012994
Copy link

您好:
我是北京大学的一名学生,正在研究document_nmt这部分,想请问您,如果方便的话,是否可以提供论文中提到的数据集呢?此外,想请问下,对于数据集的预处理部分,可以开放看看么,对于中文该进行哪些预处理呢~
期待您的回复~
祝好~

@Glaceon31
Copy link
Collaborator

你好,感谢你对这篇工作的关注。法英数据集从这下载。中英LDC数据集因为有版权问题,如果确定北大有这些数据集的使用权的话,可以通过邮件联系我。

预处理方面,对于中文的预处理是normalize+thulac分词+tokenize+lowercase,对其他语言的预处理是normalize+tokenize+lowercase。

@zl1300012994
Copy link
Author

谢谢您的回复!
这是我的邮箱[email protected],我知道北大的计算所有这个权限,但是我并不是这个实验室的,我不知道这样算不算,不方便的话就算啦,感谢~。
以及预处理的normalize能说一下具体细节么,或者看看您的预处理脚本或源码,因为中文的预处理不同感觉会有一定影响,十分感谢您~

@Glaceon31
Copy link
Collaborator

LDC的数据是按学校卖使用权的,所以这个应该没有问题。normalize使用的是实验室写的一个脚本,我先找一下,稍后通过邮箱一起给你吧。

@zl1300012994
Copy link
Author

实在太感谢了!!!~

@zl1300012994
Copy link
Author

我好像没找到您的邮箱,我看我回信都是回到github的链接上,等您方便的时候,我的邮箱是这个[email protected],十分感谢~
祝好~

@Glaceon31
Copy link
Collaborator

好的,已发送!

@zhangzhiyang-2020
Copy link

您好!请问您论文中使用的验证集和测试集NIST2002-2008是开源的吗?改怎么获取呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants