数据里的预处理 #7

zl1300012994 · 2019-07-02T03:45:00Z

您好：
我是北京大学的一名学生，正在研究document_nmt这部分，想请问您，如果方便的话，是否可以提供论文中提到的数据集呢？此外，想请问下，对于数据集的预处理部分，可以开放看看么，对于中文该进行哪些预处理呢~
期待您的回复~
祝好~

Glaceon31 · 2019-07-02T09:10:56Z

你好，感谢你对这篇工作的关注。法英数据集从这下载。中英LDC数据集因为有版权问题，如果确定北大有这些数据集的使用权的话，可以通过邮件联系我。

预处理方面，对于中文的预处理是normalize+thulac分词+tokenize+lowercase，对其他语言的预处理是normalize+tokenize+lowercase。

zl1300012994 · 2019-07-02T09:35:28Z

谢谢您的回复！
这是我的邮箱[email protected]，我知道北大的计算所有这个权限，但是我并不是这个实验室的，我不知道这样算不算，不方便的话就算啦，感谢~。
以及预处理的normalize能说一下具体细节么，或者看看您的预处理脚本或源码，因为中文的预处理不同感觉会有一定影响，十分感谢您~

Glaceon31 · 2019-07-03T15:46:19Z

LDC的数据是按学校卖使用权的，所以这个应该没有问题。normalize使用的是实验室写的一个脚本，我先找一下，稍后通过邮箱一起给你吧。

zl1300012994 · 2019-07-05T02:24:45Z

实在太感谢了！！！~

zl1300012994 · 2019-07-05T03:32:26Z

我好像没找到您的邮箱，我看我回信都是回到github的链接上，等您方便的时候，我的邮箱是这个[email protected]，十分感谢~
祝好~

Glaceon31 · 2019-07-05T08:58:30Z

好的，已发送！

zhangzhiyang-2020 · 2021-11-16T12:18:59Z

您好！请问您论文中使用的验证集和测试集NIST2002-2008是开源的吗？改怎么获取呢？

Provide feedback