Skip to content

Latest commit

 

History

History
157 lines (79 loc) · 8.87 KB

top-data-science-projects-build-skills.md

File metadata and controls

157 lines (79 loc) · 8.87 KB

提升技能的顶级数据科学项目

原文:www.kdnuggets.com/2022/04/top-data-science-projects-build-skills.html

提升技能的顶级数据科学项目

Octavian Dan 通过 Unsplash

如果你正在寻找数据科学的职业,你的作品集是你的优先事项。尽管数据科学需求很高,但它是一个非常竞争的市场。每天都有新人转行进入技术市场,使得招聘经理选择合适的候选人变得困难。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


如果你想在众人中脱颖而出,通过作品集展示你的编码技能是你的最佳选择。招聘经理每天都会听到关于技能的介绍,他们希望看到你的实际能力。

以下是一些数据科学项目的创意列表,你可以用来提升你的技能。我将根据专业水平将它们分类。

1. 初学者数据科学家

Iris 数据

这是一个非常受初学者欢迎的数据集。它多才多艺,易于使用,是探索模式识别时的最佳选择。数据集不大,只有 150 行和 4 列,没有缺失值;因此是初学者简单的数据集。

数据集链接:UCI Iris 数据集

问题/任务类型:分类

示例作品:sci-kit learn Iris 数据集

Titanic

你可能听说过著名的 Titanic 数据集,无论是通过你的 Bootcamp 课程还是探索数据科学相关的话题。数据被分为两个组:训练集(train.csv)和测试集(test.csv)。

数据集链接:Titanic

问题/任务类型:创建一个机器学习模型来预测 Titanic 乘客的生存

示例作品:Kaggle Titanic 数据集

葡萄酒

如果你对葡萄酒感兴趣,这将是一个有趣的项目。这个数据集将测试你对特征选择、异常值和不平衡数据的理解。数据没有缺失值,非常适合初学者。

数据集链接:UCI 葡萄酒数据集

问题/任务类型:分类

示例作品:sci-kit learn 异常检测葡萄酒数据集sci-kit learn 特征缩放葡萄酒数据集

人口普查收入

这个数据集进一步考验你对如何进行预测的理解。任务是判断一个人是否年收入超过 50K。它包含缺失值,允许你探索不同的数据清理方法。根据你的专业水平,你可以通过支持向量聚类、贝叶斯等方法进行探索。

数据集链接:UCI 人口普查收入

问题/任务类型:分类

示例作品:Kaggle 人口普查收入

2. 中级数据科学家

使用智能手机进行人体活动识别数据集

如果你参加过任何机器学习课程或训练营,你可能会遇到这个数据集。它是一个分类问题,可以用机器学习模型进行探索。这个数据集挑战你将自己从初学者提升到中级。数据集包含 10,299 行和 561 列。

数据集链接:UCI 使用智能手机进行人体活动识别数据集

问题/任务类型:分类、聚类

示例作品:机器学习大师博客Kaggle 示例

乳腺癌

这是一个分类数据集,记录了乳腺癌病例的测量数据,包含两类;良性和恶性。数据集包含缺失值,考验你的数据清理技能。你可以探索不同的变量及其相互关系,如果一个变量对另一个变量有影响等。

数据集链接:UCI 威斯康星乳腺癌

问题/任务类型:分类

示例作品:使用机器学习进行乳腺癌预测其他 Kaggle 示例

Twitter

这个 Twitter 数据集非常受欢迎,如果你想专注于情感分析,这个任务将允许你根据情感对推文进行分类;强烈负面(0),负面(1),中性(2),正面(3),强烈正面(4)。数据集大小为 3MB,包含 31,962 条推文。

数据集链接:Kaggle Twitter 数据集 by Analytics Vidhya

问题/任务类型:分类

示例作品:Kaggle 示例

3. 高级水平

城市声音分类

这是一个分类任务,介绍了音频处理。数据集包含来自 10 个类别的 8,732 个标记的城市声音片段。你可以使用神经网络模型来分类音频中的声音类型。

数据集链接:Analytics Vidhya 城市声音分类

问题/任务类型:分类

示例作品:Shubham Gupta TDS

VoxCeleb

VoxCeleb 是一个音视频数据集,包含从上传到 YouTube 的访谈视频中提取的短片人类语音。这个数据集允许你通过隔离和识别探索语音识别。

该数据集包含两个版本,VoxCeleb1 和 VoxCeleb2。VoxCeleb1 包含超过 100,000 个发言,涉及 1,251 位名人,而 VoxCeleb2 包含超过一百万个发言,涉及 6,112 个身份。

数据集链接:VoxCeleb

问题/任务类型:分类、语音识别

示例作品:qqueing github

VisualQA

VQA 是一个包含有关图像的开放性问题的新数据集。你需要具备计算机视觉、语言和常识知识才能回答。

该数据集包含 265,016 张图像,每张图像至少有 3 个问题,你将被要求使用深度学习来回答有关图像的开放性问题。

数据集链接:visualqa

问题/任务类型:计算机视觉

示例作品:VQA Challenge

结论

我希望这些项目创意能帮助你提升你的作品集,让你更好地理解自己的优点和弱点。帮助你弄清楚需要改进的地方。

如果你有任何建议,请在评论中留下!

Nisha Arya 是一名数据科学家和自由职业技术作家。她特别感兴趣于提供数据科学职业建议或教程及数据科学理论知识。她还希望探索人工智能如何及能够如何促进人类寿命的延续。她是一个热衷学习者,寻求拓宽她的技术知识和写作技能,同时帮助引导他人。

更多相关话题