第01期 - 数据科学资料合集
机器学习工程师面试常见问题的分享,包括来自 Facebook、Amazon、Google 等大公司的面试经历。
机器学习周刊:关注 Python、机器学习、深度学习、大模型等硬核技术
本期目录:
- 1、超完整数据科学资料合集
- 2、机器学习算法实现的最小和最干净的例子
- 3、机器学习面试
- 4、深度学习论文精读
- 5、微软开源的 promptbase
- 6、苹果最新开源的机器学习框架
- 7、Mistralai client-python
1、超完整数据科学资料合集
地址:https://github.com/krishnaik06/The-Grand-Complete-Data-Science-Materials
- Python 数据分析和数据科学完整播放列表
- 数据分析和数据科学的完整统计学播放列表
- 数据分析和数据科学的完整 SQL
- Git 和 Github 教程
- 探索性数据分析、特征工程和特征选择
- 机器学习播放列表
- 深度学习和自然语言处理完整播放列表
- 生产部署的重要框架
- 完整的 AWS Sagemaker 和 Sagemaker Studio 工具
- 完整的 MLOPS 教程
- 使用开源工具的端到端机器学习、深度学习和自然语言处理项目,直到部署
- 生成式 AI 和 Open AI 播放列表
- PySpark 完整教程
- 完整的数据科学、机器学习和深度学习面试题
2、机器学习算法实现的最小和最干净的例子
地址:https://github.com/rushter/MLAlgorithms
这个项目有点老,但是知识不老。主要面向希望学习机器学习算法内部原理,或者从零开始自己实现机器学习算法的人群。相比于高效优化的现成机器学习库,这个项目中的代码更容易理解和操作。所有的算法都是用 Python 实现的,利用了 numpy、scipy 和 autograd 这些库。
已经实现的算法包括:
- 深度学习 (多层感知器、卷积神经网络、递归神经网络、长短期记忆网络)
- 线性回归、逻辑回归
- 随机森林
- 支持向量机 (线性核、多项式核、RBF 核)
- K 均值聚类
- 高斯混合模型
- K 近邻
- 朴素贝叶斯
- 主成分分析 (PCA)
- 因子分解机
- 受限玻尔兹曼机 (RBM)
- t 分布随机嵌入 (t-SNE)
- 梯度提升决策树 (也称为 GBDT、GBRT、GBM、XGBoost)
- 强化学习 (深度 Q 学习)
3、机器学习面试
地址:https://github.com/khangich/machine-learning-interview
包含了机器学习工程师面试常见问题的分享,包括来自 Facebook、Amazon、Google 等大公司的面试经历。作者 Pham An Khang 通过收集整理不同公司的面试题,并分享自己以及朋友的面试准备经验,帮助读者为机器学习岗位面试做准备。
4、深度学习论文精读
地址:https://github.com/mli/paper-reading?tab=readme-ov-file
5、微软开源的 promptbase
地址:https://github.com/microsoft/promptbase
promptbase 微软开源的一系列资源、最佳实践和示例脚本,用于从 GPT-4 等基础模型中激发出最佳性能。号称:All things prompt engineering(关于提示工程的一切)
6、苹果最新开源的机器学习框架
地址:https://github.com/ml-explore/mlx
熟悉的 API:MLX 具有一个紧随 NumPy 的 Python API。MLX 还有一个功能齐全的 C++ API,与 Python API 密切相关。MLX 具有更高级的包,如 mlx.nn 和 mlx.optimizers,其 API 紧随 PyTorch,以简化构建更复杂的模型。
苹果同时还公布了 mlx 应用示例:https://github.com/ml-explore/mlx-examples
示例包括:
- Transformer 语言模型训练
- 使用 LLaMA 或 Mistral 进行大规模文本生成
- 混合专家 (MoE) 语言模型与 Mixtral 8x7B
- 使用 LoRA 进行参数高效微调。
- 使用 Stable Diffusion 生成图像。
- 使用 OpenAI 的 Whisper 进行语音识别。
- 使用 BERT 进行双向语言理解
- 在图结构数据上使用 GCN 进行半监督学习
7, Mistralai client-python
地址:https://github.com/mistralai/client-python
Mistral AI 发布的,最近风头最盛的大模型`Mixtral 8x7B,这个库是 Mistral AI 官方开源的 Python 客户端,可以直接调用 Mistral AI API