第04期 - 动手实战人工智能
LLM 开发者必读论文:检索增强(RAG)生成技术综述!
目录:
- 1、动手实战人工智能 Hands-on Al
- 2、huggingface 的 NLP、深度强化学习、语音课
- 3、Awesome Jupyter
- 4、计算机科学热门论文
- 5、LLM 开发者必读论文:检索增强 (RAG) 生成技术综述
- 6、Apple 公布了多模态大型语言模型 Ferret
- 7、免费的基于 ChatGPT API 的安卓端语音助手
- 8、每日数学
- 9、WhisperLive:接近实时的 Whisper 实现
- 10、Unsloth:大模型训练速度和效率加速工具
- 11、最后推荐三个 AI 工具
1、动手实战人工智能 Hands-on AI
地址:https://ai.huhuhang.com/intro
这个《动手实战人工智能 Hands-on AI》写的相当不错,作者用 Jupyter Notebook 编写了这个教程,参考了《机器学习方法》,《深度学习入门》,西瓜书,花花书等,剖析和推导每一个基础算法的原理,将数学过程写出来了,同时基于 Python 代码对公式进行实现,做到公式和代码的一一对应。
我把章节简单整理成了这个思维导图,大家可以结合自身情况,挑选感兴趣的章节阅读。
2、huggingface 的 NLP、深度强化学习、语音课
地址:https://huggingface.co/learn
HuggingFace 开放了 NLP、深度强化学习、基于 transformer 的语音框架三门课,看了每一课的结构,比较偏实践,蛮不错的。
我最近对语音比较感兴趣,加上正在学点前端,所以就把语音课拿出来,做了个文档型网页,准备一边学,一边翻译。
感兴趣的同学可以一起翻译:https://hf-audio.zhanglearning.com/
3, Awesome Jupyter
地址:https://github.com/markusschanta/awesome-jupyter
这个项目收录了精选的 Jupyter 项目、库和资源列表,已经更新了很多年,我比较喜欢可视化部分,认识了很多好玩的库。
4、计算机科学热门论文
地址:https://trendingpapers.com/
trendingpapers 这个网站每日更新计算机科学最新、最火的论文,分门别类,查找起来非常方便。打开感兴趣的论文,可以直接跳转到 arxiv 查看 pdf,也可以点击Find similar
找到该方向类似的论文。
5、LLM 开发者必读论文:检索增强(RAG)生成技术综述
论文:https://arxiv.org/abs/2312.10997
检索增强利用外部知识库来丰富大语言模型的上下文并生成答案,从而提升了答案的准确度。论文深入探讨并梳理了检索增强型生成(RAG)技术,非常全面。RAG 是 LLM 领域最火爆的方向了,我在公众号中曾推荐过吴恩达老师最近的一个短课:吴恩达最新短课,构建和评估高级 RAG 应用程序,附中英字幕,感兴趣想要学习 RAG,这个短课,建议作为首选。
6、Apple 公布了多模态大型语言模型 Ferret
地址:github.com/apple/ml-ferret
苹果最新公布的 Ferret 是一种新的多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间参考,并准确地理解词汇描述。
苹果开源了训练、微调、模型代码和模型权重:https://github.com/apple/ml-ferret/
可以下载、安装后一个命令运行 gradio 前端
python -m ferret.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload --add_region_feature
7、免费的基于 ChatGPT API 的安卓端语音助手
地址:https://github.com/Skythinker616/gpt-assistant-android
这个项目是免费的、基于 ChatGPT API 的安卓端语音助手,可通过音量键唤起并进行语音交流,支持联网、Vision 拍照识图、连续对话、提问模板、3.5/4.0 接口、Markdown 渲染等功能
8、每日数学
地址:https://www.theoremoftheday.org/
这个网站每天更新一个数学定理(或引理、法则、公式或恒等式),每一个都足以装饰数学殿堂的墙壁。
每个定理都被设计得尽可能让广大观众能够欣赏,如果某个定理的表述看起来难以理解,可以继续查看附带的图形解释、巧妙的动画。
9、WhisperLive:接近实时的 OpenAI Whisper 实现
地址:https://github.com/collabora/WhisperLive
这个项目是一个实时转录应用程序,它使用 OpenAI Whisper 模型将语音输入(来自麦克风的现场音频输入 or 预先录制的音频文件)转换为文本输出。
10、Unsloth
地址:https://github.com/unslothai/unsloth
训练大语言模型往往会消耗大量算力和时间,Unsloth 开源的这个项目可以加快训练速度和效率。
- 支持 Llama 7b、13b、70b、CodeLlama 34b、Mistral 7b、TinyLlama 以及所有 Llama 架构!
- Llama 7b Colab T4 实例在 1 T4 上比原来快 2 倍,使用的 VRAM 减少了 43%(8.4GB)LAION 数据集。Alpaca T4 实例在 1 T4 上也是快了 2 倍,使用了 6.4GB VRAM。
- Mistral 7b Colab A100 实例在 1 A100 上快了 2.2 倍,使用的 VRAM 减少了 62%(12.4GB)。Colab T4 实例
- CodeLlama 34b Colab 实例不会出现 OOM,速度提升了 1.9 倍,使用的 VRAM 减少了 32%(27GB)。
- Kaggle 上使用 2 Tesla T4 的 Alpaca 训练速度提高了 5.28 倍。Kaggle 实例
- 所有内核均使用 OpenAI 的 Triton 语言编写。
- 准确率无损失 - 没有使用近似方法 - 全部精确。
- 无需更换硬件。支持自 2018 年以来的 NVIDIA GPU。最低 CUDA 计算能力 7.0(V100、T4、Titan V、RTX 20、30、40x、A100、H100、L40 等)检查您的 GPU
- 在 Linux 和 Windows 通过 WSL 上运行。
- 实验性支持 DPO(直接偏好优化)!
- 支持通过 bitsandbytes 进行 4bit 和 16bit QLoRA / LoRA 微调。
- 开源版本的训练速度提高了 5 倍,或者您可以查看 Unsloth Pro 和 Max 代码路径,以获得高达 30 倍的训练速度提升!
11、最后推荐三个 AI 工具
PIA:照片转动漫风格工具,可线上试用
地址:https://huggingface.co/spaces/Leoxing/PIA
带 web 界面的声音克隆工具
地址:https://github.com/jianchang512/clone-voice
cloudflare-ai-web
地址:https://github.com/Jazee6/cloudflare-ai-web
支持 GeminiPro Vision / Cloudflare Workers AI / ChatGPT 的融合 Web 平台