<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>Ai周刊</title><description>关注Python、机器学习、深度学习、大模型</description><link>https://weekly.zhanglearning.com/</link><image><url>https://gw.alipayobjects.com/zos/k/qv/coffee-2-icon.png</url></image><item><title>第25期 - AI开发工具精选</title><link>https://weekly.zhanglearning.com/posts/25-AI%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7%E7%B2%BE%E9%80%89/</link><guid>https://weekly.zhanglearning.com/posts/25-AI%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7%E7%B2%BE%E9%80%89/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/08/2eb146fb2ac99fa6afbda0a22e607473.png&quot; width=&quot;800&quot;&gt;  
&lt;p&gt;&lt;small&gt;本期介绍多个AI开发相关的开源项目，包括Gemini的GUI、文档研究代理、RAG构建模块、自主编码AI等。&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;ol&gt;
&lt;li&gt;AionUi：为Gemini CLI打造的现代化GUI&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;2&quot;&gt;
&lt;li&gt;Doc Research (ms-agent)：阿里出品的文档深度研究代理&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;3&quot;&gt;
&lt;li&gt;Ragbits：企业级生成式AI应用开发构建模块&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;4&quot;&gt;
&lt;li&gt;GAOKAO-Math24：2024年高考数学评测数据集&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;5&quot;&gt;
&lt;li&gt;Roo-Code：深度集成于IDE的自主编码AI代理&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;6&quot;&gt;
&lt;li&gt;firegeo：一个即用型的SaaS项目启动套件&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;7&quot;&gt;
&lt;li&gt;tweakcn：shadcn/ui组件的可视化主题编辑器&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;8&quot;&gt;
&lt;li&gt;waitlist：一个使用Supabase和Next.js构建等待列表的教程项目&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;ol start=&quot;9&quot;&gt;
&lt;li&gt;Hands-On Large Language Models：图解LLM书籍配套代码库&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id=&quot;1-aionui为gemini-cli打造的现代化gui&quot;&gt;1. AionUi：为Gemini CLI打造的现代化GUI&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/office-sec/AionUi&quot;&gt;https://github.com/office-sec/AionUi&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;虽然官方的 Gemini CLI 功能强大，但纯粹的命令行界面在处理复杂工作流时显得有些力不从心。&lt;code&gt;AionUi&lt;/code&gt; 正是为了解决这一痛点而生的开源项目，它将命令行的交互体验，升级为了一个现代、高效、免费且完全本地化的AI聊天界面。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心优势:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;高效的上下文管理&lt;/strong&gt;: 告别繁琐的 &lt;code&gt;@&lt;/code&gt; 命令，通过可视化的文件树轻松管理和添加代码上下文。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;持久化聊天记录&lt;/strong&gt;: 对话历史会自动保存，再也不用担心关闭窗口后丢失重要信息。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;流畅的聊天体验&lt;/strong&gt;: 提供了更符合直觉的聊天交互界面，支持多对话管理，便于并行处理多个任务。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;代码审查&lt;/strong&gt;：内置代码差异视图（Diff View），可以清晰地查看AI生成的代码修改，一目了然。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://github.com/office-sec/AionUi/raw/main/resources/AionUI_screenrecord.gif&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&quot;2-doc-research-ms-agent阿里出品的文档深度研究代理&quot;&gt;2. Doc Research (ms-agent)：阿里出品的文档深度研究代理&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/modelscope/ms-agent&quot;&gt;https://github.com/modelscope/ms-agent&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;ms-agent&lt;/code&gt; 是由阿里达摩院ModelScope团队开源的一个轻量级、可扩展的Agent框架。其中，&lt;code&gt;Doc Research&lt;/code&gt; 是其一个惊艳的应用，专注于实现文档的深度分析、研究和总结，能够根据输入的多篇文档或URL，自动生成结构化的图文报告。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心功能:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多模态报告生成&lt;/strong&gt;: 不再是纯文本，它可以输出包含图表的Markdown格式报告，可读性极强。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;强大的信息处理&lt;/strong&gt;: 支持多文件（PDF, Word等）和URL作为输入，利用LLM进行深度研究，并结合关键信息抽取技术优化Token使用，做到精准高效。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;灵活部署&lt;/strong&gt;: 支持在本地或魔搭创空间（ModelScope Studio）上运行。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;免费推理&lt;/strong&gt;: 对于魔搭用户，可以免费调用LLM API进行推理，极大地降低了使用成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/08/2eb146fb2ac99fa6afbda0a22e607473.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&quot;3-ragbits企业级生成式ai应用开发构建模块&quot;&gt;3. Ragbits：企业级生成式AI应用开发构建模块&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;http://github.com/deepsense-ai/ragbits&quot;&gt;http://github.com/deepsense-ai/ragbits&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;构建一个可靠、可扩展的RAG（检索增强生成）应用往往需要整合大量组件。&lt;code&gt;Ragbits&lt;/code&gt; 由 &lt;code&gt;deepsense-ai&lt;/code&gt; 团队开源，它将构建企业级GenAI项目的流程标准化，提供了一系列即插即用的构建模块（Building Blocks）。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心特性:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;广泛的兼容性&lt;/strong&gt;: 支持超过100种LLM接口或本地模型，自带向量存储并可轻松接入Qdrant、PgVector等。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;强大的数据处理&lt;/strong&gt;: 支持超过20种文件格式，并能利用内置的视觉模型（VLM）处理复杂的表格、图像和结构化内容。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;任意数据源连接&lt;/strong&gt;: 内置S3, GCS, Azure等主流云存储连接器，并支持自定义扩展。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模块化与可扩展&lt;/strong&gt;: 设计完全模块化，你可以像搭乐高一样，自由组合或裁剪组件，快速构建出符合自己需求的RAG流程或多代理（Multi-Agent）工作流。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id=&quot;4-gaokao-math242024年高考数学评测数据集&quot;&gt;4. GAOKAO-Math24：2024年高考数学评测数据集&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/zhengaq/GAOKAO-Math24&quot;&gt;https://github.com/zhengaq/GAOKAO-Math24&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;衡量一个大模型真实能力最好的方式之一，就是用真实世界中复杂且新颖的问题去测试它。&lt;code&gt;GAOKAO-Math24&lt;/code&gt; 项目正为此而生，它包含了2024年中国高考的数学试题，旨在为评测和检验顶尖大模型的复杂推理与解题能力提供一个高质量的基准（Benchmark）。对于从事LLM能力评测和研究的同学来说，这是一个极具价值的数据集。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/08/41ee3ea63a7c15a3c726e36dfec5bba4.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&quot;5-roo-code深度集成于ide的自主编码ai代理&quot;&gt;5. Roo-Code：深度集成于IDE的自主编码AI代理&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/RooCodeInc/Roo-Code&quot;&gt;https://github.com/RooCodeInc/Roo-Code&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Roo-Code&lt;/code&gt; 不仅仅是一个代码助手，它是一个存在于你编辑器中的AI驱动的&lt;strong&gt;自主编码代理&lt;/strong&gt;。它被授予了直接读写文件、执行终端命令、甚至自动化浏览器操作的能力，旨在成为一个能独立完成复杂开发任务的“AI程序员”。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心能力:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;自主工作流&lt;/strong&gt;: 能根据自然语言指令，自主规划并执行一系列操作，如代码生成、重构、调试、文档编写等。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;深度集成&lt;/strong&gt;: 直接与你的工作区交互，理解项目上下文，进行跨文件操作。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可扩展性&lt;/strong&gt;: 支持与任何OpenAI兼容的API或自定义模型集成，并且可以通过“个性化模式”调整其行为和能力。
&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/08/4856a10d4cf14a691c943438da181f88.png&quot; alt=&quot;&quot;&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id=&quot;6-firegeo一个即用型的saas项目启动套件&quot;&gt;6. firegeo：一个即用型的SaaS项目启动套件&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/mendableai/firegeo&quot;&gt;https://github.com/mendableai/firegeo&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;想快速启动一个新的SaaS（软件即服务）项目吗？&lt;code&gt;firegeo&lt;/code&gt; 提供了一个完美的起点。它是一个基于Next.js, Firecrawl等现代技术栈构建的开源SaaS入门套件，已经为你打包好了用户认证、订阅计费、品牌监控等基础功能，让你能跳过繁琐的初始设置，直接专注于核心业务的开发。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://camo.githubusercontent.com/8acb5a0288e8f1ec41a5a9ac1677b78594bc827b700d74e4b635cfda2cd9cb9b/68747470733a2f2f6d65646961342e67697068792e636f6d2f6d656469612f76312e59326c6b505463354d4749334e6a45784e6a68344e33567764477732595867325a5870764d48426c4e44466c656a64314d6a42705a5842784e485a3559584a784f476b354f535a6c634431324d563970626e526c636d35686246396e61575a66596e6c666157516d593351395a772f7832735471624357356d377a3071614e4a4d2f67697068792e676966&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&quot;7-tweakcnshadcnui组件的可视化主题编辑器&quot;&gt;7. tweakcn：shadcn/ui组件的可视化主题编辑器&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/jnsahaj/tweakcn&quot;&gt;https://github.com/jnsahaj/tweakcn&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;shadcn/ui&lt;/code&gt; 已成为许多开发者构建UI的首选，但这也导致了应用风格的趋同。&lt;code&gt;tweakcn&lt;/code&gt; 是一个为此而生的可视化主题编辑工具，它能让你通过直观的界面，轻松定制&lt;code&gt;shadcn/ui&lt;/code&gt;组件的每一个细节——从颜色、边框到字体，并一键生成相应的CSS配置代码，帮助你的网站在众多“孪生兄弟”中脱颖而出。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/08/4c74f24a51e512a2e375ab6f8742e23a.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&quot;8-waitlist一个使用supabase和nextjs构建等待列表的教程项目&quot;&gt;8. waitlist：一个使用Supabase和Next.js构建等待列表的教程项目&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/tinloof/waitlist&quot;&gt;https://github.com/tinloof/waitlist&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;这是一个非常适合学习和实践的开源项目。它是一个完整的演示应用，详细展示了如何使用Next.js（前端框架）和Supabase（开源的Firebase替代品，提供数据库和认证）从零开始构建一个功能完备的产品“等待列表”（Waitlist）页面。代码结构清晰，是学习现代Web应用开发的绝佳案例。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sanity.io/images/o5kh1pex/staging/8f1dc52595c9a5b827aa2b46a7b40141621a95e0-1280x720.webp?w=1280&amp;#x26;h=720&amp;#x26;auto=format&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sanity.io/images/o5kh1pex/staging/a59090d65fcf18d475d7728eed04bbcef1dadb7c-1280x720.webp?w=1280&amp;#x26;h=720&amp;#x26;auto=format&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&quot;9-hands-on-large-language-models图解llm书籍配套代码库&quot;&gt;9. Hands-On Large Language Models：图解LLM书籍配套代码库&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/HandsOnLLM/Hands-On-Large-Language-Models&quot;&gt;https://github.com/HandsOnLLM/Hands-On-Large-Language-Models&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;官网&lt;/strong&gt;: &lt;a href=&quot;http://www.llm-book.com&quot;&gt;www.llm-book.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;由著名的AI教育家Jay Alammar（《The Illustrated Transformer》作者）参与编写的O’Reilly新书《Hands-On Large Language Models》的官方代码库。这本书以其标志性的“可视化图解”风格而著称，用近300张图表，深入浅出地讲解了从LLM基础到微调、RAG、语义搜索等高级技术的实用核心概念。这个仓库包含了书中所有的实操代码，是理论与实践相结合的最佳学习资源。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/08/2a471ad1884c607d2cf0aa5f3101a3d6.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;</description><pubDate>Sun, 14 Jul 2024 00:00:00 GMT</pubDate></item><item><title>第24期 - 硬核的大模型项目</title><link>https://weekly.zhanglearning.com/posts/24-%E7%A1%AC%E6%A0%B8%E7%9A%84%E5%A4%A7%E6%A8%A1%E5%9E%8B%E9%A1%B9%E7%9B%AE/</link><guid>https://weekly.zhanglearning.com/posts/24-%E7%A1%AC%E6%A0%B8%E7%9A%84%E5%A4%A7%E6%A8%A1%E5%9E%8B%E9%A1%B9%E7%9B%AE/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/07/dbfb926c02ca74f7db98ae2b725055f2.png&quot; width=&quot;800&quot;&gt;  
&lt;p&gt;&lt;small&gt;本期介绍几个超硬核的大模型开源项目，涵盖声纹识别、推理引擎、搜索能力训练、音频生成等。&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;1、LLM Finetuning Notebooks&lt;/li&gt;
&lt;li&gt;2、3D-Speaker&lt;/li&gt;
&lt;li&gt;3、KsanaLLM&lt;/li&gt;
&lt;li&gt;4、ZeroSearch&lt;/li&gt;
&lt;li&gt;5、ThinkSound&lt;/li&gt;
&lt;li&gt;6、MaskSearch&lt;/li&gt;
&lt;li&gt;7、LMCache&lt;/li&gt;
&lt;li&gt;8、Langflow&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&quot;1llm-finetuning-notebooks&quot;&gt;1、LLM Finetuning Notebooks&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/ml-explore/llm-finetuning&quot;&gt;https://github.com/ml-explore/llm-finetuning&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;100 多个微调笔记本的代码库，一站式集齐所有资源！&lt;/p&gt;
&lt;p&gt;包含以下指南和示例：
• 工具调用、分类任务、合成数据生成
• BERT 模型、文本转语音(TTS)、视觉大语言模型
• GRPO、DPO、SFT、CPT
• 数据预处理、评估、保存
• Llama、Qwen、Gemma、Phi、DeepSeek&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/07/28b6ec77c0c0629255e6ce4fdc4499c5.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;23d-speaker&quot;&gt;2、3D-Speaker&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/modelscope/3D-Speaker&quot;&gt;https://github.com/modelscope/3D-Speaker&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://github.com/modelscope/3D-Speaker/raw/main/docs/images/3D-Speaker-logo.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;3D-Speaker&lt;/strong&gt; 是一个开源工具包，专注于单模态和多模态的声纹验证、识别和日志（diarization）。它由 ModelScope 社区孵化，旨在为开发者和研究者提供一套全面、强大且易于使用的声纹处理解决方案。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心功能与特点：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多任务支持&lt;/strong&gt;：该工具包不仅支持传统的声纹验证（判断两段语音是否来自同一个人）和识别（从众多说话人中识别出特定的一位），还支持说话人日志功能，能够切分出一段语音中不同说话人的片段。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多模态能力&lt;/strong&gt;：除了处理纯音频信号，3D-Speaker 还具备多模态处理能力，可以结合视频信息（如唇动）来进行更精准的声纹分析。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;丰富的预训练模型&lt;/strong&gt;：项目在 ModelScope 上发布了所有预训练模型，这些模型基于大规模数据集训练，包括一个名为 &lt;strong&gt;3D-Speaker-Dataset&lt;/strong&gt; 的大规模语音语料库，极大地推动了语音表征解耦的研究。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;业界领先的性能&lt;/strong&gt;：该项目在多个知名声纹识别基准数据集（如 VoxCeleb, CNCeleb）上都取得了领先的性能指标（EER）。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;无论是需要构建一个会议记录系统，还是开发智能客服的声纹验证功能，3D-Speaker 都提供了一个坚实的基础。&lt;/p&gt;
&lt;h3 id=&quot;3ksanallm&quot;&gt;3、KsanaLLM&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/Tencent/KsanaLLM/blob/main/README_cn.md&quot;&gt;https://github.com/Tencent/KsanaLLM/blob/main/README_cn.md&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;KsanaLLM&lt;/strong&gt;（一念 LLM）是腾讯推出的一款面向大语言模型（LLM）推理和服务的高性能、高易用性推理引擎。它旨在解决 LLM 服务中常见的性能瓶颈，提供极致的推理速度和吞吐量。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心优势：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;极致性能&lt;/strong&gt;：通过集成 vLLM、TensorRT-LLM 等业界顶尖框架的高性能 CUDA 算子，并结合 PagedAttention 等先进技术，实现了高效的显存管理和计算优化。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;高吞吐动态批处理&lt;/strong&gt;：引擎对任务调度和显存占用进行了精细调优，支持动态批处理（Dynamic Batching）和前缀缓存（Prefix Caching），能够在不牺牲延迟的情况下，大幅提升并发处理能力。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;广泛的硬件和模型支持&lt;/strong&gt;：KsanaLLM 不仅在 NVIDIA A10/A100/L40 等主流 GPU 上经过了充分验证，还创新性地支持华为昇腾（Ascend）NPU，展现了其强大的硬件兼容性。同时，它无缝支持 LLaMA、Baichuan、Qwen、Yi、DeepSeek 等众多主流的开源大模型。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;灵活易用&lt;/strong&gt;：提供与 OpenAI 兼容的 API 服务，支持流式输出、多卡张量并行等高级功能，并且可以轻松集成 Hugging Face 模型生态，极大方便了开发者进行部署和二次开发。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对于需要部署高性能、高并发 LLM 服务的企业和开发者来说，KsanaLLM 提供了一个极具吸引力的开源解决方案。&lt;/p&gt;
&lt;h3 id=&quot;4zerosearch&quot;&gt;4、ZeroSearch&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/Alibaba-NLP/ZeroSearch&quot;&gt;https://github.com/Alibaba-NLP/ZeroSearch&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://alibaba-nlp.github.io/ZeroSearch/static/images/model.jpg&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;ZeroSearch&lt;/strong&gt; 是阿里巴巴通义实验室提出的一种新颖的强化学习（RL）框架，其核心思想是 &lt;strong&gt;“在不进行真实搜索的情况下，激励大语言模型（LLM）使用搜索引擎的能力”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;传统的 LLM 搜索能力训练方法通常依赖于与真实搜索引擎（如 Google、Bing）的实时交互，但这面临两大挑战：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;不可控的文档质量&lt;/strong&gt;：搜索引擎返回的文档质量参差不齐，给训练过程带来噪声和不稳定性。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;高昂的 API 成本&lt;/strong&gt;：强化学习需要大量交互训练，可能产生数十万次搜索请求，导致高昂的 API 费用。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;ZeroSearch 的创新之处：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它通过一个巧妙的“模拟”策略来解决以上问题。首先，通过轻量级的监督微调（SFT），将 LLM 本身转变为一个“检索模块”，使其能够根据查询生成“有用”和“有噪声”的文档。&lt;/p&gt;
&lt;p&gt;在强化学习训练阶段，ZeroSearch 采用一种基于课程学习的策略，逐步增加模拟搜索结果的“噪声”，从而由易到难地激发和锻炼模型进行信息甄别和推理的能力。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心优势：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;零 API 成本&lt;/strong&gt;：整个训练过程在模拟环境中完成，完全无需调用外部搜索引擎 API。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;性能超越&lt;/strong&gt;：实验结果表明，ZeroSearch 在多个数据集上的表现优于基于真实搜索引擎训练的模型。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;良好的泛化性&lt;/strong&gt;：该框架适用于不同参数规模的基础模型和指令微调模型，并支持多种强化学习算法。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对于希望提升 LLM 在复杂问答、推理等场景下信息获取和利用能力的开发者来说，ZeroSearch 提供了一个低成本、高效率的创新训练范式。&lt;/p&gt;
&lt;h3 id=&quot;5thinksound&quot;&gt;5、ThinkSound&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://openaitx.github.io/view.html?user=FunAudioLLM&amp;#x26;project=ThinkSound&amp;#x26;lang=zh-CN&quot;&gt;https://openaitx.github.io/view.html?user=FunAudioLLM&amp;#x26;project=ThinkSound&amp;#x26;lang=zh-CN&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://github.com/FunAudioLLM/ThinkSound/raw/master/assets/figs/fig3_model.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;ThinkSound&lt;/strong&gt; 是一个统一的、支持任意模态到音频（Any2Audio）的生成框架，其独特之处在于它由“思维链（Chain-of-Thought, CoT）”推理来引导整个音频生成过程。&lt;/p&gt;
&lt;p&gt;想象一下，你不仅可以告诉模型“为这段视频配上声音”，还可以像导演一样，通过点击视频中的某个物体来“增强这个物体的声音”，或者用一句话来“让雨声更大一些”。ThinkSound 就致力于实现这种智能、可控、可交互的音频生成体验。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心方法与特点：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;ThinkSound 将复杂的音频生成与编辑任务分解为三个交互式阶段，全程由多模态大语言模型（MLLM）的思维链推理进行指导：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;拟音生成（Foley Generation）&lt;/strong&gt;：从视频中生成与语义和时间线都对齐的基础音景。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;对象中心优化（Object-Centric Refinement）&lt;/strong&gt;：通过点击视频中的物体或区域，为用户指定的对象优化或添加声音。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;目标音频编辑（Targeted Audio Editing）&lt;/strong&gt;：使用高层次的自然语言指令来修改已生成的音频。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;主要优势：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多模态输入&lt;/strong&gt;：支持从视频、文本、图像等多种输入生成音频。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可控与可组合&lt;/strong&gt;：通过思维链引导，用户可以对音频内容进行精细的控制和组合。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;交互式编辑&lt;/strong&gt;：支持点击视觉对象或使用文本指令来编辑特定的声音事件。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;统一框架&lt;/strong&gt;：一个基础模型即可支持生成、编辑和交互的完整工作流。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对于视频创作者、游戏开发者或任何需要进行创意音频设计的用户来说，ThinkSound 提供了一个极具想象力和实用性的工具。&lt;/p&gt;
&lt;h3 id=&quot;6masksearch&quot;&gt;6、MaskSearch&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/Alibaba-NLP/MaskSearch&quot;&gt;https://github.com/Alibaba-NLP/MaskSearch&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://github.com/Alibaba-NLP/MaskSearch/raw/main/img/fig-intro.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;MaskSearch&lt;/strong&gt; 是阿里巴巴团队在提升大模型搜索能力方向上的又一力作。它提出了一个通用的预训练框架，旨在从根源上增强 Agent 的通用搜索能力。&lt;/p&gt;
&lt;p&gt;如果说 ZeroSearch 是通过“模拟考试”来训练学生，那么 MaskSearch 就像是设计了一套全新的“完形填空”教材，让模型在海量的预训练数据中学会如何通过检索工具来补全信息。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心思想与方法：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;检索增强掩码预测（RAMP）&lt;/strong&gt;：这是 MaskSearch 提出的核心预训练任务。具体来说，模型会在大量的预训练文本中遇到被“掩盖”（Mask）掉的部分，它的任务就是学习如何主动使用搜索工具来查找信息，并用找到的信息来填补这些空白。这个过程极大地锻炼了模型在各种场景下的信息检索和推理能力。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;高质量数据生成&lt;/strong&gt;：为了支撑 RAMP 任务，MaskSearch 采用了一种“多 Agent 系统” + “自进化教师模型”的复杂流程来生成高质量的训练数据。这个系统包含规划器、改写器、观察者等多个角色，协同工作，确保训练数据的质量和多样性。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;主要优势：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;通用性&lt;/strong&gt;：作为一个预训练框架，MaskSearch 旨在提升模型的“底层能力”，因此其增强效果可以泛化到各种下游的搜索和问答任务中。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;性能显著提升&lt;/strong&gt;：大量实验证明，经过 MaskSearch 预训练的模型，在领域内和领域外的下游任务中都表现出显著的性能提升。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;MaskSearch 为如何将“搜索”这一关键能力更原生、更深入地融入大模型提供了一个全新的、富有成效的思路。&lt;/p&gt;
&lt;h3 id=&quot;7lmcache&quot;&gt;7、LMCache&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/LMCache/LMCache&quot;&gt;https://github.com/LMCache/LMCache&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/07/614c3bdd05d34a13983e7ae79727abde.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;LMCache&lt;/strong&gt; 是一个为大语言模型（LLM）服务引擎设计的扩展，旨在显著降低长上下文场景下的“首字返回时间”（TTFT）并提升吞吐量。&lt;/p&gt;
&lt;p&gt;在多轮问答、RAG（检索增强生成）等常见应用中，输入给模型的提示（Prompt）中往往包含大量重复内容（例如，历史对话、检索到的文档块等）。传统推理引擎每次都需要对完整的提示进行计算，浪费了宝贵的 GPU 资源。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/07/e1c2ab56545d0d7d64aaeb5873a06699.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;LMCache 的核心创新：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;LMCache 通过智能地缓存和复用这些文本块的 KV Cache（键值缓存，Transformer 模型中的一种中间计算结果）来解决这个问题。其最关键的特性是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任意位置复用&lt;/strong&gt;：不同于只能复用“前缀”的传统缓存技术，LMCache 能够识别并复用出现在提示中&lt;strong&gt;任意位置&lt;/strong&gt;的重复文本所对应的 KV Cache。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多级存储&lt;/strong&gt;：它可以将缓存存储在 GPU 显存、CPU 内存甚至本地磁盘上，灵活地平衡成本与效率。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;跨实例共享&lt;/strong&gt;：缓存甚至可以在多个不同的推理服务实例之间共享，进一步提升了缓存的命中率和整个集群的效率。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;效果与集成：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;通过与 vLLM 等主流推理引擎结合，LMCache 能够在许多应用场景下带来 &lt;strong&gt;3-10 倍&lt;/strong&gt;的延迟降低和 GPU 计算量节省。它已经被 vLLM Production Stack、KServe 等多个业界知名的开源项目官方支持。&lt;/p&gt;
&lt;p&gt;对于追求极致推理性能和成本效益的 LLM 应用开发者来说，LMCache 提供了一个即插即用、效果显著的优化利器。&lt;/p&gt;
&lt;h3 id=&quot;8langflow&quot;&gt;8、Langflow&lt;/h3&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/langflow-ai/langflow&quot;&gt;https://github.com/langflow-ai/langflow&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2025/07/dbfb926c02ca74f7db98ae2b725055f2.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Langflow&lt;/strong&gt; 是一个为 LangChain 生态系统设计的图形化界面（UI），旨在让开发者能够通过拖拽和连接组件的方式，快速地实验和构建大语言模型（LLM）应用。&lt;/p&gt;
&lt;p&gt;如果你觉得用代码一行一行地构建 Agent 和 Chain 显得繁琐和抽象，那么 Langflow 就是为你准备的“可视化编程”利器。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心功能与特点：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;可视化构建器&lt;/strong&gt;：提供一个直观的画布，你可以将 LLM、提示词模板、向量数据库、工具等组件拖拽到画布上，然后像连接电路一样将它们组合起来，构建出复杂的应用流程。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;快速迭代与测试&lt;/strong&gt;：内置交互式聊天窗口，让你在构建流程的同时就能立即进行测试和调试，极大地提升了开发效率。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;一键部署&lt;/strong&gt;：构建完成的应用流可以一键部署为 API 端点，方便地集成到你现有的应用程序中。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;代码导出与定制&lt;/strong&gt;：虽然是图形化界面，但 Langflow 同样支持导出为 Python 代码（JSON 格式），方便你进行更深度的定制或集成到其他项目中。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;丰富的组件库&lt;/strong&gt;：内置了对 LangChain 生态中绝大多数主流 LLM、向量数据库和工具的支持，开箱即用。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对于希望快速验证想法、搭建原型或偏好可视化开发的 LLM 应用开发者来说，Langflow 提供了一个优雅且高效的解决方案。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2025/06/0b1ed2732d4d7873e5d700fab9e4315d.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;</description><pubDate>Sun, 07 Jul 2024 00:00:00 GMT</pubDate></item><item><title>第23期 - 直播卖货的大模型</title><link>https://weekly.zhanglearning.com/posts/23-%E7%9B%B4%E6%92%AD%E5%8D%96%E8%B4%A7%E7%9A%84%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><guid>https://weekly.zhanglearning.com/posts/23-%E7%9B%B4%E6%92%AD%E5%8D%96%E8%B4%A7%E7%9A%84%E5%A4%A7%E6%A8%A1%E5%9E%8B/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/697aaa2b87b0e64e0c5e94838a34573b.png&quot; width=&quot;800&quot;&gt;  
&lt;p&gt;&lt;small&gt;谷歌这个项目可根据提示词创造各种字母形式，然后用它来书写各种内容 &lt;/small&gt;&lt;/p&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h2 id=&quot;大模型&quot;&gt;大模型&lt;/h2&gt;
&lt;h3 id=&quot;claude-35-sonnet&quot;&gt;Claude 3.5 Sonnet&lt;/h3&gt;
&lt;p&gt;Anthropic 发布 3.5 系列首个模型：Claude 3.5 Sonnet，这也是 Anthropic 目前最强大模型！&lt;/p&gt;
&lt;p&gt;朋友们用起来😎（最近风好严重，老章也惨遭封号😂）：&lt;a href=&quot;https://claude.ai&quot;&gt;https://claude.ai&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;google-新发布的-gemma-29b--27b-的底座&quot;&gt;Google 新发布的 Gemma 2！9B &amp;#x26; 27B 的底座！&lt;/h3&gt;
&lt;p&gt;Google 发布其开源模型 Gemma 2&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;全新的架构设计 性能大幅提升&lt;/li&gt;
&lt;li&gt;Gemma 2 拥有 9B 和 27B 参数规模，相比第一代模型在推理效率和安全性上有显著提升。&lt;/li&gt;
&lt;li&gt;27B 的 Gemma 2 在同等规模模型中表现最佳，甚至可与体积两倍的模型竞争。&lt;/li&gt;
&lt;li&gt;优化在各种硬件上高速运行，从高端桌面、游戏笔记本和云端设置上都能实现高效运行。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;模型&lt;/strong&gt;： &lt;a href=&quot;http://huggingface.co/google&quot;&gt;http://huggingface.co/google&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;报告&lt;/strong&gt;： &lt;a href=&quot;https://ai.google.dev/gemma&quot;&gt;https://ai.google.dev/gemma&lt;/a&gt;&lt;br&gt;
&lt;strong&gt;试玩&lt;/strong&gt;：&lt;a href=&quot;https://huggingface.co/spaces/huggingface-projects/gemma-2-9b-it&quot;&gt;https://huggingface.co/spaces/huggingface-projects/gemma-2-9b-it&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;苹果和-epfl-联合开源的多模态模型训练框架4m&quot;&gt;苹果和 EPFL 联合开源的多模态模型训练框架：4M&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/1d514e113cb1d9d26d318c922b235ac3.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;苹果和 EPFL 联合开源的多模态模型训练框架，业界良心，含金量巨高！支持数十种模态和任务，读图能力支持表面法线、深度图、图片分割、物体检测、图片描述。画图能力支持线框补图、画深度图和表面法线、基于深度图和区域修改图片。支持微调来适配新类型的任务&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;项目地址&lt;/strong&gt;：&lt;a href=&quot;https://4m.epfl.ch&quot;&gt;https://4m.epfl.ch&lt;/a&gt;
&lt;strong&gt;在线体验&lt;/strong&gt;：&lt;a href=&quot;https://huggingface.co/spaces/EPFL-VILAB/4M&quot;&gt;https://huggingface.co/spaces/EPFL-VILAB/4M&lt;/a&gt;
&lt;strong&gt;Github&lt;/strong&gt;：&lt;a href=&quot;https://github.com/apple/ml-4m&quot;&gt;https://github.com/apple/ml-4m&lt;/a&gt;
&lt;strong&gt;论文&lt;/strong&gt;：&lt;a href=&quot;https://arxiv.org/abs/2406.09406&quot;&gt;https://arxiv.org/abs/2406.09406&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;openai-开发了一个名为-criticgpt-的模型&quot;&gt;OpenAI 开发了一个名为 CriticGPT 的模型&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/9341d6a1d4f0af2710af2c09a0fe41bb.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;CriticGPT，一种基于 GPT-4 训练优化的模型，专门用于来发现 ChatGPT 中的代码错误。&lt;/p&gt;
&lt;p&gt;通过与人类合作 CriticGPT 能够显著减少模型幻觉，同时保持高效的错误检测能力。&lt;/p&gt;
&lt;p&gt;当前的 LLM 模型如 ChatGPT 等，在生成复杂代码时，即使是经验丰富的专家也难以可靠地评估其输出的质量和正确性。CriticGPT 通过训练模型生成自然语言评论，帮助人类更准确地评估代码，从而弥补了人类评估的局限性。&lt;/p&gt;
&lt;p&gt;研究发现，在 CriticGPT 的帮助下，人们审查 ChatGPT 代码的表现比没有帮助时高出 60%。&lt;/p&gt;
&lt;h3 id=&quot;b-站-bilibili-开源了-index-19b-模型&quot;&gt;B 站 BiliBili 开源了 Index-1.9B 模型&lt;/h3&gt;
&lt;p&gt;Index-1.9B 系列是 Index 系列模型中的轻量版本&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1.9B 包含&lt;/strong&gt;：
Index-1.9B base : 基座模型，具有 19 亿 非词嵌入参数量，在 2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先&lt;br&gt;
Index-1.9B pure : 基座模型的对照组，与 base 具有相同的参数和训练策略，不同之处在于严格过滤了该版本语料中所有指令相关的数据，以此来验证指令对 benchmark 的影响&lt;br&gt;
Index-1.9B chat : 基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型，由于预训练中引入了较多互联网社区语料，聊天的趣味性明显更强&lt;br&gt;
Index-1.9B character : 在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 角色扮演定制&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;模型&lt;/strong&gt;：
github: &lt;a href=&quot;https://github.com/bilibili/Index-1.9B?tab=readme-ov-file&quot;&gt;https://github.com/bilibili/Index-1.9B?tab=readme-ov-file&lt;/a&gt;&lt;br&gt;
Index-1.9B-Chat: &lt;a href=&quot;https://huggingface.co/IndexTeam/Index-1.9B-Chat&quot;&gt;https://huggingface.co/IndexTeam/Index-1.9B-Chat&lt;/a&gt;&lt;br&gt;
IndexTeam/Index-1.9B-Character: &lt;a href=&quot;https://huggingface.co/IndexTeam/Index-1.9B-Character&quot;&gt;https://huggingface.co/IndexTeam/Index-1.9B-Character&lt;/a&gt;&lt;br&gt;
IndexTeam/Index-1.9B: &lt;a href=&quot;https://huggingface.co/IndexTeam/Index-1.9B&quot;&gt;https://huggingface.co/IndexTeam/Index-1.9B&lt;/a&gt;&lt;br&gt;
IndexTeam/Index-1.9B-Pure: &lt;a href=&quot;https://huggingface.co/IndexTeam/Index-1.9B-Pure&quot;&gt;https://huggingface.co/IndexTeam/Index-1.9B-Pure&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/68a4866dcfab7250f714ea95e5c1627e.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;qwen2-接上-sd3-medium-文生图&quot;&gt;Qwen2 接上 SD3 Medium 文生图&lt;/h3&gt;
&lt;p&gt;支持中文输入，会自动优化并输出英文提示词&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;工作流&lt;/strong&gt;：&lt;a href=&quot;https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO&quot;&gt;https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Qwen2 插件&lt;/strong&gt;：&lt;a href=&quot;https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2&quot;&gt;https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/155852ae172fe1f2ffc57dd0b50f8698.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;deepseek-coder-v2代码和数学能力超越-gpt-4-的开源模型&quot;&gt;DeepSeek-Coder-V2：代码和数学能力超越 GPT-4 的开源模型&lt;/h3&gt;
&lt;p&gt;DeepSeek-Coder-V2：首个开源模型在编码和数学方面超越 GPT4-Turbo&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;在编码和数学方面表现出色，超越 GPT4-Turbo、Claude3-Opus、Gemini-1.5Pro、Codestral。
支持 338 种编程语言，上下文长度为 128K。
全面开源，提供两种尺寸：230B（也提供 API 访问）和 16B。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;输出性能达 5000-10000 token/s，百万输出 Token 2 元，对标 Mistral 的代码模型 Codestral，DeepSeek 开源具备顶尖代码和数学推理能力的 DeepSeek Coder V2&lt;/p&gt;
&lt;p&gt;开放论文，模型和代码，支持 236B 和 16B，支持微调并开放 API 服务&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;项目地址&lt;/strong&gt;：&lt;a href=&quot;https://github.com/deepseek-ai/DeepSeek-Coder-V2&quot;&gt;https://github.com/deepseek-ai/DeepSeek-Coder-V2&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;google-的-video-to-audio-技术&quot;&gt;Google 的 Video-to-Audio 技术&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/b74d3e69daca4af730b2c2f0b7819366.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;视频生成模型正在以惊人的速度发展，但许多当前系统只能生成无声输出。让生成的电影栩栩如生的下一个重要步骤之一是为这些无声视频创建配乐。&lt;/p&gt;
&lt;p&gt;谷歌分享了视频转音频 (V2A) 技术的进展，该技术使同步视听生成成为可能。V2A 将视频像素与自然语言文本提示相结合，为屏幕上的动作生成丰富的音景。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;详情&lt;/strong&gt;：&lt;a href=&quot;https://deepmind.google/discover/blog/generating-audio-for-video/&quot;&gt;https://deepmind.google/discover/blog/generating-audio-for-video/&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&quot;由-google-imagen-2-模型驱动的字母表生成器&quot;&gt;由 Google Imagen 2 模型驱动的字母表生成器&lt;/h2&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/40616c28c2f77cc2de184293d1f965c7.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;谷歌这个项目可根据提示词创造各种字母形式，然后用它来书写各种内容
非常适合制作标题或封面艺术！&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;传送门&lt;/strong&gt; : &lt;a href=&quot;https://labs.google/gentype&quot;&gt;https://labs.google/gentype&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;我也生成了一个：章北海&lt;/p&gt;
&lt;p&gt;水果主题
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/697aaa2b87b0e64e0c5e94838a34573b.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;海洋主题&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/b80887972e3b0948b48d5025d99ee90f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;微软开源的一个文本编码器-glyph-byt5-v2&quot;&gt;微软开源的一个文本编码器 Glyph-ByT5-v2。&lt;/h3&gt;
&lt;p&gt;支持使用十多种语言生成图片。&lt;/p&gt;
&lt;p&gt;还搭配了一个使用这个文本编码器的 SDXL 模型，可以直接生成中文海报和内容。&lt;/p&gt;
&lt;p&gt;从演示来看排版都挺好的。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;创建了一个高质量的多语言字形文本和图形设计数据集，包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对，覆盖另外九种语言；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;构建了一个多语言视觉段落基准数据集，包括 1000 个提示，每种语言 100 个，用于评估多语言视觉拼写准确性；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;采用最新的步进感知偏好学习方法，提高了视觉美学质量。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;模型下载&lt;/strong&gt;：&lt;a href=&quot;https://huggingface.co/GlyphByT5/Glyph-SDXL-v2&quot;&gt;https://huggingface.co/GlyphByT5/Glyph-SDXL-v2&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/e67722d09a547fe7714c543c9870a0d6.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;可以在这个 huggingface 空间里面体验，支持通过画框进行自定义排版。&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2&quot;&gt;https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/c3f057e859276f59c614bd956ca74f07.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;streamer-sales一个直播卖货大模型&quot;&gt;Streamer-Sales：一个直播卖货大模型&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/0466741d9a0a73cf3091ef706e2d3529.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;能自动卖货 同时实时回答客户任何问题😂&lt;/p&gt;
&lt;p&gt;它能根据商品特点自动生成吸引用户的解说文案，支持将语音输入转换为文字，便于主播在直播过程中与观众互动。&lt;/p&gt;
&lt;p&gt;同时还能生成带有情感的语音输出，使解说更加生动自然。还能一键生成数字人。&lt;/p&gt;
&lt;p&gt;甚至支持 Agent 通过网络查询快递信息。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GitHub&lt;/strong&gt;: &lt;a href=&quot;https://github.com/PeterH0323/Streamer-Sales&quot;&gt;https://github.com/PeterH0323/Streamer-Sales&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;在线体验&lt;/strong&gt;:&lt;a href=&quot;https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales&quot;&gt;https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;蚂蚁开源首个-graphrag-框架&quot;&gt;蚂蚁开源首个 GraphRAG 框架！&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/bb06a4431755716f39ccedc615b5ea7f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;构建生产级别的 AI Native Agent 应用！支持图可视化和详细示例代码！&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;继承 DB-GPT 的知识图谱、向量库、图数据库等基础能力实现&lt;/li&gt;
&lt;li&gt;数据处理：提供三元组抽取、Cypher 插入、TuGraph 存储&lt;/li&gt;
&lt;li&gt;数据查询与生成：查询关键词抽取，图相似度匹配&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;项目地址&lt;/strong&gt;：&lt;a href=&quot;https://github.com/eosphoros-ai/DB-GPT&quot;&gt;https://github.com/eosphoros-ai/DB-GPT&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;rag2sql-开源工具&quot;&gt;RAG2SQL 开源工具&lt;/h3&gt;
&lt;p&gt;8K Stars！Text2SQL 还不够？试试更精准的 RAG2SQL 开源工具&lt;/p&gt;
&lt;p&gt;官网：&lt;a href=&quot;https://vanna.ai&quot;&gt;https://vanna.ai&lt;/a&gt;&lt;br&gt;
Github: &lt;a href=&quot;https://github.com/vanna-ai/vanna&quot;&gt;https://github.com/vanna-ai/vanna&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/75089ec925af94802526477f53b8e7df.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;llamaindex-数据处理ragagentic-rag--ppt-和代码&quot;&gt;LlamaIndex 数据处理、RAG、Agentic RAG  PPT 和代码&lt;/h3&gt;
&lt;p&gt;LlamaIndex 团队在 @databricks 举办的 @Data_AI_Summit 数据 AI 峰会上分享了如何构建能够处理复杂文档的高级 RAG 应用💥⚡️，几乎涵盖了目前数据处理、RAG、Agentic RAG 等顶级前沿的理念并开放了 PPT 和代码！👍&lt;/p&gt;
&lt;p&gt;PPT: &lt;a href=&quot;https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/edit?usp=sharing&quot;&gt;https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/edit?usp=sharing&lt;/a&gt;
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/87ce293c32da53699825c3f9c21c18a3.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;omniparse支持多模态的数据结构化的平台&quot;&gt;OmniParse：支持多模态的数据结构化的平台&lt;/h3&gt;
&lt;p&gt;输入文档、表格、视频、音频、网页等数据，OmniParse 可以把数据清洗成结构化的数据，然后可以用于微调和 RAG。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Github&lt;/strong&gt;：&lt;a href=&quot;https://github.com/adithya-s-k/omniparse&quot;&gt;https://github.com/adithya-s-k/omniparse&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;pipecat一个可用于构建语音和多模态对话的-ai-开源框架&quot;&gt;Pipecat：一个可用于构建语音和多模态对话的 AI 开源框架&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/07/760aa4b72e67698841cdce0f7df7be47.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;你可以用它来创建私人教练、会议助手、儿童故事讲述玩具、客服机器人等 AI 语音助手。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GitHub&lt;/strong&gt;：&lt;a href=&quot;https://github.com/pipecat-ai/pipecat&quot;&gt;https://github.com/pipecat-ai/pipecat&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&quot;工具库&quot;&gt;工具库&lt;/h2&gt;
&lt;h3 id=&quot;chattts-稳定音色区分男女&quot;&gt;ChatTTS 稳定音色/区分男女&lt;/h3&gt;
&lt;p&gt;基于 ChatTTS 的 2000 条音色库 稳定性打分🥇 区分男女年龄👧 支持在线试听🎶&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker/summary&quot;&gt;https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker/summary&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/ea4cb3cdd84b04cb3de5d39661fd13e7.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;chattts-资源大全&quot;&gt;ChatTTS 资源大全&lt;/h3&gt;
&lt;p&gt;包括音色，赚钱方法，各种 WebUI 和 API 等。
&lt;a href=&quot;https://github.com/panyanyany/Awesome-ChatTTS&quot;&gt;https://github.com/panyanyany/Awesome-ChatTTS&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;一个开源的图片去水印解决方案：Watermark-Removal。&lt;/p&gt;
&lt;p&gt;项目基于机器学习的图像修复方法，自动去除图片水印。经处理后的图片，与原图几乎一致。&lt;/p&gt;
&lt;p&gt;GitHub: &lt;a href=&quot;https://github.com/zuruoke/watermark-removal&quot;&gt;https://github.com/zuruoke/watermark-removal&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;一个开源的图片去水印解决方案：Watermark-Removal。
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/89909ec38d162eeb66b7df10059c267c.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;项目基于机器学习的图像修复方法，自动去除图片水印。经处理后的图片，与原图几乎一致。GitHub：&lt;a href=&quot;https://t.co/vP3zvSe3Td&quot;&gt;https://github.com/zuruoke/watermark-removal&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;google-字体1644-个字体提供下载&quot;&gt;Google 字体，1644 个字体提供下载&lt;/h3&gt;
&lt;p&gt;👉 &lt;a href=&quot;https://fonts.google.com&quot;&gt;https://fonts.google.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/eba12ff79f6994b548d770246d1b59fb.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://cult-ui.com&quot;&gt;https://cult-ui.com&lt;/a&gt;
一些开箱即用的好看的组件，动画都给写好了 😃
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/3b9df38553ea1363a58a88e9d061e5d7.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;colorfulx&quot;&gt;ColorfulX&lt;/h3&gt;
&lt;p&gt;ColorfulX 是一个使用 Metal 实现的工具，用于创建多色渐变。
&lt;a href=&quot;https://github.com/Lakr233/ColorfulX&quot;&gt;https://github.com/Lakr233/ColorfulX&lt;/a&gt;
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/22870283283015a46151b8cb243e4d65.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;非常优雅的-mac-屏幕窗口管理软件-loop&quot;&gt;非常优雅的 Mac 屏幕窗口管理软件—— Loop&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/7546807fb8e7ed65f93b5fcfd7c2e019.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;Loop 是一款 macOS 应用程序，可帮助您简化窗口管理！您可以使用通过简单按键触发的径向菜单轻松选择窗口方向，并根据您的喜好使用个性化的颜色和设置进行自定义。只需单击几下，您就可以轻松移动窗口、调整窗口大小和排列窗口，从而节省您宝贵的时间和精力。&lt;/p&gt;
&lt;p&gt;brew install mrkai77/cask/loop 即可安装&lt;/p&gt;
&lt;p&gt;浅浅的试了一下，按下一个键，之后根据鼠标的方向去放置窗口的逻辑非常优雅&lt;/p&gt;
&lt;p&gt;默认的修饰键是左下角的🌐键，用外接键盘可能就得修改了&lt;/p&gt;
&lt;p&gt;如果有学习 SwiftUI 开发的朋友，感觉 Loop 这个软件的代码可能是个不错的学习资源：&lt;a href=&quot;https://github.com/MrKai77/Loop&quot;&gt;https://github.com/MrKai77/Loop&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;和-gpt-4o-匹敌-世界上最快的语音机器&quot;&gt;和 GPT 4o 匹敌 世界上最快的语音机器&lt;/h3&gt;
&lt;p&gt;能实现 500 毫秒的语音到语音响应 接近人类对话的自然速度&lt;/p&gt;
&lt;p&gt;为达到这种低延迟，开发团队优化了网络架构、AI 模型性能和语音处理逻辑。&lt;/p&gt;
&lt;p&gt;使用 WebRTC 网络发送音频，部署了 Deepgram 的快速转录和语音生成模型，并将所有 AI 模型在 Cerebrium 的容器中自托管，以减少延迟。&lt;/p&gt;
&lt;p&gt;在线体验：&lt;a href=&quot;https://fastvoiceagent.cerebrium.ai&quot;&gt;https://fastvoiceagent.cerebrium.ai&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&quot;知识库&quot;&gt;知识库&lt;/h2&gt;
&lt;h3 id=&quot;generative-ai-handbook一本人工智能学习手册&quot;&gt;Generative AI Handbook：一本人工智能学习手册&lt;/h3&gt;
&lt;p&gt;手册分为九个主要部分，每个部分包含若干章节，覆盖了 AI 的不同方面。&lt;/p&gt;
&lt;p&gt;包含了从基础知识到最新技术的全面内容，通过系统化的学习路径，帮助读者理解和应用 AI 技术。&lt;/p&gt;
&lt;p&gt;无论你是想要学习如何使用现有的 AI 工具，还是希望深入研究 AI 的原理，这本手册都能提供有价值的指导。&lt;/p&gt;
&lt;p&gt;传送门：&lt;a href=&quot;https://genai-handbook.github.io&quot;&gt;https://genai-handbook.github.io&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;解码-rag智谱-rag-技术的探索与实践&quot;&gt;解码 RAG：智谱 RAG 技术的探索与实践&lt;/h3&gt;
&lt;p&gt;智谱 AI 长期致力于大模型技术的研究，近期将重点应用于企业服务场景。RAG 技术由三个步骤组成：索引（Indexing）、检索（Retrieval）和生成（Generation），旨在解决模型幻觉和知识更新不及时的问题。相比传统 FAQ 或搜索方法，RAG 能显著降低实施成本，并提供答案的具体来源追溯。智谱 AI 组建了专业团队，致力于打造企业服务场景的 RAG 系统，提供全面支持与服务。&lt;/p&gt;
&lt;p&gt;文章详细介绍了 RAG 的技术和产品方案，包括文件上传的工程策略、知识运营和管理工具的提供，以及在知识问答过程中增强用户信任的功能。在智能客服实践中，RAG 技术解决了传统技术面临的知识整理成本高、复用性差、更新频繁、知识晦涩难懂等问题，并提高了用户体验。智谱 AI 通过“ChatGLM 大模型 + RAG”方案，提升了召回率和答案生成的质量，通过分阶段微调和 DPO（Decision-making Preference Optimization）技术，将正确率提升到 90% 以上。&lt;/p&gt;
&lt;p&gt;最后，文章强调了评测在模型训练中的重要性，并提出了评测数据集构建的原则。展望未来，RAG 技术将在更多领域得到应用，并与其它 AI 技术相结合。&lt;/p&gt;
&lt;p&gt;文章链接：&lt;a href=&quot;https://bestblogs.dev/article/b202f2&quot;&gt;https://bestblogs.dev/article/b202f2&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;生成式-ai-因-transformer-而存在&quot;&gt;生成式 AI 因 Transformer 而存在&lt;/h3&gt;
&lt;p&gt;一篇“旧”文，可称为对生成式 AI 工作原理讲解最生动、最容易理解的文章，没有之一。&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://ig.ft.com/generative-ai/&quot;&gt;https://ig.ft.com/generative-ai/&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;全栈-ds--da-数据分析岗位养成手册&quot;&gt;全栈 DS / DA 数据分析岗位养成手册&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/2526e7aa0b27a37fcef9400e1eccf27f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;来自一名哥大数据科学的学生 Jace 整理的，很适合数据分析科学入门学习使用，结合了不少国内的案例来分析学习。
🤖 &lt;a href=&quot;https://jace-yang.github.io/Full-Stack_Data-Analyst/intro.html&quot;&gt;https://jace-yang.github.io/Full-Stack_Data-Analyst/intro.html&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;开源免费编程书籍&quot;&gt;开源免费编程书籍 📚&lt;/h3&gt;
&lt;p&gt;起源于 Stackoverflow 的一个 QA，后开发者迁移至 Github，现在由 Free Ebook Foundation 管理维护。&lt;/p&gt;
&lt;p&gt;提供以下免费学习资源：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;电子书&lt;/li&gt;
&lt;li&gt;快捷参考表&lt;/li&gt;
&lt;li&gt;免费在线课程&lt;/li&gt;
&lt;li&gt;互动编程资源&lt;/li&gt;
&lt;li&gt;问题集和编程竞赛&lt;/li&gt;
&lt;li&gt;播客录制视频&lt;/li&gt;
&lt;li&gt;编程实战体验&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不同学习资源提供中英文等多种语言选项，不过体验看英文资源是最丰富的，中文相对少一些，建议大家直接学习英文资源。&lt;/p&gt;
&lt;p&gt;Github repo:
&lt;a href=&quot;https://github.com/EbookFoundation/free-programming-books&quot;&gt;https://github.com/EbookFoundation/free-programming-books&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;git-cheat-sheet&quot;&gt;git cheat sheet&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/f59ab998836ccc319ae6c8620171f5c9.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;nginx-完全指南-第三版&quot;&gt;Nginx 完全指南 (第三版)&lt;/h3&gt;
&lt;p&gt;O’Reilly 出品的《Nginx 完全指南 (第三版)》PDF 格式&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://disk.locklauncher.com/files/6670ef27e985f/NGINX-Cookbook-V3.pdf&quot;&gt;https://disk.locklauncher.com/files/6670ef27e985f/NGINX-Cookbook-V3.pdf&lt;/a&gt;
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/95937c06788353152cb16ff1452802c1.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;李宏毅深度学习教程leedl-tutorial-130mb&quot;&gt;《李宏毅深度学习教程》LeeDL-Tutorial 130MB&lt;/h3&gt;
&lt;p&gt;PDF 下载地址：&lt;a href=&quot;https://github.com/datawhalechina/leedl-tutorial/releases&quot;&gt;https://github.com/datawhalechina/leedl-tutorial/releases&lt;/a&gt;
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/04aa0ab7e422ed4714e16476b081f4c6.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;美国本科数学开源教材微积分线代统计&quot;&gt;美国本科数学开源教材：微积分，线代，统计&lt;/h3&gt;
&lt;p&gt;&lt;a href=&quot;https://openstax.org/subjects/math&quot;&gt;https://openstax.org/subjects/math&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;chatgpt-提示备忘单-v2&quot;&gt;ChatGPT 提示备忘单 V2&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/c5d0f9c20d9a747ff5cc1b16923c0343.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;saas-的-10-种商业模式变现方式&quot;&gt;&lt;a href=&quot;https://x.com/chuhaiqu/status/1802523293616161077&quot;&gt;SaaS 的 10 种商业模式（变现方式）&lt;/a&gt;&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;Limited features to paid users:
付费后解锁更多高级功能，例如 Ghost、Whimsical、Notion 都属于此类。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Subscription-based membership:
订阅制，订阅后可以使用所有功能，这里的订阅制跟第 1 条的付费模式不同，更像是 Adobe 系列软件的模式，没有免费版，只有一定时间的 trial。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Pay per feature:
一个功能点付一次钱，偏游戏类产品用得比较多，比如玩家付费解锁特殊角色。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Ads：
联盟广告，例如 Google AdSense 或原生广告，博客里也可以用这种方式。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Sponsorships：
常见于开源项目，当一个项目有很多人使用时，GitHub 上的 Star、Fork 数很高，可以主动开通赞助，把赞助方的 Logo 放到页面上。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Patronage：
打赏获得福利，例如 Patreon 上的项目。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Community model:
让用户对社区产生粘性因此付费，例如 Pieter Levels 的 Nomad List 以及付费社群。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Job boards:
与 2B 公司合作，帮助刊登工作广告，做代招聘服务。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Productizing an agency into SaaS:
帮助其他人做 SaaS 服务时延伸出来的小项目，最终变成主打产品。例如 Typeform 原先是创始人 David Okuniev 为了某家马桶公司展览需要而建立的表单工具。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Conditional Payments：
这种变现方式非常特别，例如 Pieter Levels 的“Go fucking do it”网站，你可以对一个任务设置罚款金额与截止期限，如果你没在截止期限完成任务的话，会被收取罚款金额给网站提供方 Pieter Levels。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&quot;轻阅读&quot;&gt;轻阅读&lt;/h2&gt;
&lt;p&gt;优秀的人都有一个共同特质：靠谱。靠谱的人，做事让人放心。做事有结果，凡事有交代，件件有着落，事事有回音。这是职场人优秀的品质，一个靠谱的人会收获更多的信赖，如果再加上你会来事、情商高，在职场的道路会一帆风顺。&lt;/p&gt;
&lt;p&gt;“有的信息一天之后就是垃圾，有的信息一周之后就是垃圾，有的信息一年之后就是垃圾，只有少数信息是你一辈子都能用上的。年轻时把时间花在获取哪类信息上，对人生道路会有直接影响。”&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://www.andreinc.net/2024/04/24/from-the-circle-to-epicycles&quot;&gt;可视化方式，从 0 到 1 掌握傅立叶&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;从回顾与圆相关的数学概念开始，包括正弦和余弦等三角函数。我们还将讨论欧拉恒等式，介绍正弦波（以及复正弦波）的概念，最后，我们将介绍傅里叶级数的概念。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/b00c932d68f0d76e561aa41b90cfcdbf.png&quot; alt=&quot;download (1)&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://blog.partykit.io/posts/using-vectorize-to-build-search/&quot;&gt;使用 Vectorize 在 160 行代码内构建一个超乎寻常的搜索引擎&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://bronwojtek.github.io/neuralnets-in-raw-python/docs/mcp.html&quot;&gt;以 Python 语言讲解无所不在的神经网络基础知识，关键概念的解释和示例程序都保持在非常基础的本科，甚至“高中”水平&lt;/a&gt;：&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://zhuanlan.zhihu.com/p/662438328&quot;&gt;27 岁老前端 Run 到袋鼠🦘国的第 206 天，他的分享太实用了！&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://airegex.cn/&quot;&gt;电子发票提取 Excel&lt;/a&gt;&lt;/p&gt;</description><pubDate>Sun, 30 Jun 2024 00:00:00 GMT</pubDate></item><item><title>第22期 - 国产大模型再开源</title><link>https://weekly.zhanglearning.com/posts/22-%E5%9B%BD%E4%BA%A7%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%86%8D%E5%BC%80%E6%BA%90/</link><guid>https://weekly.zhanglearning.com/posts/22-%E5%9B%BD%E4%BA%A7%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%86%8D%E5%BC%80%E6%BA%90/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/90e640eae82fb4311b24e22b21691059.jpeg&quot; width=&quot;800&quot;&gt;  
&lt;p&gt;&lt;small&gt;李彦宏内部讲话：开源大模型不如闭源，后者会持续领先 &lt;/small&gt;&lt;/p&gt;
&lt;h2 id=&quot;大模型&quot;&gt;大模型&lt;/h2&gt;
&lt;h3 id=&quot;glm-4-开源超越-llama3&quot;&gt;&lt;a href=&quot;https://github.com/THUDM/GLM-4&quot;&gt;GLM-4 开源：超越 Llama3&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;GLM-4-9B 开源模型综合能力相比 ChatGLM3-6B 提升 40% ，全面超过 Llama-3-8B-Instruct，中文学科能力提升 50%，最高支持达 1 百万 tokens 长文本，支持多达 26 种语言，函数调用（Function Call）能力媲美 GPT-4-Turbo。首次开源基于 GLM 基座的视觉模型 GLM-4V-9B，多模态能力比肩 GPT-4V。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;模型下载：&lt;/strong&gt;&lt;/p&gt;








































&lt;table&gt;&lt;thead&gt;&lt;tr&gt;&lt;th&gt;Model&lt;/th&gt;&lt;th&gt;Type&lt;/th&gt;&lt;th&gt;Seq Length&lt;/th&gt;&lt;th&gt;Download&lt;/th&gt;&lt;th&gt;Online Demo&lt;/th&gt;&lt;/tr&gt;&lt;/thead&gt;&lt;tbody&gt;&lt;tr&gt;&lt;td&gt;GLM-4-9B&lt;/td&gt;&lt;td&gt;Base&lt;/td&gt;&lt;td&gt;8K&lt;/td&gt;&lt;td&gt;&lt;a href=&quot;https://huggingface.co/THUDM/glm-4-9b&quot;&gt;🤗 Huggingface&lt;/a&gt; &lt;a href=&quot;https://modelscope.cn/models/ZhipuAI/glm-4-9b&quot;&gt;🤖 ModelScope&lt;/a&gt;&lt;/td&gt;&lt;td&gt;/&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;GLM-4-9B-Chat&lt;/td&gt;&lt;td&gt;Chat&lt;/td&gt;&lt;td&gt;128K&lt;/td&gt;&lt;td&gt;&lt;a href=&quot;https://huggingface.co/THUDM/glm-4-9b-chat&quot;&gt;🤗 Huggingface&lt;/a&gt; &lt;a href=&quot;https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat&quot;&gt;🤖 ModelScope&lt;/a&gt;&lt;/td&gt;&lt;td&gt;&lt;a href=&quot;https://modelscope.cn/studios/dash-infer/GLM-4-Chat-DashInfer-Demo/summary&quot;&gt;🤖 ModelScope CPU&lt;/a&gt; &lt;a href=&quot;https://modelscope.cn/studios/ZhipuAI/glm-4-9b-chat-vllm/summary&quot;&gt;🤖 ModelScope vLLM&lt;/a&gt;&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;GLM-4-9B-Chat-1M&lt;/td&gt;&lt;td&gt;Chat&lt;/td&gt;&lt;td&gt;1M&lt;/td&gt;&lt;td&gt;&lt;a href=&quot;https://huggingface.co/THUDM/glm-4-9b-chat-1m&quot;&gt;🤗 Huggingface&lt;/a&gt; &lt;a href=&quot;https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat-1m&quot;&gt;🤖 ModelScope&lt;/a&gt;&lt;/td&gt;&lt;td&gt;/&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;GLM-4V-9B&lt;/td&gt;&lt;td&gt;Chat&lt;/td&gt;&lt;td&gt;8K&lt;/td&gt;&lt;td&gt;&lt;a href=&quot;https://huggingface.co/THUDM/glm-4v-9b&quot;&gt;🤗 Huggingface&lt;/a&gt; &lt;a href=&quot;https://modelscope.cn/models/ZhipuAI/glm-4v-9b&quot;&gt;🤖 ModelScope&lt;/a&gt;&lt;/td&gt;&lt;td&gt;/&lt;/td&gt;&lt;/tr&gt;&lt;/tbody&gt;&lt;/table&gt;
&lt;h3 id=&quot;阿里巴巴-qwen2-开源&quot;&gt;&lt;a href=&quot;https://qwenlm.github.io/blog/qwen2/&quot;&gt;阿里巴巴 Qwen2 开源&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;⭐ 5 种尺寸的基础和指导型号，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。&lt;/p&gt;
&lt;p&gt;📝 除英语和中文外，还接受过 27 种其他语言的数据培训。&lt;/p&gt;
&lt;p&gt;🌟 在大量基准评估中表现 SOTA。编码和数学方面的表现显着提高。&lt;/p&gt;
&lt;p&gt;🌠 Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 的扩展上下文长度支持高达 128K 令牌。&lt;/p&gt;
&lt;p&gt;🤗 DEMO: &lt;a href=&quot;https://hf.co/spaces/Qwen/Qwen2-72B-Instruct&quot;&gt;https://hf.co/spaces/Qwen/Qwen2-72B-Instruct&lt;/a&gt;
🤖 CODE: &lt;a href=&quot;https://github.com/QwenLM/Qwen2&quot;&gt;https://github.com/QwenLM/Qwen2&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/ce5c331349ba0b75800f47101487a2b6.jpeg&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;快手发布了可灵视频生成模型&quot;&gt;&lt;a href=&quot;https://kling.kuaishou.com&quot;&gt;快手发布了可灵视频生成模型&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;可灵视频生成模型支持生成最长两分钟 30FPS 1080P 的视频。&lt;/p&gt;
&lt;p&gt;生成质量是现在普通用户能接触到的天花板，5 秒视频这个等级完全超越了谷歌 Voe 视频模型。&lt;/p&gt;
&lt;p&gt;运动幅度、不同比例、一致性、物理特性都是除了 Sora 之外现在看到最好的。&lt;/p&gt;
&lt;p&gt;体验方法：快影 APP-AI 玩法-AI 视频生成中申请。&lt;/p&gt;
&lt;p&gt;&lt;video src=&quot;https://r2.zhanglearning.com/blog/2024/06/3cdb16647f42ac4e0f1de60f54934c57.mp4&quot; controls&gt;&lt;/video&gt;&lt;/p&gt;
&lt;h3 id=&quot;字节跳动开发-tts-模型王炸级产品&quot;&gt;&lt;a href=&quot;https://bytedancespeech.github.io/seedtts_tech_report/&quot;&gt;字节跳动开发 TTS 模型王炸级产品&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;Seed-TTS：由字节跳动开发的几乎完美接近人类的文本到语音（TTS）模型&lt;/p&gt;
&lt;p&gt;该模型能够生成高质量、几乎无法与人类声音无法区分的语音。&lt;/p&gt;
&lt;p&gt;无需训练的情况下，只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音。&lt;/p&gt;
&lt;p&gt;完全能否胜任读小说、配音等任务&lt;/p&gt;
&lt;p&gt;Seed-TTS 还提供了对各种语音属性的高级控制能力，包括但不限于情感、语调、说话风格等。&lt;/p&gt;
&lt;p&gt;还可以通过编辑文本来编辑生成的语音。&lt;/p&gt;
&lt;p&gt;&lt;video src=&quot;https://r2.zhanglearning.com/blog/2024/06/c7189466e5c809ef22e3bec0497c3c92.mp4&quot; controls&gt;&lt;/video&gt;
&lt;video src=&quot;https://r2.zhanglearning.com/blog/2024/06/bfb3d36a47f6e8e24a83050df2b60f33.mp4&quot; controls&gt;&lt;/video&gt;&lt;/p&gt;
&lt;p&gt;&lt;video src=&quot;https://r2.zhanglearning.com/blog/2024/06/722e7b158b1500184072873cc3a546ad.mp4&quot; controls&gt;&lt;/video&gt;&lt;/p&gt;
&lt;p&gt;&lt;video src=&quot;https://r2.zhanglearning.com/blog/2024/06/18f446fda5c3fff2abf15d9d88a6d9d6.mp4&quot; controls&gt;&lt;/video&gt;&lt;/p&gt;
&lt;p&gt;&lt;video src=&quot;https://r2.zhanglearning.com/blog/2024/06/d9b4c5eb1e6356b47b8c5fccc1e201ab.mp4&quot; controls&gt;&lt;/video&gt;&lt;/p&gt;
&lt;h2 id=&quot;工具库&quot;&gt;工具库&lt;/h2&gt;
&lt;h3 id=&quot;基于-cloudflare-全家桶的博客方案&quot;&gt;&lt;a href=&quot;https://github.com/OXeu/Rin&quot;&gt;基于 Cloudflare 全家桶的博客方案&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;⚡️Rin 一个基于 Cloudflare Pages + Workers + D1 + R2 全家桶的博客，无需服务器无需备案，只需要一个解析到 Cloudflare 的域名即可部署。&lt;/p&gt;
&lt;p&gt;缺点是非静态，不利于搜索引擎收录。演示：&lt;a href=&quot;https://xeu.life&quot;&gt;https://xeu.life&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/899411bdc8cdfe86da534e59adcadf12.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;chrome-浏览器内置大模型&quot;&gt;&lt;a href=&quot;https://developer.chrome.com/docs/ai/built-in?hl=zh-cn&quot;&gt;Chrome 浏览器内置大模型&lt;/a&gt;&lt;/h3&gt;
&lt;blockquote&gt;
&lt;p&gt;Chrome 的网页平台团队正在探索一个“内置 AI”的概念，其中浏览器将内置 AI 模型，为浏览器功能和网页平台 API 提供设备上的 AI 支持。通过内置 AI，您的网站或网络应用程序将能够针对基础模型和专家模型运行各种 AI 任务，而无需担心部署和管理这些模型。特别是，我们将在大多数配备 Chrome 的现代台式机和笔记本电脑上本地运行 Gemini Nano，它是 Gemini 模型系列中最小的版本。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;最新的 Chrome 已经内置大模型 (Gemini Nano) 了，官方推荐的用户是本地和远端大模型混合使用的方案。&lt;/p&gt;
&lt;p&gt;使用 chrome 本地模型的好处：
1、本地处理敏感数据；
2、流畅的用户体验；
3、对 AI 的访问权限更高；
4、离线使用 AI。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/c2070f6848059e1367511fa966b79f52.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;Chrome 内置大模型并提供了一个翻译 API，支持多语言的翻译。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/e9692c93314936e728ef300a14a31aeb.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;如果没有资格，可以&lt;a href=&quot;https://docs.google.com/forms/d/e/1FAIpQLSfZXeiwj9KO9jMctffHPym88ln12xNWCrVkMY_u06WfSTulQg/viewform&quot;&gt;提交申请&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;去除-pdf-加密最简单的方法&quot;&gt;去除 PDF 加密最简单的方法&lt;/h3&gt;
&lt;p&gt;把 pdf 文件拖到任意浏览器里，选择打印，另存为 PDF，不需要安装任何辅助工具。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/804198d932612c2ee58a7aed8c3a7e63.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;小爱音箱接入-chatgpt&quot;&gt;&lt;a href=&quot;https://github.com/idootop/mi-gpt&quot;&gt;小爱音箱接入 ChatGPT&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;🏠 将小爱音箱接入 ChatGPT 和豆包，改造成你的专属语音助手。&lt;/p&gt;
&lt;p&gt;🎓 LLM 回答。想象一下，你的小爱音箱变身聊天高手，可以使用 ChatGPT 等大模型来回答你的问题。
🎭 角色扮演。一秒调教小爱，无论是成为你的完美伴侣，还是那个能听你倾诉心事的贴心闺蜜，都不在话下。
💬 流式响应。爱情来得太快就像龙卷风，而你的小爱音箱也是，对你的爱意秒回，爱你不会让你等太久。
🧠 长短期记忆。小爱音箱现在能记住你们之间的每一次对话，越聊越默契，就像是你身边的老朋友。
🔊 自定义 TTS。厌倦了小爱同学的语音？帮你解锁「豆包」同款音色，就像真人在回你的消息。
🤖️ 智能家居 Agent。心情不好？小爱立刻懂你，自动帮你播放喜欢的音乐，调节灯光，逗你开心。&lt;/p&gt;
&lt;p&gt;&lt;video src=&quot;https://r2blog.zhanglearning.com/2024/06/6d51a6282c0e30c60cba1ba69f3b3fca.mp4&quot; controls&gt;&lt;/video&gt;&lt;/p&gt;
&lt;h2 id=&quot;知识库&quot;&gt;知识库&lt;/h2&gt;
&lt;h3 id=&quot;使用-python-进行机器学习&quot;&gt;&lt;a href=&quot;https://www.coursera.org/learn/machine-learning-with-python&quot;&gt;使用 Python 进行机器学习&lt;/a&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;描述各种类型的机器学习算法以及何时使用这些算法&lt;/li&gt;
&lt;li&gt;比较和对比线性分类方法，包括多类预测、支持向量机和逻辑回归&lt;/li&gt;
&lt;li&gt;编写 Python 代码，实现各种分类技术，包括 K-Nearest neighbors (KNN)、决策树和回归树&lt;/li&gt;
&lt;li&gt;使用评估指标对数据集上的简单线性、非线性和多元回归结果进行评估&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/06/b172421794a4bd6797fbc43b2906a6d4.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;黄仁勋最新-2-万字演讲实录&quot;&gt;&lt;a href=&quot;https://mp.weixin.qq.com/s/83JwMgI-IJ0OEmIEJbwRrw&quot;&gt;黄仁勋最新 2 万字演讲实录&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;以下为本次演讲的要点：
①黄仁勋展示了最新量产版 Blackwell 芯片，并称将在 2025 年推出 Blackwell Ultra AI 芯片，下一代 AI 平台命名为 Rubin，2027 年推 Rubin Ultra，更新节奏将是“一年一次”，打破“摩尔定律”。
② 黄仁勋宣称英伟达推动了大语言模型诞生，其在 2012 年后改变了 GPU 架构，并将所有新技术集成在单台计算机上。
③ 英伟达的加速计算技术帮助实现了 100 倍速率提升，而功耗仅增加到原来的 3 倍，成本为原来的 1.5 倍。
④ 黄仁勋预计下一代 AI 需要理解物理世界。他给出的方法是让 AI 通过视频与合成数据学习，并让 AI 互相学习。
⑤ 黄仁勋在 PPT 里甚至给 token 敲定了一个中文译名——词元。
⑥ 黄仁勋表示，机器人时代已经到来，将来所有移动的物体都将实现自主运行。&lt;/p&gt;
&lt;h2 id=&quot;轻阅读&quot;&gt;轻阅读&lt;/h2&gt;
&lt;p&gt;人生很短，无论一个人多聪明，多有天分，也不可能漠视几千年来伟大学者共同努力得来的成果。这是人类了解大自然、了解人生、了解人际关系累积下来的经验，不是一朝一夕所能够成就的，所以一个人小的时候博览群书是非常重要的。 ——丘成桐&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://dashu.ai/blog/56&quot;&gt;我为什么选择全家移居泰国清迈！泰国生活优缺点全方位分享！&lt;/a&gt;
这篇文章非常全面的介绍了泰国的医疗、教育、生活和事业。&lt;/p&gt;
&lt;p&gt;世界上几乎所有美好的东西都要通过对抗熵增获得—— 想要成绩，就要把混乱的知识整理成体系; 想要财富，就要把复杂的工作梳理出标准; 想要幸福，就要把丰富的情感经营到恬淡… 成长的过程，就是不断剥离动物本能的过程。有的人脱胎换骨，成就最好的自己；有的人庸庸碌碌，浑浑噩噩过一生。&lt;/p&gt;</description><pubDate>Fri, 07 Jun 2024 00:00:00 GMT</pubDate></item><item><title>第21期 - 史上最强悍的TTS</title><link>https://weekly.zhanglearning.com/posts/21-%E5%8F%B2%E4%B8%8A%E6%9C%80%E5%BC%BA%E6%82%8D%E7%9A%84TTS/</link><guid>https://weekly.zhanglearning.com/posts/21-%E5%8F%B2%E4%B8%8A%E6%9C%80%E5%BC%BA%E6%82%8D%E7%9A%84TTS/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/ccaf952193ffbd04a4cebc77e342f041.png&quot; width=&quot;800&quot;&gt;
&lt;p&gt;&lt;small&gt;OpenAI 推出了 GPT-4o 模型，并将 GPTs 等高级工具免费提供给 ChatGPT 用户。&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;大模型&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;huggingchat 新功能&lt;/li&gt;
&lt;li&gt;腾讯推出“腾讯元宝”以及“腾讯元器”&lt;/li&gt;
&lt;li&gt;Mistral AI 发布了精通 80 多种编程语言的模型 Codestral&lt;/li&gt;
&lt;li&gt;谷歌推出 Gemini 1.5 Pro 和 1.5 Flash&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;工具库&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ChatTTS：专门为对话场景设计的文本到语音 TTS 模型&lt;/li&gt;
&lt;li&gt;ChatGPT iOS App UI - Free Figma Template&lt;/li&gt;
&lt;li&gt;AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;知识库&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;39 万 star 🌟的开源仓库学习编程&lt;/li&gt;
&lt;li&gt;基于 llm.c 复现了 124M 参数的 GPT-4&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;轻阅读&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Today’s AI Isn’t Sentient&lt;/li&gt;
&lt;li&gt;去年 OpenAI 董事会开除 Sam Altman 的内幕&lt;/li&gt;
&lt;li&gt;长视频：我为什么从特斯拉辞职&lt;/li&gt;
&lt;li&gt;从一年构建大型语言模型中学到的东西&lt;/li&gt;
&lt;li&gt;GPT 未来将是美国大学的标配&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&quot;大模型&quot;&gt;大模型&lt;/h2&gt;
&lt;h3 id=&quot;huggingchat-新功能&quot;&gt;&lt;a href=&quot;https://huggingface.co/chat/&quot; title=&quot;huggingchat 新功能&quot;&gt;huggingchat 新功能&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;huggingchat 现在支持工具调用了，目前共 6 个工具：
· web search 网页搜索：查询网络并在检索到的内容上执行与用户查询相关的 rag
· url fetcher url 获取器：从给定的 url 获取文本内容
· document parser 文档解析器：解析 pdf、文本、csv、json 等格式的内容
· image generation 图像生成：根据给定的文本提示生成图像
· image editing 图像编辑：根据给定的文本提示编辑图像
· calculator 计算器：一个简单的计算器，用于评估数学表达式&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/0c3f26d060e43fc461c151f3382cb6e8.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;腾讯推出腾讯元宝以及腾讯元器&quot;&gt;腾讯推出“腾讯元宝”以及“腾讯元器”&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/230e748485abaa8e38f7818d38cea447.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;元器是制作元宝智能体的工具。&lt;/p&gt;
&lt;p&gt;元器：&lt;a href=&quot;https://yuanqi.tencent.com&quot;&gt;https://yuanqi.tencent.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;元宝：&lt;a href=&quot;https://yuanbao.tencent.com&quot;&gt;https://yuanbao.tencent.com&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;mistral-ai-发布了精通-80-多种编程语言的模型-codestral&quot;&gt;&lt;a href=&quot;https://huggingface.co/mistralai/Codestral-22B-v0.1&quot; title=&quot;Mistral AI 发布了精通 80 多种编程语言的模型Codestral&quot;&gt;Mistral AI 发布了精通 80 多种编程语言的模型 Codestral&lt;/a&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;模型大小为 22B&lt;/li&gt;
&lt;li&gt;上下文长度为 32K&lt;/li&gt;
&lt;li&gt;模型无法商用&lt;/li&gt;
&lt;li&gt;在 RepoBench、Spider、FIM 基础测试上表现都很好&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/8dfad7107461e6ffb14f944dc841985c.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;谷歌推出-gemini-15-pro-和-15-flash&quot;&gt;谷歌推出 Gemini 1.5 Pro 和 1.5 Flash&lt;/h3&gt;
&lt;p&gt;提供更高的请求限制，并支持自定义模型调整。Gemini 1.5 Flash 针对高容量任务优化，现已提升到每分钟 1000 个请求且取消每日请求限制。还引入了 JSON schema 模式、移动端支持和 Google AI Studio 的浅色模式。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Gemini 1.5 Flash and 1.5 Pro stable release and billing&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Higher rate limits on Gemini 1.5 Flash&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Gemini 1.5 Flash tuning&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;JSON schema mode&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Mobile support and light mode in Google AI Studio
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/048a6c58e7973adc9f21cc42e385f2fb.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&quot;工具库&quot;&gt;工具库&lt;/h2&gt;
&lt;h3 id=&quot;chattts专门为对话场景设计的文本到语音-tts-模型&quot;&gt;&lt;a href=&quot;https://github.com/2noise/ChatTTS&quot; title=&quot;ChatTTS：专门为对话场景设计的文本到语音TTS模型&quot;&gt;ChatTTS：专门为对话场景设计的文本到语音 TTS 模型&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;该模型经过超过 10 万小时的训练，公开版本在 HuggingFace 上提供了一个 4 万小时预训练的模型。&lt;/p&gt;
&lt;p&gt;专为对话任务优化，能够支持多种说话人语音，中英文混合等。&lt;/p&gt;
&lt;p&gt;模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。&lt;/p&gt;
&lt;p&gt;ChatTTS 官网上线了，直接可以在线体验了&lt;/p&gt;
&lt;p&gt;传送门：&lt;a href=&quot;http://ChatTTS.com&quot;&gt;http://ChatTTS.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;另外还有人做了一个 ChatTTS Web UI，自己可以部署&lt;/p&gt;
&lt;p&gt;ChatTTS Web UI: &lt;a href=&quot;https://github.com/jianchang512/ChatTTS-ui&quot;&gt;https://github.com/jianchang512/ChatTTS-ui&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;chatgpt-ios-app-ui---free-figma-template&quot;&gt;&lt;a href=&quot;https://www.figma.com/community/file/1377140124614731195/chatgpt-ios-app-ui-free-figma-template&quot; title=&quot;ChatGPT iOS App UI - Free Figma Template&quot;&gt;ChatGPT iOS App UI - Free Figma Template&lt;/a&gt;&lt;/h3&gt;
&lt;h3 id=&quot;ai-开源搜索引擎perplexity-inspired-llm-answer-engine&quot;&gt;&lt;a href=&quot;https://github.com/developersdigest/llm-answer-engine&quot; title=&quot;AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine &quot;&gt;AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine &lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;受 Perplexity 启发的 LLM 搜索引擎开源项目，使用到的主要 API 包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LLM API:  Groq, Mixtral&lt;/li&gt;
&lt;li&gt;Embeddings:  OpenAI Embeddings&lt;/li&gt;
&lt;li&gt;LLM 框架：Langchain.JS&lt;/li&gt;
&lt;li&gt;搜索服务：Brave Search, Serper API&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;关于搜索服务：
· Brave Search：一个主动隐私安全的浏览服务，用于数据搜索和溯源
&lt;a href=&quot;https://search.brave.com&quot;&gt;https://search.brave.com&lt;/a&gt;
· Serper API：Google Search API，用于视频和图像的搜索
&lt;a href=&quot;https://serper.dev&quot;&gt;https://serper.dev&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&quot;知识库&quot;&gt;知识库&lt;/h2&gt;
&lt;h3 id=&quot;39-万-star的开源仓库学习编程&quot;&gt;&lt;a href=&quot;https://github.com/freeCodeCamp/freeCodeCamp&quot; title=&quot;39万star🌟的开源仓库学习编程&quot;&gt;39 万 star🌟的开源仓库学习编程&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;FreeCodeCamp 是一个非盈利社区，提供了一个开源的编程学习平台，帮助用户免费学习编程。&lt;/p&gt;
&lt;p&gt;FFC 很适合自学编程的人，你可以在这里学习包括网页设计、JavaScript、前端库、数据可视化、后端开发等多个认证课程。&lt;/p&gt;
&lt;h3 id=&quot;基于-llmc-复现了-124m-参数的-gpt-4&quot;&gt;&lt;a href=&quot;https://github.com/karpathy/llm.c/discussions/481&quot; title=&quot;基于 llm.c 复现了 124M 参数的 GPT-4&quot;&gt;基于 llm.c 复现了 124M 参数的 GPT-4&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;仅需 20 美刀💰和 90 分钟，前 OpenAI 创始成员
@karpathy 基于 llm.c 复现了 124M 参数的 GPT-4，并公布了如何在 A100 上从零开始复现运行的全部细节🥳👍&lt;/p&gt;
&lt;h3 id=&quot;苹果公布了-2024-年苹果设计大奖入围作品&quot;&gt;&lt;a href=&quot;https://developer.apple.com/design/awards/&quot; title=&quot;苹果公布了 2024 年“苹果设计大奖”入围作品&quot;&gt;苹果公布了 2024 年“苹果设计大奖”入围作品&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/e0d63752f8591730ddca5461e8cac00f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h2 id=&quot;轻阅读&quot;&gt;轻阅读&lt;/h2&gt;
&lt;p&gt;&lt;a href=&quot;https://frostming.com/2024/meet-with-paul/&quot; title=&quot;一位国内的Python开发者与一位诺贝尔经济学奖获得者的奇缘 &quot;&gt;一位国内的 Python 开发者与一位诺贝尔经济学奖获得者的奇缘 &lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作者在 34 岁生日之际收到一封来自 2018 年诺贝尔经济学奖得主的邮件，邀请他见面。邮件中，这位经济学家表达了对作者开发的 Python 项目 PDM 的欣赏，并希望与作者交流 Python 学习和开发经验。作者起初怀疑邮件的真实性，但经过核实后确认了对方的身份。见面之前，经济学家还发了一封长信介绍自己的背景和计划要谈的话题，展现出谦恭的态度，让作者感到敬佩。&lt;/p&gt;
&lt;p&gt;见面后，两人就 Python 初学者环境搭建、密钥管理和数字签名工具、Jupyter Notebook 在研究论文中的应用等话题进行了深入交流。经济学家对开源非常支持，并认为 Python 初学者仍然是一个庞大的群体，PEP 582 提案的拒绝令人遗憾。作者邀请经济学家到 PyCon China 做演讲，分享 Python 新手教学经验。&lt;/p&gt;
&lt;p&gt;这次见面让作者感到荣幸和鼓舞，这是他第一次靠自己的工作和成就获得外界的认可，也是对他多年来 Python 学习和开发努力的肯定。&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://time.com/collection/time100-voices/6980134/ai-llm-not-sentient/&quot; title=&quot;Today’s AI Isn’t Sentient&quot;&gt;Today’s AI Isn’t Sentient&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;李飞飞近日和 Etchemendy（斯坦福哲学教授，曾任斯坦福大学教务长）在《时代（Time）》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》，明确指出当前技术路线无法制造有感知能力的 AI。&lt;/p&gt;
&lt;p&gt;通用智能的一个重要特征是“感知力”，即拥有主观体验的能力——能够感受，比如说，饥饿的感觉，品尝苹果的味道，或者看到红色。感知力是通往通用智能的道路上的关键一步。&lt;/p&gt;
&lt;p&gt;大型语言模型（LLM）是一个在硅芯片上编码的数学模型。它不是像人类一样的有形的生物。它没有像人类一样的“生命”，不需要吃喝，繁殖，体验情感，生病，最终死亡。&lt;/p&gt;
&lt;p&gt;理解人类生成词语序列和 LLM 生成相同序列之间的本质区别非常重要。当我说“我饿了”时，我是在报告我感知到的生理状态。当一个 LLM 生成“我饿了”这个序列时，它只是在生成当前提示中词语序列最可能的完成方式。它所做的事情与它在不同的提示下生成“我不饿了”或“月亮是由绿奶酪做的”完全一样。这些都不是它（不存在的）生理状态的报告，只是概率上的完成方式。&lt;/p&gt;
&lt;p&gt;我们还没有实现有感知的 AI，更大的语言模型也不会让我们实现。如果我们想在 AI 系统中再现这种现象，我们需要更好地理解感知如何在有形的生物系统中出现。我们不会在 ChatGPT 的下一代迭代中偶然发现感知。&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://link.chtbl.com/tedai&quot;&gt;去年 openai 董事会开除 sam altman 的内幕&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;去年 openai 董事会开除 sam altman，公告里说：他（sam) 在与董事会的沟通中并不始终坦诚&lt;/p&gt;
&lt;p&gt;openai 前独立董事 helen toner 终于打破沉默，公开说明了这句话到底是指什么&lt;/p&gt;
&lt;p&gt;这里是短视频，toner 说了几个例子：
&lt;a href=&quot;https://x.com/bilawalsidhu/status/1795534345345618298&quot;&gt;https://x.com/bilawalsidhu/status/1795534345345618298&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=R8Lj48PMYxY&quot; title=&quot;我为什么从特斯拉辞职&quot;&gt;我为什么从特斯拉辞职&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;离职原因：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;失去激情：&lt;/strong&gt; 在公司工作七年，做着重复性的工作，失去了工作的激情。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;股票大涨后的心态变化：&lt;/strong&gt; 2019 年前入职的员工，经历了特斯拉股票的大涨，心态发生了变化，变得求稳，不再追求升职。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;两次严重车祸：&lt;/strong&gt; 两年内经历了两次严重车祸，虽然没有受伤，但心理受到了很大的冲击，让他重新思考人生的意义。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;人生目标不是财富最大化：&lt;/strong&gt; up 主认为舒适的心理状态、安全边际和寻找幸福才是他现阶段的人生目标。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&quot;从一年构建大型语言模型中学到的东西&quot;&gt;&lt;a href=&quot;https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-ii/&quot; title=&quot;从一年构建大型语言模型中学到的东西&quot;&gt;从一年构建大型语言模型中学到的东西&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;文章从操作的角度探讨了构建 LLM 应用的长期战略考虑，并将其分为数据、模型、产品和人员四个部分。&lt;/p&gt;
&lt;h3 id=&quot;gpt-未来将是美国大学的标配httpsopenaicomindexintroducing-chatgpt-edu&quot;&gt;[GPT 未来将是美国大学的标配](&lt;a href=&quot;https://t.co/FHZMVTFEqY&quot; title=&quot;GPT未来将是美国大学的标配&quot;&gt;https://openai.com/index/introducing-chatgpt-edu/&lt;/a&gt;)&lt;/h3&gt;
&lt;p&gt;OpenAI 计划推出了 ChatGPT Edu，这是为大学量身定制的 ChatGPT 版本。它旨在将 AI 负责任地整合到校园中，提供高级功能，如数据分析、编码和文档总结。ChatGPT Edu 包括企业级安全性，支持 50 多种语言，并提供更高的消息限制。此举旨在增强教育和运营框架，使学生、教职员工和研究人员更容易获得 AI 技术。
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/06/67156851493c92899b566b6940d01fa3.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;</description><pubDate>Sun, 02 Jun 2024 00:00:00 GMT</pubDate></item><item><title>第20期 - GPT原理动画展示</title><link>https://weekly.zhanglearning.com/posts/20-GPT%E5%8E%9F%E7%90%86%E5%8A%A8%E7%94%BB%E5%B1%95%E7%A4%BA/</link><guid>https://weekly.zhanglearning.com/posts/20-GPT%E5%8E%9F%E7%90%86%E5%8A%A8%E7%94%BB%E5%B1%95%E7%A4%BA/</guid><description>&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/9c7250733ae8fade24f6c9c58a4a214c.png&quot; width=&quot;800&quot;&gt;
&lt;p&gt;&lt;small&gt;冷知识：2024 年已过 40%&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：&lt;/p&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h2 id=&quot;大模型&quot;&gt;大模型&lt;/h2&gt;
&lt;h3 id=&quot;google-发布生成式-ai-视频模型-veo&quot;&gt;&lt;a href=&quot;https://deepmind.google/technologies/veo/&quot;&gt;Google 发布生成式 AI 视频模型 Veo&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/ef5a73c6813fd5bc98924537cd9eece1.png&quot; alt=&quot;&quot;&gt;
Google 在 I/O 开发者大会上宣布了它的生成式 AI 视频模型 Veo，能以不同视觉和电影风格生成长度超过 1 分钟的 1080p 分辨率视频。&lt;/p&gt;
&lt;p&gt;Google 称，Veo 具有自然语言的高级理解能力，能理解“延时拍摄（timelapse）”或“空中镜头（aerial shots of a landscape）”等电影术语，用户可用文本、图像或基于视频的提示导向他们想要的输出。&lt;/p&gt;
&lt;p&gt;Veo 的视频输出更一致和连贯，能展现人和物的更真实运动。类似 OpenAI 的 Sora，Veo 将首先提供给电影制作人和内容创作者试用。&lt;/p&gt;
&lt;p&gt;![[veo_example_014_jellyfish 1.mp4]]&lt;/p&gt;
&lt;p&gt;Prompt: A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors&lt;/p&gt;
&lt;h3 id=&quot;一览主流-llm-性能速度和价格的对比网站&quot;&gt;&lt;a href=&quot;http://artificialanalysis.ai&quot;&gt;一览主流 llm 性能、速度和价格的对比网站&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;分享一个可以一览主流 llm 性能、速度和价格的对比网站，方便大家选择适合自己的模型&lt;/p&gt;
&lt;p&gt;性能最好：gpt-4o
速度最快：gemini 1.5 flash
价格最低：llama 3-8b，主要 deepseek 没做评测。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/ce8b206b672ade86e7159e9df040e758.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;国内外-ai-大语言模型-api-价格对比&quot;&gt;&lt;a href=&quot;https://aigcrank.cn/llmprice/&quot;&gt;国内外 AI 大语言模型 API 价格对比&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;AIGCRank 大语言模型 API 价格对比是一个专门汇总和比较全球主要 AI 模型提供商的价格信息的工具。可以轻松查找和比较 OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS 和 Google 等国内外主要 API 提供商的最新价格，确保找到最适合您项目的模型定价。
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/acefe82250c33e7d6df3a6f2988a30c1.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h2 id=&quot;工具&quot;&gt;工具&lt;/h2&gt;
&lt;h3 id=&quot;开源的-ai-导航站模板&quot;&gt;&lt;a href=&quot;https://github.com/6677-ai/tap4-ai-webui&quot;&gt;开源的 AI 导航站模板&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;Tap4 AI Web UI 是一款开源的 AI 导航站模板，项目非常轻量级，维护简单，可一键部署到 Vercel！&lt;/p&gt;
&lt;p&gt;功能&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;国际化&lt;/li&gt;
&lt;li&gt;SEO 友好（支持 i18n）&lt;/li&gt;
&lt;li&gt;动态 sitemap.xml（支持 i18n）&lt;/li&gt;
&lt;li&gt;快速发布&lt;/li&gt;
&lt;li&gt;使用 NEXT 14 和 app 路由（react 服务器组件）&lt;/li&gt;
&lt;li&gt;Supabase serverless 数据库&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这两年 AI 导航站的流量非常大，大家如果也想做 AI 导航站，不妨拿去白嫖吧！&lt;/p&gt;
&lt;h3 id=&quot;2024-github-加速器开源-ai-11-个项目&quot;&gt;&lt;a href=&quot;https://github.blog/2024-05-23-2024-github-accelerator-meet-the-11-projects-shaping-open-source-ai/&quot;&gt;2024 GitHub 加速器：开源 AI 11 个项目&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;GitHub 加速器宣布了 2024 年入选的 11 个开源 AI 项目，它们代表了全球开源 AI 领域的创新和加速发展。项目包括机器学习和 AI 框架、生物学和疾病发现、模型训练和微调工具、仿真、部署和全生产化系统、多模态和 3D AI 能力，以及从可穿戴设备到 AI 驱动机器人的新兴接口和设备。&lt;/p&gt;
&lt;p&gt;11 个入选的开源 AI 项目：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Unsloth AI@UnslothAI 由 Daniel Han 和 Michael Han 创立，旨在使自定义 AI 模型更易访问。Unsloth 通过新兴技术和能力，使其比竞争对手快 2-5 倍，内存使用减少 70%，同时保持模型的性能和准确性。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Giskard@giskard_ai  由 Alex Combessie 和 Weixuan XIAO 创立，是一个用于测试和评估 LLMs 的开源库。Giskard 旨在提高开源 AI 模型的质量，推动整体采用、研究、透明度和问责性。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;A-Frame@aframevr 由 Diego Marcos 共同创建和维护，是一个框架，旨在使任何人在网络浏览器中都能轻松开发 AR/VR 和 3D 内容。A-Frame 专注于集成 AI 工作流程，例如 3D 高斯溅射和生成性 AI，以创建图像和环境。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Nav2 由机器人专家 Steve Macenski 创立，是 Robot Operating System (ROS) 导航框架的先驱。Nav2 是全球部署最广泛的自主移动机器人（AMR）导航解决方案，被 100 多家公司信赖。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;OpenWebUI@OpenWebUI 由 Tim Baek 创立，旨在为 AI 和 LLMs 构建最佳用户界面，为那些互联网访问受限的人提供利用 AI 技术的机会。OpenWebUI 通过 Web 界面本地运行 LLMs，使 AI 和 LLMs 更安全、更私密。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;LLMware AI 由 Namee Oberst 创立，她与 CEO Darren Oberst 和 Stefan Bachhofner 一起，旨在为金融和法律机构构建安全和敏感的 LLM AI Agent 和 RAG 模型。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;LangDrive 由 Michael Vandi 和 Spmatika 创立，他们在 CMU 攻读硕士学位期间构建了一个 LLM 电子邮件代理。LangDrive 是一个简单的框架，通过 API 和配置文件训练和部署生产级别的微调语言模型。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;HackingBuddyGPT 由 Andreas Happe 和 Jurgen Cito 创立，旨在帮助道德黑客和安全专业人员利用 LLMs 使世界更安全。HackingBuddyGPT 是一个自主的黑客伙伴，具有人在环路中的基础设施。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Web-Check 由 Alicia Sykes 创立，她是一位开源倡导者，旨在通过基于任何网站或服务器的开放数据提供 AI 驱动的安全洞察，使互联网更安全。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Marimo@marimo_io 由 Akshay Agrawal 和 Myles Scolnick 共同创立，旨在解决数据科学和机器学习 Notebook 使用中的所有问题。Marimo 是一个下一代 Python Notebook，为 AI/ML 开发者提供可复现、可维护和可生产的 Notebook。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Talkd AI @talkd_ai  由 Vinicious Mesel 创立，他开始兼职开发 Talkd AI，以构建一个统一的 LLM 聊天 API，为多个 LLMs 和上下文提供抽象层。Talkd AI 旨在促进和传播 LLMs 中 RAG 技术的使用方法。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&quot;一个帮助你思考的集合工具框架&quot;&gt;&lt;a href=&quot;https://untools.co/&quot;&gt;一个帮助你思考的集合工具&amp;#x26;框架：&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/886037029b6ac6741ab87e8f56203cb5.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;ai-智能图像分割&quot;&gt;&lt;a href=&quot;https://segmentify.app/zh&quot;&gt;AI 智能图像分割&lt;/a&gt;&lt;/h3&gt;
&lt;video src=&quot;https://teamaker-1251887421.cos.ap-guangzhou.myqcloud.com/segany.mp4&quot;&gt;
&lt;h3 id=&quot;一个只做渐变色的-css-库&quot;&gt;&lt;a href=&quot;https://uigradients.com/#RainbowBlue&quot;&gt;一个只做渐变色的 CSS 库&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;Ulgradients 是一个主打渐变风网站，设计师可根据自己风格来选择搭配，直接获得对应渐变配色的 CSS 代码，相当方便对于大大提高了前端开发的效率。
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/29a8acbe51894fc5a82f1895844730ca.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;一款专为英语学习打造的视频播放器&quot;&gt;&lt;a href=&quot;https://github.com/solidSpoon/DashPlayer?tab=readme-ov-file&quot;&gt;一款专为英语学习打造的视频播放器&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;为英语学习者量身打造的视频播放器，助你通过观看视频、沉浸真实语境，轻松提升英语水平。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/83dafdc4202f3c9216b29aacf7c24a52.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h2 id=&quot;知识库&quot;&gt;知识库&lt;/h2&gt;
&lt;h3 id=&quot;phi-3-cookbook&quot;&gt;&lt;a href=&quot;https://github.com/microsoft/Phi-3CookBook&quot;&gt;Phi-3 CookBook&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;Phi-3 是微软开发的一系列开放 AI 模型，是目前功能最强大、性价比最高的小型语言模型，分为 mini、small、vision 和 medium 等版本。&lt;/p&gt;
&lt;p&gt;关于 Phi-3 入门的 Phi-3 CookBook，主要内容：
· Phi-3 介绍和快速上手
· Phi-3 推理、微调和评测&lt;/p&gt;
&lt;h3 id=&quot;生成式人工智能常识科普图&quot;&gt;&lt;a href=&quot;https://cartography-of-generative-ai.net/&quot;&gt;生成式人工智能常识科普图&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;&lt;a href=&quot;https://cartography-of-generative-ai.net/genai_cartography.pdf&quot;&gt;https://cartography-of-generative-ai.net/genai_cartography.pdf&lt;/a&gt;
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/29c405073c52d7fbf9033dd5103e66bb.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;这张图非常有意思！&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;把生成式人工智能 GenAI 的核心内容 &amp;#x26; 高频议题，绘制在了一张可视化图里&lt;/strong&gt;。通过这张图，你可以感受到整个 GenAI 世界的运转逻辑，也会大致明&lt;strong&gt;白大模型是如何生成文字和图片&lt;/strong&gt;的~&lt;/p&gt;
&lt;h3 id=&quot;latex-入门与进阶&quot;&gt;&lt;a href=&quot;https://latex.lierhua.top/zh/&quot;&gt;LaTeX 入门与进阶&lt;/a&gt; &lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/0c6af9633427f19533d5cdb15e3376d4.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;前端开发的知识总结&quot;&gt;&lt;a href=&quot;https://spacexcode.com/&quot;&gt;前端开发的知识总结&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/a2ca75fe8fb94a750ce27e3a44172bef.png&quot; alt=&quot;WX20240517-100517.png&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;手把手带你从头实现-llama-3&quot;&gt;&lt;a href=&quot;https://github.com/naklecha/llama3-from-scratch&quot;&gt;手把手带你从头实现 LLaMa 3&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;llama3 implemented from scratch&lt;/strong&gt; 最近在 GitHub 社区非常出圈，Star 狂飙！&lt;/p&gt;
&lt;p&gt;这个项目用 &lt;strong&gt;图示 + 代码&lt;/strong&gt; 的方式，从头演示了如何理解和实现 LLaMa 3 的完整过程，非常生动、详细且硬核 👍
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/ea75afe08f8d63a41c242981c1bd48fd.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;什么是-gpt工作原理动画展示&quot;&gt;&lt;a href=&quot;https://arthurchiao.art/blog/visual-intro-to-transformers-zh/&quot;&gt;什么是 GPT？工作原理动画展示&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;3Blue1Brown 是一个专注于数学教育的 YouTube 频道，视频制作精良且非常擅&lt;strong&gt;用直观的动画和图表，讲清楚复杂抽象的数学话题&lt;/strong&gt;，以及由此拓展的机器学习、深度学习等等。&lt;/p&gt;
&lt;p&gt;3Blue1Brown 在 B 站也有官方账号，而且有 200 多万粉丝啦！最近更新的视频都与大模型有关，整个系列还在持续更新中。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;如果你想直观地搞清楚 GPT 原理，那 3Blue1Brown 这个系列的视频，应该是全球最好的学习资料了，甚至没有之一。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;@arthurchiao  做了另一件非常有意义的工作 —— &lt;strong&gt;将视频整理成了「动图 + 文字」的可视化版本&lt;/strong&gt;，而且还是中文！！相当于一份学霸的要点笔记，帮助你能更清晰地 get 到原视频的要点，彻底搞清楚 Transformer 内部工作原理。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/420605b7e622aad62e8223a3117ce817.gif&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;openai-前首席科学家分享-30-篇顶级-ai-论文&quot;&gt;&lt;a href=&quot;https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE&quot;&gt;OpenAI 前首席科学家分享 30 篇顶级 AI 论文&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;OpenAI 前首席科学家 Ilya sutskever 大佬分享的约 30 篇顶级 AI 研究论文清单爆火🔥💥，据说看完可以掌握当前人工智能最为关键的 90% 的知识！&lt;/p&gt;
&lt;p&gt;包括 Transformer 架构、RNN、LSTM、神经网络复杂度、计算机视觉等领域&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/e970c498f07639e2f9b9400f90373999.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h2 id=&quot;轻阅读&quot;&gt;轻阅读&lt;/h2&gt;
&lt;p&gt;&lt;a href=&quot;https://www.usmacd.com/cn/public_writing/&quot;&gt;公开写作的好处和坚持不懈&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/008826f3f810e91a2656dfc7654206e6.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;近期学到的一个技能：相信别人已经做过。很多问题的解决方案，这个世界上已经存在过。一定有这个世界上某个团队某个人已经思考的非常透彻，可能在书籍里，在历史里，在故事里，或者藏在互联网深处。如果找信息带来的价值远大于自己思考实践才能验证，那就先思考我应该在哪里找到这个解决方案。B&lt;strong&gt;y Nin19536@X&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;12 亿人没有护照、10 亿人没做过飞机、但有近 11 亿人可以上网。大学文化水平人数 2.18 亿，包含本科大专高职。理解这些数据，可以避免很多无意义的争吵。今天把上面数据都溯源了一下，都是官方发布的数据。截止 19 年底中国普通护照人数有 2 亿左右，也就是 12 亿人没有护照。23 年 9 月民航局公布的粗略数据表示中国乘坐过飞机的人仅为 3 亿多，也就是 10 亿多人没有坐过飞机。截止 23 年底，中国网民数量是 10.92 亿。2020 年人口普查，大学文化程度的人口为 21836 万人，包含高职、大专、本科及以上。&lt;strong&gt;By 熊猫学经济@weibo&lt;/strong&gt;&lt;/p&gt;&lt;/video&gt;</description><pubDate>Mon, 27 May 2024 00:00:00 GMT</pubDate></item><item><title>第19期 - Openai羞辱Google</title><link>https://weekly.zhanglearning.com/posts/19-Openai%E7%BE%9E%E8%BE%B1Google/</link><guid>https://weekly.zhanglearning.com/posts/19-Openai%E7%BE%9E%E8%BE%B1Google/</guid><description>&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/179e74101af5f06b1f6aa8e32241b51d.png&quot; width=&quot;800&quot;&gt;
&lt;p&gt;&lt;small&gt;海棠诗社 haitang.app 每一首诗都有简介、注释、翻译、评价&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：&lt;/p&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h2 id=&quot;大模型&quot;&gt;大模型&lt;/h2&gt;
&lt;h3 id=&quot;openai-发布了最新大模型-gpt-4o&quot;&gt;OpenAI 发布了最新大模型 GPT-4o&lt;/h3&gt;
&lt;p&gt;OpenAI 直接开放 GPT-4o，能力横跨语音、文本和视觉，免费用户也可以直接用！&lt;a href=&quot;https://chatgpt.com/&quot;&gt;https://chatgpt.com/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;在 API 方面，GPT-4o 的价格是 GPT-4-turbo 的一半，速度却是 GPT-4-turbo 的两倍，速率限制也高 5 倍。&lt;/p&gt;
&lt;p&gt;最惊艳的是 OpenAI 在现场的展示，在与 GPT-4o 语音对话过程中，三人随意打断，GPT-4o 反应极快，并且语气相当丰富，像极了在跟人类聊天&lt;/p&gt;
&lt;h3 id=&quot;腾讯开源旗下混元文生图大模型&quot;&gt;腾讯开源旗下混元文生图大模型&lt;/h3&gt;
&lt;p&gt;腾讯正式公布，旗下混元文生图大模型已完成升级，并对外开源。此次升级的模型采用了与 sora 相同的 dit 架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。这是业界首个中文原生的 dit 架构文生图开源模型，支持中英双语输入及理解，15 亿参数。&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a href=&quot;https://dit.hunyuan.tencent.com&quot;&gt;https://dit.hunyuan.tencent.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;官网排队：&lt;a href=&quot;https://image.hunyuan.tencent.com&quot;&gt;https://image.hunyuan.tencent.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;github: &lt;a href=&quot;https://github.com/tencent/hunyuandit&quot;&gt;https://github.com/tencent/hunyuandit&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/e1a4f1dd16f37df8cdff5049331f9c34.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;直接在浏览器本地运行-phi-3-模型&quot;&gt;直接在浏览器本地运行 Phi-3 模型&lt;/h3&gt;
&lt;p&gt;试玩：&lt;a href=&quot;https://huggingface.co/spaces/Xenova/experimental-phi3-webgpu&quot;&gt;https://huggingface.co/spaces/Xenova/experimental-phi3-webgpu&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Phi3-WebGPU 正是为在浏览器端本地运行模型的探索：&lt;/p&gt;
&lt;p&gt;🗂️ 模型下载约 2.3GB（下载一次并缓存）
🕒 加载模型时间：50 秒
🚀 推理速度：中文约 1.9 tokens/s，英文1.7 tokens/s
⏳ 首 token 返回延迟：20 秒&lt;/p&gt;
&lt;h3 id=&quot;deepseek-v2尖端开源-moe-模型&quot;&gt;DeepSeek-V2：尖端开源 MoE 模型！&lt;/h3&gt;
&lt;p&gt;体验：&lt;a href=&quot;https://chat.deepseek.com/coder&quot;&gt;https://chat.deepseek.com/coder&lt;/a&gt;
模型下载：&lt;a href=&quot;https://huggingface.co/deepseek-ai&quot;&gt;https://huggingface.co/deepseek-ai&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/40e0c0107a43298daf9bc67a5726201e.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;🌟 亮点：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;在 AlignBench 中排名前 3，超过 GPT-4，接近 GPT-4-Turbo。
在 MT-Bench 中排名顶级，可与 LLaMA3-70B 相媲美，并优于 Mixtral 8x22B。
专攻数学、代码和推理。
支持 128K 上下文窗口。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;✨ 特点：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;创新架构，236B 中有 21B 活动参数。
无与伦比的 API 定价，同时保持真正的开源和无商业性。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/caeace2e787d9ea9edef4761d236572f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;deepseek 较快的速度 + 不错的质量 + 超便宜的价格，这才是大模型作为新一代的基础设施该有的样子~&lt;/p&gt;
&lt;p&gt;官方还开了一个仓库，专门收集集成 deepseek 的应用，大家也可以关注下：
&lt;a href=&quot;https://github.com/deepseek-ai/awesome-deepseek-integration&quot;&gt;https://github.com/deepseek-ai/awesome-deepseek-integration&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;阿里云发布通义千问-25&quot;&gt;阿里云发布通义千问 2.5&lt;/h3&gt;
&lt;p&gt;模型的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%。在权威基准 opencompass 上，通义千问 2.5 得分追平 gpt-4 turbo。
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/ddb655c7b79e1ae66745c433c7b7814b.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;通义千问-qwen15-110b-超-1000-亿参数&quot;&gt;通义千问 Qwen1.5-110B 超 1000 亿参数&lt;/h3&gt;
&lt;p&gt;Qwen1.5-110B 是 Qwen1.5 系列中的新成员，也是该系列首个拥有超过 1000 亿参数的模型。&lt;/p&gt;
&lt;p&gt;该模型在基础模型评估中表现出色，与 Meta-Llama3-70B 相媲美，并在聊天模型评估（包括 MT-Bench 和 AlpacaEval 2.0）中表现出色。&lt;/p&gt;
&lt;p&gt;模型支持多语言，包括英语、中文、法语、西班牙语等，上下文长度可达 32K 令牌。&lt;/p&gt;
&lt;p&gt;模型特性：&lt;/p&gt;
&lt;p&gt;•架构：采用 Transformer 解码器架构，具有分组查询注意力（GQA）。
•性能：在标准评估和聊天模型评估中均展现卓越性能。
•多语言支持：支持多种语言，上下文长度可达 32K 令牌。&lt;/p&gt;
&lt;p&gt;根据官方公布的评测结果&lt;/p&gt;
&lt;p&gt;Qwen1.5-110B 模型的评测结果略略超过 Llama-3-70B 和 Mixtral-8×22B。&lt;/p&gt;
&lt;p&gt;Qwen1.5-110B 模型在综合理解（MMLU）、数学推理（GSM8K 和 MATH）方面得分比 Llama-3-70B 略高一点点，是几个模型中最强的。而在复杂推理任务 ARC-C 上则略低于 Mixtral-8×22B 模型。在编程测试 HumanEval 得分则是远超另几个模型，而 MBPP 编程测试上则低于 Mixtral-8×22B 模型。&lt;/p&gt;
&lt;p&gt;详细：&lt;a href=&quot;https://qwenlm.github.io/blog/qwen1.5-110b/&quot;&gt;https://qwenlm.github.io/blog/qwen1.5-110b/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/6f4daf5ffcd0c6deee82c70135c21d5c.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;零一万物开源了-yi-15-模型&quot;&gt;零一万物开源了 yi-1.5 模型&lt;/h3&gt;
&lt;p&gt;yi-1.5 有 6b、9b、34b 三个型号，都采用 apache 2.0 许可证。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;模型在 4.1 万亿 token 上训练的&lt;/li&gt;
&lt;li&gt;在 300 万个指令调优样本上进行了精细调整&lt;/li&gt;
&lt;li&gt;34b 型号一些指标超过了 qwen 的 72b&lt;/li&gt;
&lt;li&gt;6b 和 9b 型号也成功超越了 mistral 的 7b v0.2 版和 gemma 的 7b 型号&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;模型下载：&lt;a href=&quot;https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8&quot;&gt;https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/b6c36b4e1b221f6a7322be003ebc5780.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;gemma-2b---10m-context-模型的代码实现&quot;&gt;gemma 2b - 10m context 模型的代码实现&lt;/h3&gt;
&lt;p&gt;infiniattention 论文地址：
&lt;a href=&quot;https://arxiv.org/abs/2404.07143&quot;&gt;https://arxiv.org/abs/2404.07143&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;transformer-xl 论文地址：
&lt;a href=&quot;https://arxiv.org/abs/1901.02860&quot;&gt;https://arxiv.org/abs/1901.02860&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;模型下载地址：
&lt;a href=&quot;https://huggingface.co/mustafaaljadery/gemma-10m-safetensor&quot;&gt;https://huggingface.co/mustafaaljadery/gemma-10m-safetensor&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;github repo:
&lt;a href=&quot;https://github.com/mustafaaljadery/gemma-2b-10m&quot;&gt;https://github.com/mustafaaljadery/gemma-2b-10m&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;对大模型上下文能达到 8k =&gt; 10m 大幅提升的技术说明：
大型语言模型（llms）在内存方面的最大瓶颈是键值（kv）缓存。在传统的多头注意力机制中，它呈二次方增长，因此限制了序列长度的大小。
本文的方法按照 infiniattention 所概述的，将注意力分割到局部注意力块中。采用这些局部注意力块，并对局部注意力块应用递归，以获得最终的 10m 上下文全局注意力的结果。
许多想法灵感来自于 transformer-xl 论文。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/58be100b7b8d517714a47840740b7b80.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h2 id=&quot;小工具&quot;&gt;小工具&lt;/h2&gt;
&lt;h3 id=&quot;lgm生成高质量-3d-模型&quot;&gt;lgm：生成高质量 3d 模型&lt;/h3&gt;
&lt;p&gt;支持文字生成模型、图片生成模型，分辨率 512*512，5 秒内即可生成。&lt;/p&gt;
&lt;p&gt;在线体验：&lt;a href=&quot;https://huggingface.co/spaces/ashawkey/lgm&quot;&gt;https://huggingface.co/spaces/ashawkey/lgm&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a href=&quot;https://me.kiui.moe/lgm/&quot;&gt;https://me.kiui.moe/lgm/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;github: &lt;a href=&quot;https://github.com/3dtopia/lgm&quot;&gt;https://github.com/3dtopia/lgm&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/18fd0ece58abc6bcc4c80e616832c19e.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;手绘风-svg-的-react-渲染器&quot;&gt;手绘风 svg 的 react 渲染器&lt;/h3&gt;
&lt;p&gt;想做手绘风格的 ui 几乎没有门槛了🚀推荐用这个渲染手绘风 svg 的 react 渲染器：&lt;a href=&quot;https://github.com/bowen7/react-rough-fiber&quot;&gt;https://github.com/bowen7/react-rough-fiber&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;用法很简单，只要把 svg 图片用&lt;roughsvg&gt;组件包裹，就能把 svg 转成手绘风格。详细使用文档：&lt;a href=&quot;https://react-rough-fiber.amind.app&quot;&gt;https://react-rough-fiber.amind.app&lt;/a&gt;&lt;/roughsvg&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/685319b454099ea9a26e3d43f6b540aa.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;一个免费的开源插画网站&quot;&gt;一个免费的开源插画网站&lt;/h3&gt;
&lt;p&gt;网址：&lt;a href=&quot;http://opendoodles.com&quot;&gt;http://opendoodles.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;1.免费丰富的插画，支持在线编辑
2.支持导出 svg、png 等矢量图
3.如果需要更进一步的设计，支持定制服务&lt;/p&gt;
&lt;p&gt;很有意思的地方是，作者分享了他做这个产品的初衷，在他刚开始做设计师的时候，周围没有人教，而且没钱买软件，因此不得不盗版软件、偷科技杂志里的光盘，学到了很多酷的平面设计。&lt;/p&gt;
&lt;p&gt;现在做了 open doodles，这些插画资源遵循开放设计的理念，允许用户自由地复制、编辑、重新混合、分享或重新绘制，而不受版权或数据库法的限制。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/2940b52a3854b2e65c03f4c880216bdf.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;v2ex-被丑头像包围了丑头像生成器&quot;&gt;v2ex 被丑头像包围了，丑头像生成器&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;生成：&lt;a href=&quot;https://txstc55.github.io/ugly-avatar/&quot;&gt;https://txstc55.github.io/ugly-avatar/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;项目：&lt;a href=&quot;https://github.com/txstc55/ugly-avatar&quot;&gt;https://github.com/txstc55/ugly-avatar&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/815fc5ac49df200bca3456e58f40dbf1.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;如何下载视频号视频&quot;&gt;如何下载视频号视频&lt;/h3&gt;
&lt;p&gt;方式一：
&lt;a href=&quot;https://www.runningcheese.com/wechat-video-download&quot;&gt;https://www.runningcheese.com/wechat-video-download&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;方式二：
&lt;a href=&quot;https://github.com/lecepin/WeChatVideoDownloader/releases&quot;&gt;https://github.com/lecepin/WeChatVideoDownloader/releases&lt;/a&gt;
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/57245566a5b31c9274036d74b626c9dd.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;方式三：
&lt;a href=&quot;https://github.com/putyy/res-downloader&quot;&gt;https://github.com/putyy/res-downloader&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;网络资源嗅探资源下载器，支持：微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载！&lt;/p&gt;
&lt;h3 id=&quot;高性能的大数据无代码平台teable&quot;&gt;高性能的大数据无代码平台：teable&lt;/h3&gt;
&lt;p&gt;主要特点包括：&lt;/p&gt;
&lt;p&gt;📊 表格界面：类似电子表格的操作方式，支持单元格编辑、公式、条件格式、图表等功能。
🗂️ 丰富视图：除了表格视图，还提供看板、日历、画廊、表单、甘特图等多种数据展现方式。
🚀 卓越性能：可以轻松处理数百万数据，支持批量操作，有自动索引优化。
👨‍💻 原生 #SQL 支持：可以使用 SQL 直接查询，兼容 #Metabase、#PowerBI 等 #BI 工具。
🧠 AI Copilot：通过 AI 对话来辅助开发应用、生成图表、调整视图、设置自动化等。
🔒 数据安全：支持数据本地存储，有完善的权限管理。
⚡️ 实时协作：数据可实时更新，支持协作成员管理。
🧩 可扩展：基于 #React，可以低成本定制和扩展应用。
🤖 流程自动化：可通过 #AI 或可视化方式设计自动化流程。
🗄️ 多数据库支持：兼容 #Sqlite、#PostgreSQL、#MySQL 等数据库。&lt;/p&gt;
&lt;p&gt;可以将 Teable 视为 Airtable 的大数据替代品，在保留电子表格式的易用性的同时，还兼具传统数据库的高性能和稳定性，非常适合企业级的数据管理应用开发。&lt;/p&gt;
&lt;p&gt;🌐 链接：&lt;a href=&quot;https://github.com/teableio/teable&quot;&gt;https://github.com/teableio/teable&lt;/a&gt;
🚀 一键部署：&lt;a href=&quot;https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dteable&quot;&gt;https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dteable&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;嵌套网页展示搜索结果的产品-globe&quot;&gt;嵌套网页展示搜索结果的产品 globe&lt;/h3&gt;
&lt;p&gt;Globe: &lt;a href=&quot;https://explorer.globe.engineer/&quot;&gt;https://explorer.globe.engineer/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;globe，已经接入了 Gorq，速度真的快的离谱。一秒钟展示一个概念的所有内容，加载的速度赶不上生成的速度。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/05/78eaa329c2d86f29d6ec276b085020df.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;一个微信聊天记录导出工具&quot;&gt;一个微信聊天记录导出工具&lt;/h3&gt;
&lt;p&gt;&lt;a href=&quot;https://github.com/LC044/WeChatMsg&quot;&gt;https://github.com/LC044/WeChatMsg&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;提取微信聊天记录，将其导出成 HTML、Word、CSV 文档永久保存，对聊天记录进行分析生成年度聊天报告，还能 1:1 还原聊天界面！&lt;/p&gt;
&lt;h2 id=&quot;知识库&quot;&gt;知识库&lt;/h2&gt;
&lt;h3 id=&quot;推荐阅读你好-gpt-4o&quot;&gt;推荐阅读：《你好 gpt-4o》&lt;/h3&gt;
&lt;p&gt;想了解 gpt-4o 的技术细节，推荐阅读官方的 hello gpt-4o&lt;/p&gt;
&lt;p&gt;原文：&lt;a href=&quot;https://openai.com/index/hello-gpt-4o/&quot;&gt;https://openai.com/index/hello-gpt-4o/&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;awesome-中文大模型github&quot;&gt;awesome 中文大模型@GitHub&lt;/h3&gt;
&lt;p&gt;awesome chinese llm 旨在收集和梳理中文 llm 相关的开源模型、应用、数据集及教程等资料，目前收录的资源已达 100+ 个！&lt;/p&gt;
&lt;p&gt;github repo:
&lt;a href=&quot;https://github.com/hqwu-hitcs/awesome-chinese-llm&quot;&gt;https://github.com/hqwu-hitcs/awesome-chinese-llm&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;gemini-api-cookbook&quot;&gt;Gemini API Cookbook&lt;/h3&gt;
&lt;p&gt;Logan 大佬发布的 Gemini API 指南和示例的集合，包括用于编写提示和使用 API 不同功能的快速入门教程，以及可以构建的示例。
从账号申请开通、Gemini API 能力了解到实际接入过程，对接入测试工作帮助很大！&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://github.com/google-gemini/cookbook&quot;&gt;https://github.com/google-gemini/cookbook&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&quot;随便看看&quot;&gt;随便看看&lt;/h2&gt;
&lt;h3 id=&quot;openai-是如何连续三次羞辱-google-的&quot;&gt;openai 是如何连续三次羞辱 google 的：&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;chatgpt 在 2022/12 发布，导致 google 整个推翻 2023 年的计划&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;gpt-4 选在了 palm api (谁还记得它) 同一天发布&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;最近的一次，gpt-4o 在 google i/o 之前一天发布&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;</description><pubDate>Thu, 16 May 2024 00:00:00 GMT</pubDate></item><item><title>第18期 - LLM 迈向手机端！</title><link>https://weekly.zhanglearning.com/posts/18-LLM%20%E8%BF%88%E5%90%91%E6%89%8B%E6%9C%BA%E7%AB%AF%EF%BC%81/</link><guid>https://weekly.zhanglearning.com/posts/18-LLM%20%E8%BF%88%E5%90%91%E6%89%8B%E6%9C%BA%E7%AB%AF%EF%BC%81/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/0eeb9eda62ad4267bfd128e3fea6f6b2.png&quot; width=&quot;800&quot;&gt;
&lt;p&gt;&lt;small&gt;主打尊重隐私的搜索引擎 duckduckgo，也推出了 ai chat 服务，可以使用 chatgpt 或者 claude&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：&lt;/p&gt;
&lt;p&gt;[toc]&lt;/p&gt;
&lt;h3 id=&quot;1qwen15-110bqwen15-系列的首个千亿参数开源模型&quot;&gt;1、Qwen1.5-110B：Qwen1.5 系列的首个千亿参数开源模型&lt;/h3&gt;
&lt;p&gt;模型：&lt;a href=&quot;https://huggingface.co/Qwen/Qwen1.5-110B/&quot;&gt;https://huggingface.co/Qwen/Qwen1.5-110B/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;博客：&lt;a href=&quot;https://qwenlm.github.io/zh/blog/qwen1.5-110b/&quot;&gt;https://qwenlm.github.io/zh/blog/qwen1.5-110b/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Demo: &lt;a href=&quot;https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo&quot;&gt;https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;阿里开源了 qwen1.5-110b 模型，模型在基础能力评估中与 Meta-Llama3-70B 相媲美，在 Chat 评估中表现出色，包括 MT-Bench 和 AlpacaEval 2.0。&lt;/p&gt;
&lt;p&gt;支持高达 32k token 的上下文长度。&lt;/p&gt;
&lt;p&gt;提供包括英语、中文、法语、西班牙语、日语、韩语、越南语等多种语言的多语言支持。&lt;/p&gt;
&lt;p&gt;qwen2 也即将发布。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/70b9415e5c7b59d5f40c8f1858ec5af8.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;2苹果开源了-openelm&quot;&gt;2、苹果开源了 openelm&lt;/h3&gt;
&lt;p&gt;论文：&lt;a href=&quot;https://arxiv.org/abs/2404.14619&quot;&gt;https://arxiv.org/abs/2404.14619&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;项目：&lt;a href=&quot;https://github.com/apple/corenet&quot;&gt;https://github.com/apple/corenet&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;模型：&lt;a href=&quot;https://huggingface.co/apple/OpenELM&quot;&gt;https://huggingface.co/apple/OpenELM&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;苹果完全开源了 openelm 一系列模型，包括 270m、450m、1.1b 和 3b 四个规模的模型：&lt;/p&gt;
&lt;p&gt;不仅包括模型权重和推理代码，还包括了在公开数据集上进行模型训练和评估的完整框架，涵盖训练日志、多个保存点和预训练设置。&lt;/p&gt;
&lt;p&gt;还开源了 corenet：深度神经网络训练库：&lt;/p&gt;
&lt;p&gt;使研究人员和工程师能够开发和训练各种标准及创新的小型和大型模型，适用于多种任务，如基础模型（例如，clip 和大语言模型（llm））、物体分类、检测以及语义分割。&lt;/p&gt;
&lt;p&gt;openelm 采用按层分配参数的策略，有效提升了 transformer 模型各层的参数配置效率，显著提高模型精度。例如，在大约十亿参数的预算下，openelm 的准确率较 olmo 提升了 2.36%，且预训练所需的 token 数量减少了一半。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/12a73b841c4d8e73ead93c1bd3277cd7.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;3cohere-工具包快速构建和部署-rag-应用&quot;&gt;3、cohere 工具包：快速构建和部署 rag 应用&lt;/h3&gt;
&lt;p&gt;cohere 开源的工具包，用于开发 rag 应用，可以一键部署到微软 azure 上，也可以本地部署。&lt;/p&gt;
&lt;p&gt;github: &lt;a href=&quot;https://github.com/cohere-ai/cohere-toolkit&quot;&gt;https://github.com/cohere-ai/cohere-toolkit&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/71064a6ac891549f9d85d64c25e1535b.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;4llm-迈向手机端微软发布-phi-3-mini-模型&quot;&gt;4、LLM 迈向手机端！微软发布 phi-3-mini 模型&lt;/h3&gt;
&lt;p&gt;论文：&lt;a href=&quot;https://arxiv.org/abs/2404.14219&quot;&gt;https://arxiv.org/abs/2404.14219&lt;/a&gt;
4k 模型：&lt;a href=&quot;https://huggingface.co/microsoft/phi-3-mini-4k-instruct-onnx&quot;&gt;https://huggingface.co/microsoft/phi-3-mini-4k-instruct-onnx&lt;/a&gt;
128k 模型：&lt;a href=&quot;https://huggingface.co/microsoft/phi-3-mini-128k-instruct-onnx&quot;&gt;https://huggingface.co/microsoft/phi-3-mini-128k-instruct-onnx&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/03fdd8e5c4c7522320c011d767c96be8.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;微软官方 phi-3 博客，很详细的阐释了 phi-3 参数选择的考虑和模型高质量的原因。&lt;/p&gt;
&lt;p&gt;文中提到了 phi-3 在 slm 在端侧应用的场景和优势，认为 slm 和 llm 结合是更优解，也提到高质量数据在模型训练中的重要性。&lt;/p&gt;
&lt;p&gt;博客地址：
&lt;a href=&quot;https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/?ocid=fy24_soc_omc_br_x_phi3&quot;&gt;https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/?ocid=fy24_soc_omc_br_x_phi3&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;1）参数：拥有 38 亿参数
2）性能：与 mixtral 8x7b 和 gpt-3.5 等模型同级
3）手机端部署：足够小，且针对手机端进行了优化
4）更多模型：还提供了 70 亿 和 140 亿 的 phi-3-small 和 phi-3-medium 模型，性能远超 phi-3-mini&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/8b4539c2890cb59a14fa1956c9f4bd4d.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;5culturebank-在线社区驱动的知识库&quot;&gt;5、culturebank: 在线社区驱动的知识库&lt;/h3&gt;
&lt;p&gt;论文项目地址：
&lt;a href=&quot;https://culturebank.github.io&quot;&gt;https://culturebank.github.io&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;github 地址：
&lt;a href=&quot;https://github.com/salt-nlp/culturebank&quot;&gt;https://github.com/salt-nlp/culturebank&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;culturebank 通过从 tiktok 和 reddit 等在线社区收集用户自述，构建了一个包含 1.2 万个文化描述符的数据库。与以往的文化知识资源不同，culturebank 不仅包含了多样的文化观点，还提供了具体的文化场景，以帮助对语言模型进行基于上下文的评估。对现有的大型语言模型（llms）进行文化意识评估，并微调了一个语言模型以提高其在文化相关任务上的表现。展示了如何将构建的管道应用于 reddit，证明了其可转移性。&lt;/p&gt;
&lt;p&gt;文章还讨论了提高语言模型文化意识的未来方向，包括使用多样化的数据源、考虑文化内容的多个维度、进行深入的数据分析，以及在训练文化意识语言技术时考虑多轮对话设置和设计良好的训练范式。最后，文章提出了对文化数据的处理需要尊重个体和群体的尊严、隐私和文化敏感性，并呼吁社区共同努力，促进文化多样性和包容性。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/819e238eabad2b464523b841c630e8e9.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;6大模型微调工具-xtuner&quot;&gt;6、大模型微调工具 xtuner&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/b6acf1bcf8bfd62716688de1b6cf6307.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/InternLM/xtuner&quot;&gt;https://github.com/InternLM/xtuner&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;高效&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持大语言模型 LLM、多模态图文模型 VLM 的预训练及轻量级微调。XTuner 支持在 8GB 显存下微调 7B 模型，同时也支持多节点跨设备微调更大尺度模型（70B+）。&lt;/li&gt;
&lt;li&gt;自动分发高性能算子（如 FlashAttention、Triton kernels 等）以加速训练吞吐。&lt;/li&gt;
&lt;li&gt;兼容 &lt;a href=&quot;https://github.com/microsoft/DeepSpeed&quot;&gt;DeepSpeed&lt;/a&gt; 🚀，轻松应用各种 ZeRO 训练优化策略。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;灵活&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持多种大语言模型，包括但不限于 &lt;a href=&quot;https://huggingface.co/internlm&quot;&gt;InternLM&lt;/a&gt;、&lt;a href=&quot;https://huggingface.co/mistralai&quot;&gt;Mixtral-8x7B&lt;/a&gt;、&lt;a href=&quot;https://huggingface.co/meta-llama&quot;&gt;Llama 2&lt;/a&gt;、&lt;a href=&quot;https://huggingface.co/THUDM&quot;&gt;ChatGLM&lt;/a&gt;、&lt;a href=&quot;https://huggingface.co/Qwen&quot;&gt;Qwen&lt;/a&gt;、&lt;a href=&quot;https://huggingface.co/baichuan-inc&quot;&gt;Baichuan&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;支持多模态图文模型 LLaVA 的预训练与微调。利用 XTuner 训得模型 &lt;a href=&quot;https://huggingface.co/xtuner/llava-internlm2-20b&quot;&gt;LLaVA-InternLM2-20B&lt;/a&gt; 表现优异。&lt;/li&gt;
&lt;li&gt;精心设计的数据管道，兼容任意数据格式，开源数据或自定义数据皆可快速上手。&lt;/li&gt;
&lt;li&gt;支持 &lt;a href=&quot;http://arxiv.org/abs/2305.14314&quot;&gt;QLoRA&lt;/a&gt;、&lt;a href=&quot;http://arxiv.org/abs/2106.09685&quot;&gt;LoRA&lt;/a&gt;、全量参数微调等多种微调算法，支撑用户根据具体需求作出最优选择。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;全能&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持增量预训练、指令微调与 Agent 微调。&lt;/li&gt;
&lt;li&gt;预定义众多开源对话模版，支持与开源或训练所得模型进行对话。&lt;/li&gt;
&lt;li&gt;训练所得模型可无缝接入部署工具库 &lt;a href=&quot;https://github.com/InternLM/lmdeploy&quot;&gt;LMDeploy&lt;/a&gt;、大规模评测工具库 &lt;a href=&quot;https://github.com/open-compass/opencompass&quot;&gt;OpenCompass&lt;/a&gt; 及 &lt;a href=&quot;https://github.com/open-compass/VLMEvalKit&quot;&gt;VLMEvalKit&lt;/a&gt;。
&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/d46ddd309bb7df40b09a667702242516.png&quot; alt=&quot;&quot;&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&quot;7换衣应用在线体验&quot;&gt;7、换衣应用在线体验&lt;/h3&gt;
&lt;p&gt;在线体验：&lt;a href=&quot;https://huggingface.co/spaces/yisol/idm-vton&quot;&gt;https://huggingface.co/spaces/yisol/idm-vton&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/7a24619fc2d58f7f0d4adbf002539687.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;8hf-llama-3-中文模型列表&quot;&gt;8、hf llama 3 中文模型列表&lt;/h3&gt;
&lt;p&gt;&lt;a href=&quot;https://huggingface.co/models?pipeline_tag=text-generation&amp;#x26;language=zh&amp;#x26;sort=trending&amp;#x26;search=llama+3&quot;&gt;https://huggingface.co/models?pipeline_tag=text-generation&amp;#x26;language=zh&amp;#x26;sort=trending&amp;#x26;search=llama+3&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;9可视化-transfermor-模型的内部原理&quot;&gt;9、可视化 transfermor 模型的内部原理&lt;/h3&gt;
&lt;p&gt;facebook 发布了一个开源项目可以直接可视化 transfermor 模型的内部原理。作为直观理解 llm 基础原理很有帮助&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://github.com/facebookresearch/llm-transparency-tool&quot;&gt;https://github.com/facebookresearch/llm-transparency-tool&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/6e6fc0c0d6beae5b4bb05bd2258f69a2.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;10mistral-系列模型&quot;&gt;10、mistral 系列模型&lt;/h3&gt;
&lt;p&gt;mistral large：闭源，他家最强的模型，接近 gpt-4
mistral next：闭源，传言是新架构的模型
mistral medium：闭源，大致对应千问 1.5 72b 的能力
mixtral 8x22b：目前开源最佳
mistral small：即 mixtral 8x7b，最早的开源 moe 模型
mistral tiny：即 mistral 7b，7b 最佳基座&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/a1d23f6d21faa311abe01b3d24f2c91f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;</description><pubDate>Sun, 28 Apr 2024 00:00:00 GMT</pubDate></item><item><title>第17期 - Meta 发布Llama 3</title><link>https://weekly.zhanglearning.com/posts/17-Meta%20%E5%8F%91%E5%B8%83Llama%203/</link><guid>https://weekly.zhanglearning.com/posts/17-Meta%20%E5%8F%91%E5%B8%83Llama%203/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/3a5ce0e094e8f11f55584bad560b233f.jpeg&quot; width=&quot;800&quot;&gt;
&lt;p&gt;&lt;small&gt;在内部讲话中，李彦宏对大模型开源与闭源的路线选择，以及 AI 创业者应该专注模型还是应用等业界焦点话题，发表了自己的看法。&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术&lt;/p&gt;
&lt;p&gt;本期目录：
[toc]&lt;/p&gt;
&lt;h3 id=&quot;1meta-最新发布-llama-3-80-亿和-700-亿参数版本&quot;&gt;1、Meta 最新发布 Llama 3 80 亿和 700 亿参数版本&lt;/h3&gt;
&lt;p&gt;Meta 官方数据显示，Llama 3 8B 和 70B 版本在语言（MMLU）、知识（GPQA）、编程（HumanEval）、数学（GSM-8K、MATH）等能力上，Llama 3 几乎全面领先于同等规模的其他模型。&lt;/p&gt;
&lt;p&gt;8B 模型在 MMLU、GPQA、HumanEval 等多项基准上均胜过 Gemma 7B 和 Mistral 7B Instruct。&lt;/p&gt;
&lt;p&gt;而 70B 模型则超越了闭源的当红炸子鸡 Claude 3 Sonnet，和谷歌的 Gemini Pro 1.5 打得有来有回。&lt;/p&gt;
&lt;p&gt;目前，Llama 3 两种参数量的基础和 Instruct 版本都已上线 Hugging Face 可供下载。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/1c90f36a406d1637299436b9c967f466.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;2抱抱脸公司的免费对话服务现在提供六种模型&quot;&gt;2、「抱抱脸」公司的免费对话服务现在提供六种模型&lt;/h3&gt;
&lt;p&gt;「抱抱脸」公司的免费对话服务现在提供六种模型，包括 Command R+、基于 Mixtral-8x22B 模型的调参版本&lt;/p&gt;
&lt;p&gt;网址：&lt;a href=&quot;https://huggingface.co/chat/models&quot;&gt;https://huggingface.co/chat/models&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://pbs.twimg.com/media/GLF1YebbgAAZ7UQ?format=jpg&amp;#x26;name=large&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;3数据分析900-个最受欢迎的开源-ai-工具&quot;&gt;3、数据分析：900 个最受欢迎的开源 AI 工具&lt;/h3&gt;
&lt;p&gt;原文：&lt;a href=&quot;https://huyenchip.com/2024/03/14/ai-oss.html&quot;&gt;https://huyenchip.com/2024/03/14/ai-oss.html&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;这篇文章分析了 900 个最受欢迎的开源 AI 工具，重点关注了基于基础模型的栈。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;作者使用关键词 gpt、llm 和 generative ai 在 GitHub 上进行搜索。&lt;/li&gt;
&lt;li&gt;限制搜索结果为至少有 500 星标的仓库，共计找到 845 个软件仓库。&lt;/li&gt;
&lt;li&gt;包括教程和聚合列表在内的 896 个仓库。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;新 AI 技术栈&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;基础设施&lt;/strong&gt;: 包括服务工具（如 vllm、NVIDIA 的 Triton）、计算管理（如 skypilot）、向量搜索和数据库（如 faiss、milvus、qdrant、lancedb）等。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型开发&lt;/strong&gt;: 提供开发模型的工具，包括建模和训练框架（如 transformers、pytorch、DeepSpeed）、推理优化、数据集工程、评估等。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;应用开发&lt;/strong&gt;: 基于现有模型开发应用程序，也称为 AI 工程。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;应用程序&lt;/strong&gt;: 在现有模型基础上构建的开源应用程序，如编码、工作流自动化、信息聚合等。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型仓库&lt;/strong&gt;: 由公司和研究人员创建，用于共享与其模型相关的代码，如 CompVis/stable-diffusion、openai/whisper、facebookresearch/llama。&lt;/li&gt;
&lt;/ul&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;AI 堆栈的演变&lt;/strong&gt;：2023 年见证了新工具的爆炸性增长，特别是在 Stable Diffusion 和 ChatGPT 引入之后。然而，从 2023 年 9 月开始，增长曲线趋于平稳，可能的原因包括：低挂果实已被摘取、生成 AI 领域的竞争加剧以及人们对生成 AI 的兴趣有所降温。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;开源 AI 开发者&lt;/strong&gt;：开源软件遵循长尾分布，少数账户控制着大部分仓库。文章提到，有 20 个账户至少有 4 个仓库，这些账户托管了 195 个仓库，占列表中所有仓库的 23%。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;中国的开源生态系统&lt;/strong&gt;：中国的 AI 生态系统与美国有所不同，GitHub 在中国的流行 AI 仓库中占有一席之地，许多仓库的描述是用中文写的。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;快速增长和快速衰退的模式&lt;/strong&gt;：作者观察到一种模式，即许多仓库迅速获得大量关注，然后迅速沉寂。这种现象被称为“炒作曲线”。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&quot;4李彦宏内部讲话曝光开源模型会越来越落后&quot;&gt;4、李彦宏内部讲话曝光：开源模型会越来越落后&lt;/h3&gt;
&lt;p&gt;在内部讲话中，李彦宏对大模型开源与闭源的路线选择，以及 AI 创业者应该专注模型还是应用等业界焦点话题，发表了自己的看法。&lt;/p&gt;
&lt;p&gt;不过李彦宏的观点受到行业内一众大佬和网友的嘲讽，认为李彦宏最近几年的何种判断都严重失误。&lt;/p&gt;
&lt;p&gt;以下是李彦宏的几个核心论断。&lt;/p&gt;
&lt;p&gt;1、闭源模型在能力上会持续地领先，而不是一时地领先。&lt;/p&gt;
&lt;p&gt;2、模型开源也不是一个众人拾柴火焰高的情况，这跟传统的软件开源一比如 Linux、安卓等等很不一样。&lt;/p&gt;
&lt;p&gt;3、闭源是有真正的商业模式的，是能够赚到钱的，能够赚到钱才能聚集算力、聚集人才。&lt;/p&gt;
&lt;p&gt;4、闭源在成本上反而是有优势的，只要是同等能力，闭源模型的推理成本一定是更低的，响应速度一定是更快的。&lt;/p&gt;
&lt;p&gt;5、无论中美，当前最强的基础模型都是闭源的。通过基础模型降维做出来的模型也是更好的，这使得闭源在成本、效率上更有优势。&lt;/p&gt;
&lt;p&gt;6、对于 AI 创业者来说，核心竞争力本就不应该是模型本身，这太耗资源了，而且需要非常长时间的坚持才能跑出来。&lt;/p&gt;
&lt;p&gt;7、既做模型又做应用的“双轮驱动”，对创业公司不是好模式。创业公司的精力和资源都很有限，更应该专注。既做模型又做应用，势必会分散精力。&lt;/p&gt;
&lt;p&gt;全文：&lt;a href=&quot;https://www.pingwest.com/w/294047&quot;&gt;https://www.pingwest.com/w/294047&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/3a5ce0e094e8f11f55584bad560b233f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;5福布斯发布-2024-年人工智能初创企业-50-强&quot;&gt;5、福布斯发布 2024 年人工智能初创企业 50 强&lt;/h3&gt;
&lt;p&gt;斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》&lt;/p&gt;
&lt;p&gt;这份报告全面分析了 2023 年人工智能 (ai) 领域的进展，涵盖了技术进步、经济影响、政策制定和公众舆论等方面。&lt;/p&gt;
&lt;p&gt;干货非常多，以下是报告的要点：&lt;/p&gt;
&lt;p&gt;技术进步：&lt;/p&gt;
&lt;p&gt;1、行业引领前沿 ai 研究：2023 年，行业贡献了 51 个重要的机器学习模型，而学术界仅贡献了 15 个。&lt;/p&gt;
&lt;p&gt;2、基础模型崛起：2023 年发布了 149 个基础模型，是 2022 年的两倍多，其中 65.7% 是开源的。&lt;/p&gt;
&lt;p&gt;3、前沿模型训练成本飙升：例如，openai 的 gpt-4 和 google 的 gemini ultra 的训练成本分别估计为 7800 万美元和 1.91 亿美元。&lt;/p&gt;
&lt;p&gt;4、多模态 ai 兴起：新模型如 google 的 gemini 和 openai 的 gpt-4 能处理图像、文本甚至音频。&lt;/p&gt;
&lt;p&gt;5、新的、更难的基准出现：研究人员开发了更具挑战性的基准来评估 ai 模型在更复杂任务上的能力。&lt;/p&gt;
&lt;p&gt;经济影响：&lt;/p&gt;
&lt;p&gt;1、生成式 ai 投资激增：尽管整体 ai 私人投资下降，但生成式 ai 领域的投资飙升至 252 亿美元。&lt;/p&gt;
&lt;p&gt;2、美国在 ai 私人投资方面领先：2023 年，美国 ai 投资达到 672 亿美元，几乎是中国投资额的 8.7 倍。&lt;/p&gt;
&lt;p&gt;3、ai 职位减少：美国和全球范围内对 ai 相关职位的需求均有所下降。&lt;/p&gt;
&lt;p&gt;4、ai 提高效率：研究表明 ai 提高了员工的工作效率和工作质量。&lt;/p&gt;
&lt;p&gt;5、财富 500 强公司谈论 ai：2023 年，近 80% 的财富 500 强公司在财报电话会议中提到了 ai。&lt;/p&gt;
&lt;p&gt;政策制定：&lt;/p&gt;
&lt;p&gt;1、美国 ai 法规数量大幅增加：2023 年，美国通过了 25 项与 ai 相关的法规，比 2016 年增加了一倍多。&lt;/p&gt;
&lt;p&gt;2、美国和欧盟推进 ai 政策：欧盟就 ai 法案达成协议，美国总统拜登签署了关于 ai 的行政命令。&lt;/p&gt;
&lt;p&gt;3、全球政策制定者关注 ai：2023 年，全球立法程序中对 ai 的提及数量几乎翻了一番。&lt;/p&gt;
&lt;p&gt;公众舆论：&lt;/p&gt;
&lt;p&gt;1、公众对 ai 的影响更加了解，也更加担忧：66% 的受访者认为 ai 将在未来三到五年内极大地影响他们的生活。&lt;/p&gt;
&lt;p&gt;2、西方国家对 ai 的看法有所改善：尽管仍存在担忧，但对 ai 产品和服务的积极态度有所上升。&lt;/p&gt;
&lt;p&gt;3、对 ai 经济影响的悲观看法：只有 37% 的受访者认为 ai 会改善他们的工作。&lt;/p&gt;
&lt;p&gt;4、不同人群对 ai 的乐观程度存在差异：年轻一代对 ai 改善生活的潜力更为乐观。&lt;/p&gt;
&lt;p&gt;5、chatgpt 广为人知：63% 的受访者知道 chatgpt，其中约一半的人每周至少使用一次。&lt;/p&gt;
&lt;p&gt;其他重要发现：&lt;/p&gt;
&lt;p&gt;1、ai 在科学和医学领域取得重大进展：ai 模型被用于加速药物发现、改进天气预报和创建更准确的人类基因组图谱。&lt;/p&gt;
&lt;p&gt;2、负责任 ai 评估缺乏标准化：领先的 ai 开发人员使用不同的基准来评估其模型的责任风险，这使得比较变得困难。&lt;/p&gt;
&lt;p&gt;3、政治深度伪造易于生成且难以检测：这引发了人们对 ai 对选举和政治进程的潜在影响的担忧。&lt;/p&gt;
&lt;p&gt;4、ai 模型的训练会产生大量的碳排放：这引发了人们对 ai 可持续性的担忧。&lt;/p&gt;
&lt;p&gt;完整的评选方法、专题报道和视频：&lt;a href=&quot;http://forbes.com/ai50&quot;&gt;http://forbes.com/ai50&lt;/a&gt;
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/7d71cddcfb4f69196cf0895b67fb2f1e.png&quot; alt=&quot;&quot;&gt;
&lt;strong&gt;福布斯发布 ai 50 榜单 (2023)：最有前途的人工智能公司&lt;/strong&gt;
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/0bf0073a8aa0662d3d9359d81b9bbf88.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;6ollama-v0132重大发布&quot;&gt;6、Ollama v0.1.32！重大发布：&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/f365d92736b632ba0f67ee8491c532e3.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;💥 改进了 GPU 利用率和内存管理，以提高性能并降低错误率&lt;/p&gt;
&lt;p&gt;💻 Mac 上的 Ollama 现在将在 GPU 和 CPU 之间调度更大的模型以提高性能&lt;/p&gt;
&lt;p&gt;❤️ 更多错误修复和改进&lt;/p&gt;
&lt;p&gt;⚡️ Ollama 现在在 @supabase Edge Functions 中提供原生 AI 支持&lt;/p&gt;
&lt;p&gt;📚 支持更多型号：&lt;/p&gt;
&lt;p&gt;🧙‍♂️ WizardLM 2，来自 Microsoft AI 的最先进的大型语言模型，在复杂聊天、多语言、推理和代理用例方面具有改进的性能。&lt;/p&gt;
&lt;p&gt;🚤 在 Mistral 7B 上进行微调的快速、高性能模型推荐 8GB+ 显存）&lt;/p&gt;
&lt;p&gt;🤓 在 Mixtral 8x22B 上微调的大型 8x22B 模型（推荐 96GB+ VRAM）&lt;/p&gt;
&lt;p&gt;👇 👇 👇&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://github.com/ollama/ollama/releases&quot;&gt;https://github.com/ollama/ollama/releases&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/b9c96fa9ccad87a5c15a83982da36278.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;7pytorch-原生库-torchtune-的-alpha-版本发布&quot;&gt;7、PyTorch 原生库 torchtune 的 alpha 版本发布！&lt;/h3&gt;
&lt;p&gt;torchtune 是一个 PyTorch 原生库，用于微调 LLMs。它将可破解的内存高效微调方法与你最喜欢的工具的集成相结合。&lt;/p&gt;
&lt;p&gt;一个用于轻松微调 LLMs 的 PyTorch 原生库！&lt;/p&gt;
&lt;p&gt;代码：&lt;a href=&quot;https://github.com/pytorch/torchtune&quot;&gt;https://github.com/pytorch/torchtune&lt;/a&gt;
博客：&lt;a href=&quot;https://pytorch.org/blog/torchtune-fine-tune-llms/&quot;&gt;https://pytorch.org/blog/torchtune-fine-tune-llms/&lt;/a&gt;
教程：&lt;a href=&quot;https://pytorch.org/torchtune/stable/index.html#tutorials&quot;&gt;https://pytorch.org/torchtune/stable/index.html#tutorials&lt;/a&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;精益、可扩展、无抽象的设计。没有训练器或框架，只有 PyTorch！&lt;/li&gt;
&lt;li&gt;内存效率 - 我们在具有 24GB VRAM 的消费级 GPU 上测试我们的配方&lt;/li&gt;
&lt;li&gt;与 PyTorch 生态系统中的流行库进行互操作&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;torchtune 提供：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LLM 在本机 PyTorch 中的实现&lt;/li&gt;
&lt;li&gt;QLoRA、LoRA 和全面微调的配方&lt;/li&gt;
&lt;li&gt;流行的数据集格式和 YAML 配置&lt;/li&gt;
&lt;li&gt;与 @huggingface Hub、 @AiEleuther Eval Harness、bitsandbyes、ExecuTorch 等集成&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&quot;8reka-core新的闭源多模态模型&quot;&gt;8、Reka Core：新的闭源多模态模型&lt;/h3&gt;
&lt;p&gt;像 Gemini 一样可以直接分析图片、视频、音频，评测得分与 GPT-4 和 Gemini-Ultra 接近。&lt;/p&gt;
&lt;p&gt;在线使用：&lt;a href=&quot;https://chat.reka.ai&quot;&gt;https://chat.reka.ai&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;官方博客：&lt;a href=&quot;https://reka.ai/news/reka-core-our-frontier-class-multimodal-language-model&quot;&gt;https://reka.ai/news/reka-core-our-frontier-class-multimodal-language-model&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;查了公司背景，一共 22 个员工，主要是 DeepMind 和 Google Brain 前成员
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/49b0675711b28ed029c83942b5f5988d.png&quot; alt=&quot;&quot;&gt;
&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/3a9fcfc91eb713750c9affd1cb1a12b7.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;9刘强东的数字人&quot;&gt;9、刘强东的数字人&lt;/h3&gt;
&lt;p&gt;4 月 16 日下午 6 时 18 分，由京东云言犀打造的“采销东哥”AI 数字人开启直播首秀，同时亮相京东家电家居、京东超市采销直播间。不到 1 小时，直播间观看量超 2000 万。&lt;/p&gt;
&lt;p&gt;尽管是数字人，但“采销东哥”的语言贴近生活，言行之间还带有一些刘强东的标志性动作，人物形象生动、性格鲜明。&lt;/p&gt;
&lt;p&gt;他谈笑自若，聊自己在运动、烹饪方面的心得，还对直播带货的大屏电视、一日三餐的健康搭配滔滔不绝。在数字人模仿抽奖互动场景，“采销东哥”时不时看下手机屏幕说：“看到你的留言了，回复了。”&lt;/p&gt;
&lt;p&gt;据了解，言犀语音大模型在训练时，被“喂”入 5 万小时海量鲜活的语音数据，这让言犀数字人可以智能匹配不同直播风格，比如用沉稳的音色营造专业的氛围，又或者用极具感染力的声音吸引用户下单，还赋予姿态肢体表现。实验表明，绝大部分用户在 120 秒内难以察觉这是数字人。&lt;/p&gt;
&lt;p&gt;起初“喂”给大模型的演讲素材，虽然充满激情、爆发力强，但过于正式。为此，他们用最新录制的闲谈作为主要素材，其中有刘强东本人的旅行经历，再提取 5 分钟演讲的韵律特征灌给大模型，通过不断优化，最终才塑造出“采销东哥”AI 数字人十分接近本人的声音。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/bff1c167ebb387148ca4f7f7ff1a57d0.jpeg&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/a1d23f6d21faa311abe01b3d24f2c91f.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;</description><pubDate>Sat, 20 Apr 2024 00:00:00 GMT</pubDate></item><item><title>第16期 - ChatGPT重回第一</title><link>https://weekly.zhanglearning.com/posts/16-ChatGPT%E9%87%8D%E5%9B%9E%E7%AC%AC%E4%B8%80/</link><guid>https://weekly.zhanglearning.com/posts/16-ChatGPT%E9%87%8D%E5%9B%9E%E7%AC%AC%E4%B8%80/</guid><description>&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/d9e63703ab46f1a87d65b143352d68fa.png&quot; width=&quot;800&quot;&gt;  
&lt;p&gt;&lt;small&gt;4 月 10 日，OpenAI 宣布经过重大改进的 GPT-4 Turbo 模型现已在 API 中可用，并在 ChatGPT 中推出&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h3 id=&quot;1openai-推出-gpt-4-turbo&quot;&gt;1、OpenAI 推出 GPT-4 Turbo&lt;/h3&gt;
&lt;p&gt;4 月 10 日，OpenAI 宣布经过重大改进的 GPT-4 Turbo 模型现已在 API 中可用，并在 ChatGPT 中推出。&lt;/p&gt;
&lt;p&gt;最新版本为“gpt-4-turbo-2024-04-09”，自带读图能力，无需使用 4v 接口，具有 128k 上下文。&lt;/p&gt;
&lt;p&gt;训练数据截止至 2023 年 11 月，提高了写作、数学、逻辑推理和编码的能力。&lt;/p&gt;
&lt;p&gt;大模型匿名竞技场 Chatbot Arena 是 LM-SYS 推出的一个大模型匿名投票的评测系统。大家提问问题之后，系统返回匿名模型结果，用户投票得分。在此前，Claude3-Opus 一度超过了 GPT-4 成为全球最高得分的模型。&lt;/p&gt;
&lt;p&gt;而在 GPT-4-Turbo-2024-04-09 发布 2 天后，已经有 8932 个投票，投 票结果显示，GPT-4-Turbo-2024-04-09 得分超过 Claude-3-Opus，重回第一！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/f08536db95f823d3b2dd4837c14add46.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;2openai-推出-simple-evals&quot;&gt;2、OpenAI 推出 simple-evals&lt;/h3&gt;
&lt;p&gt;OpenAI 推出了一个名为 simple-evals 的项目，旨在为对 Transformer 模型基础 AI 技术的评估和测试提供简单方便的工具。&lt;/p&gt;
&lt;p&gt;simple-evals 提供了多个任务，包括序列到序列任务、文本分类任务和问答任务，支持多种数据集。&lt;/p&gt;
&lt;p&gt;项目还提供了简单易用的 API 接口和命令行界面，用户可以通过定制任务和数据集来评估 AI 模型的性能。&lt;/p&gt;
&lt;p&gt;地址：&lt;a href=&quot;https://github.com/openai/simple-evals&quot;&gt;https://github.com/openai/simple-evals&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;3谷歌重磅发布-gemini-15-pro能自动写影评理解视频&quot;&gt;3、谷歌重磅发布 Gemini 1.5 Pro：能自动写影评，理解视频！&lt;/h3&gt;
&lt;p&gt;4 月 10 日凌晨，谷歌在官网正式发布了 Gemini 1.5 Pro，现在可在 180 多个国家/地区使用。&lt;/p&gt;
&lt;p&gt;除了能生成创意文本、代码之外，Gemini 1.5 Pro 最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结，并且支持 100 万 tokens 上下文。&lt;/p&gt;
&lt;p&gt;目前，可以在 Google AI Studio 开发平台中免费试用 Gemini 1.5 Pro，支持中文进行提示。&lt;/p&gt;
&lt;p&gt;应用潜力包括：&lt;/p&gt;
&lt;p&gt;1.多模态理解：Gemini 1.5 Pro 能够综合视频中的视觉信息和音频信息，进行更全面的内容理解。例如，它可以通过分析视频帧中的场景和物体，同时听取视频中的对话或声音，来更准确地识别和解释视频内容。&lt;/p&gt;
&lt;p&gt;2.内容索引和搜索：通过对视频图像和音频的深入理解，Gemini 1.5 Pro 可以帮助创建更详细的内容索引，使用户能够基于视频内容的视觉和听觉信息进行搜索。&lt;/p&gt;
&lt;p&gt;3.增强的交互体验：利用对视频的综合理解，可以开发更丰富的交互式应用，比如自动生成视频摘要、基于内容的推荐系统，或者创建互动式学习和娱乐体验。&lt;/p&gt;
&lt;p&gt;4.视频内容分析：Gemini 1.5 Pro 可以用于视频监控、内容审查、情感分析等场景，通过同时理解视频和音频内容，AI 可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。&lt;/p&gt;
&lt;p&gt;5.创意内容生成：对视频图像和音频的综合理解也使得 Gemini 1.5 Pro 能够在内容创作领域发挥作用，如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/1a207982a256a28f7c79e160cdc812d5.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;4mixtral-8x22b-开源可在-perplexity-labs-使用&quot;&gt;4、Mixtral-8X22B 开源，可在 Perplexity Labs 使用&lt;/h3&gt;
&lt;p&gt;4 月 11 日，就在谷歌 Cloud Next 大会当天，“欧洲版 OpenAI”Mistral AI 又一次悄然秀肌肉，甩出全新 MoE（专家混合）大模型 Mixtral 8x22B 磁力链接，模型参数规模高达 1760 亿，仅次于马斯克的 Grok-1，成为市面上参数规模第二大的开源模型。&lt;/p&gt;
&lt;p&gt;模型： &lt;a href=&quot;https://t.co/W7BdmI57LD&quot;&gt;https://dagshub.com/MistralAI/Mixtral-8x22B-v0.1…&lt;/a&gt;
页面： &lt;a href=&quot;https://t.co/7OCqZPIuEe&quot;&gt;https://mistral.ai&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/6ba3f1cfd181e462bba316cbb24dd364.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;Mixtral-8X22B 已经可以在 Perplexity Labs 使用速度很快，想要体验的可以试试。&lt;a href=&quot;https://t.co/SO6wj6MbC1&quot;&gt;http://labs.pplx.ai&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/51f4879745daacaede97e910d5bbff22.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;5马斯克推出-grok-15v-多模态模型&quot;&gt;5、马斯克推出 Grok-1.5V 多模态模型&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Grok-1.5V&lt;/strong&gt; 是一款初代多模态模型，除了强大的文本处理能力外，还能处理各种视觉信息，如文档、图表、截图和照片。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;该模型即将对早期测试者和现有 Grok 用户开放。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Grok-1.5V 在多个领域与现有的前沿多模态模型竞争，包括跨学科推理、理解文档、科学图表、截图和照片。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/ef90db2c537a856b18d6ae540ba12bd7.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;特别值得关注的是 Grok 在理解物理世界方面的能力，它在新的 RealWorldQA 基准测试中表现优异，该测试衡量的是现实世界的空间理解能力。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/f619ef20f3114c26ba182009966d7e95.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/77e82ad8a49c0fdb2cfa9fb4aed8c072.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;6微软发布-9-种-ai-语音&quot;&gt;6、微软发布 9 种 AI 语音&lt;/h3&gt;
&lt;p&gt;微软对 Azure AI 语音服务升级 发布 9 种更真实的 AI 语音&lt;/p&gt;
&lt;p&gt;对中文支持已经很完美了，无论是在语气停顿还是笑声等细节上，都已经非常接近真人了。&lt;/p&gt;
&lt;p&gt;并且 Azure Speech Studio 可以免费使用，相比于其他收费的 tts 工具，相当良心。&lt;/p&gt;
&lt;p&gt;使用地址：&lt;a href=&quot;https://speech.microsoft.com/&quot;&gt;https://speech.microsoft.com/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/af2ca5cd5792a7e128eb09171c8353be.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;7使用-langchainopenbb-和-claude-3-opus-构建股票分析工具&quot;&gt;7、使用 Langchain、OpenBB 和 Claude 3 Opus 构建股票分析工具&lt;/h3&gt;
&lt;p&gt;一篇很棒的文章涉及：&lt;/p&gt;
&lt;p&gt;🔧 自定义工具创建
🦜 使用 LangServe 进行部署
😍 提示策略&lt;/p&gt;
&lt;p&gt;完整的 OSS 代码！&lt;a href=&quot;https://sethhobson.com/2024/03/building-an-agentic-stock-analysis-tool-with-langchain-openbb-and-claude-3-opus/&quot;&gt;https://sethhobson.com/2024/03/building-an-agentic-stock-analysis-tool-with-langchain-openbb-and-claude-3-opus/&lt;/a&gt;&lt;/p&gt;
&lt;pre class=&quot;astro-code github-dark&quot; style=&quot;background-color:#24292e;color:#e1e4e8; overflow-x: auto;&quot; tabindex=&quot;0&quot;&gt;&lt;code&gt;&lt;span class=&quot;line&quot;&gt;&lt;span&gt;HUMAN_TEMPLATE = &quot;&quot;&quot;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;You are an AI financial advisor with advanced knowledge of strategies for trading and investing.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;You are enhanced with the capability to request and analyze technical and fundamental data of stocks. &lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;When users inquire about a stock&apos;s performance or history, you can offer insights into the stock&apos;s performance, &lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;trends, quantitative statistics, volatility, and market behavior.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;You have access to the following tools:&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;{tools}&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;When accessing your tools, you may only use each tool once per user query. This is very important.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;In order to use a tool, you can use &amp;#x3C;tool&gt;&amp;#x3C;/tool&gt; and &amp;#x3C;tool_input&gt;&amp;#x3C;/tool_input&gt; tags. You will then get back a response in the form &amp;#x3C;observation&gt;&amp;#x3C;/observation&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;For example, if you have a tool called &apos;search&apos; that could run a google search, in order to search for the weather in SF you would respond:&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&amp;#x3C;tool&gt;search&amp;#x3C;/tool&gt;&amp;#x3C;tool_input&gt;weather in SF&amp;#x3C;/tool_input&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&amp;#x3C;observation&gt;64 degrees&amp;#x3C;/observation&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;When you are done, respond with a final answer between &amp;#x3C;final_answer&gt;&amp;#x3C;/final_answer&gt;. For example:&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&amp;#x3C;final_answer&gt;The weather in SF is 64 degrees&amp;#x3C;/final_answer&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;Rules for bullish setups:&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;1. Stock&apos;s last price is greater than its 20 SMA.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;2. Stock&apos;s last price is greater than its 50 SMA.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;3. Stock&apos;s last price is greater than its 200 SMA.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;4. Stock&apos;s 50 SMA is greater than its 200 SMA.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;Before processing the query, I will preprocess it as follows:&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;1. Correct any spelling errors using a spell checker or fuzzy matching technique.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;2. If the stock symbol or company name is a partial match, find the closest matching stock symbol or company name.&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;Begin!&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;Previous Conversation:&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;{chat_history}&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;Question: {input}&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;{agent_scratchpad}&quot;&quot;&quot;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;prompt = ChatPromptTemplate.from_template(HUMAN_TEMPLATE)&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;翻译成中文就是&lt;/p&gt;
&lt;pre class=&quot;astro-code github-dark&quot; style=&quot;background-color:#24292e;color:#e1e4e8; overflow-x: auto;&quot; tabindex=&quot;0&quot;&gt;&lt;code&gt;&lt;span class=&quot;line&quot;&gt;&lt;span&gt;你是一位具有交易和投资策略高级知识的AI财务顾问。你具有请求和分析股票技术和基本面数据的能力。当用户询问有关股票表现或历史时，你可以提供股票表现、趋势、定量统计数据、波动性和市场行为的见解。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;你可以使用以下工具：&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;{tools}&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;访问你的工具时，每个用户查询只能使用每个工具一次。这非常重要。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;要使用工具，你可以使用&amp;#x3C;tool&gt;&amp;#x3C;/tool&gt;和&amp;#x3C;tool_input&gt;&amp;#x3C;/tool_input&gt;标签。然后你将以&amp;#x3C;observation&gt;&amp;#x3C;/observation&gt;的形式得到回应。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;例如，如果你有一个名为&apos;search&apos;的工具，可以运行谷歌搜索，为了搜索旧金山的天气，你会回应：&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&amp;#x3C;tool&gt;search&amp;#x3C;/tool&gt;&amp;#x3C;tool_input&gt;旧金山的天气&amp;#x3C;/tool_input&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&amp;#x3C;observation&gt;64度&amp;#x3C;/observation&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;完成后，用&amp;#x3C;final_answer&gt;&amp;#x3C;/final_answer&gt;之间的最终答案响应。例如：&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&amp;#x3C;final_answer&gt;旧金山的天气是64度&amp;#x3C;/final_answer&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;看涨设置的规则：&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;1. 股票的最后价格大于其20日简单移动平均(SMA)。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;2. 股票的最后价格大于其50日SMA。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;3. 股票的最后价格大于其200日SMA。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;4. 股票的50日SMA大于其200日SMA。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;在处理查询之前，我将如下预处理它：&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;1. 使用拼写检查器或模糊匹配技术更正任何拼写错误。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;2. 如果股票符号或公司名称部分匹配，找到最接近匹配的股票符号或公司名称。&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;span class=&quot;line&quot;&gt;&lt;span&gt;开始！&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;
&lt;h3 id=&quot;8向量距离计算的不同实现&quot;&gt;8、向量距离计算的不同实现&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/b43a60a06adf71ac515e7b2256f4e954.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;向量数据库利用机器学习衍生的向量来捕获数据中语义的细微差别。&lt;/p&gt;
&lt;p&gt;这些数字表示可以实现各种任务操作，例如比较图像相似性和进行文本语义搜索。&lt;/p&gt;
&lt;p&gt;Weaviate 可以有效地处理搜索，结合多种措施来确定向量之间的距离。&lt;/p&gt;
&lt;p&gt;查看此博客文章，深入了解向量距离计算的不同实现：&lt;a href=&quot;https://weaviate.io/blog/intel&quot;&gt;https://weaviate.io/blog/intel&lt;/a&gt;&lt;/p&gt;
&lt;h3 id=&quot;9kimi-copilot---网页总结助手&quot;&gt;9、Kimi Copilot - 网页总结助手&lt;/h3&gt;
&lt;p&gt;推荐一个插件：用 Kimi AI 一键总结网页内容&lt;/p&gt;
&lt;p&gt;安装后，在浏览网络文章时点击插件图标，或使用快捷键 Ctrl/Cmd+Shift+K，即可一键召唤Kimi.ai总结网页内容&lt;/p&gt;
&lt;p&gt;特点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;极简，除了一键总结没有其它花里胡哨的功能&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Kimi 无法访问的网页也能被总结了&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;英文文章直接用中文总结要点&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;支持暗黑模式&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;支持自定义总结时使用的 prompt&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;安装地址：&lt;a href=&quot;https://t.co/2n3iWs387c&quot;&gt;https://chromewebstore.google.com/detail/icmdpfpmbfijfllafmfogmdabhijlehn&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/364764d44282efdc84158a39e997d3f9.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;10马云阿里内部发声风清扬再现江湖&quot;&gt;10、马云阿里内部发声！风清扬再现江湖&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/d0d2a6d645bd651d73015583a945c736.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;11深入理解git-内部&quot;&gt;11、深入理解.git 内部&lt;/h3&gt;
&lt;p&gt;&lt;img src=&quot;https://r2blog.zhanglearning.com/2024/04/a6c5cf771609bacb177d49cd2157dc28.jpeg&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;h3 id=&quot;12morphic-人人都能自建的问答式-ai-搜索&quot;&gt;12、Morphic 人人都能自建的问答式 AI 搜索&lt;/h3&gt;
&lt;p&gt;Morphic 使用 OpenAI 的 API 和@tavilyai 的搜索服务，就能够提供类似 Perplexity 的问答式搜索体验。&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a href=&quot;https://github.com/miurla/morphic&quot;&gt;https://github.com/miurla/morphic&lt;/a&gt;
直接体验：&lt;a href=&quot;https://www.morphic.sh/&quot;&gt;https://www.morphic.sh/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://r2.zhanglearning.com/blog/2024/04/89b1474421e074ea8143cba869cb1fb8.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://my-wechat.oss-cn-beijing.aliyuncs.com/WX20230912-203916-20231216224408112-20231216224501243.png&quot; alt=&quot;&quot;&gt;&lt;/p&gt;</description><pubDate>Sun, 14 Apr 2024 00:00:00 GMT</pubDate></item></channel></rss>