机器学习周刊

第23期 - 直播卖货的大模型

Sun, 30 Jun 2024 00:00:00 GMT

谷歌这个项目可根据提示词创造各种字母形式，然后用它来书写各种内容

[TOC]

大模型

Claude 3.5 Sonnet

Anthropic 发布 3.5 系列首个模型：Claude 3.5 Sonnet，这也是 Anthropic 目前最强大模型！

朋友们用起来😎（最近风好严重，老章也惨遭封号😂）：https://claude.ai

Google 新发布的 Gemma 2！9B & 27B 的底座！

Google 发布其开源模型 Gemma 2

全新的架构设计性能大幅提升
Gemma 2 拥有 9B 和 27B 参数规模，相比第一代模型在推理效率和安全性上有显著提升。
27B 的 Gemma 2 在同等规模模型中表现最佳，甚至可与体积两倍的模型竞争。
优化在各种硬件上高速运行，从高端桌面、游戏笔记本和云端设置上都能实现高效运行。

模型： http://huggingface.co/google
报告： https://ai.google.dev/gemma
试玩：https://huggingface.co/spaces/huggingface-projects/gemma-2-9b-it

苹果和 EPFL 联合开源的多模态模型训练框架：4M

苹果和 EPFL 联合开源的多模态模型训练框架，业界良心，含金量巨高！支持数十种模态和任务，读图能力支持表面法线、深度图、图片分割、物体检测、图片描述。画图能力支持线框补图、画深度图和表面法线、基于深度图和区域修改图片。支持微调来适配新类型的任务

项目地址：https://4m.epfl.ch 在线体验：https://huggingface.co/spaces/EPFL-VILAB/4M Github：https://github.com/apple/ml-4m 论文：https://arxiv.org/abs/2406.09406

OpenAI 开发了一个名为 CriticGPT 的模型

CriticGPT，一种基于 GPT-4 训练优化的模型，专门用于来发现 ChatGPT 中的代码错误。

通过与人类合作 CriticGPT 能够显著减少模型幻觉，同时保持高效的错误检测能力。

当前的 LLM 模型如 ChatGPT 等，在生成复杂代码时，即使是经验丰富的专家也难以可靠地评估其输出的质量和正确性。CriticGPT 通过训练模型生成自然语言评论，帮助人类更准确地评估代码，从而弥补了人类评估的局限性。

研究发现，在 CriticGPT 的帮助下，人们审查 ChatGPT 代码的表现比没有帮助时高出 60%。

B 站 BiliBili 开源了 Index-1.9B 模型

Index-1.9B 系列是 Index 系列模型中的轻量版本

1.9B 包含： Index-1.9B base : 基座模型，具有 19 亿非词嵌入参数量，在 2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先
Index-1.9B pure : 基座模型的对照组，与 base 具有相同的参数和训练策略，不同之处在于严格过滤了该版本语料中所有指令相关的数据，以此来验证指令对 benchmark 的影响
Index-1.9B chat : 基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型，由于预训练中引入了较多互联网社区语料，聊天的趣味性明显更强
Index-1.9B character : 在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 角色扮演定制

模型： github: https://github.com/bilibili/Index-1.9B?tab=readme-ov-file
Index-1.9B-Chat: https://huggingface.co/IndexTeam/Index-1.9B-Chat
IndexTeam/Index-1.9B-Character: https://huggingface.co/IndexTeam/Index-1.9B-Character
IndexTeam/Index-1.9B: https://huggingface.co/IndexTeam/Index-1.9B
IndexTeam/Index-1.9B-Pure: https://huggingface.co/IndexTeam/Index-1.9B-Pure

Qwen2 接上 SD3 Medium 文生图

支持中文输入，会自动优化并输出英文提示词

工作流：https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

Qwen2 插件：https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2

DeepSeek-Coder-V2：代码和数学能力超越 GPT-4 的开源模型

DeepSeek-Coder-V2：首个开源模型在编码和数学方面超越 GPT4-Turbo

在编码和数学方面表现出色，超越 GPT4-Turbo、Claude3-Opus、Gemini-1.5Pro、Codestral。支持 338 种编程语言，上下文长度为 128K。全面开源，提供两种尺寸：230B（也提供 API 访问）和 16B。

输出性能达 5000-10000 token/s，百万输出 Token 2 元，对标 Mistral 的代码模型 Codestral，DeepSeek 开源具备顶尖代码和数学推理能力的 DeepSeek Coder V2

开放论文，模型和代码，支持 236B 和 16B，支持微调并开放 API 服务

项目地址：https://github.com/deepseek-ai/DeepSeek-Coder-V2

Google 的 Video-to-Audio 技术

视频生成模型正在以惊人的速度发展，但许多当前系统只能生成无声输出。让生成的电影栩栩如生的下一个重要步骤之一是为这些无声视频创建配乐。

谷歌分享了视频转音频 (V2A) 技术的进展，该技术使同步视听生成成为可能。V2A 将视频像素与自然语言文本提示相结合，为屏幕上的动作生成丰富的音景。

详情：https://deepmind.google/discover/blog/generating-audio-for-video/

由 Google Imagen 2 模型驱动的字母表生成器

谷歌这个项目可根据提示词创造各种字母形式，然后用它来书写各种内容非常适合制作标题或封面艺术！

传送门 : https://labs.google/gentype

我也生成了一个：章北海

水果主题

海洋主题

微软开源的一个文本编码器 Glyph-ByT5-v2。

支持使用十多种语言生成图片。

还搭配了一个使用这个文本编码器的 SDXL 模型，可以直接生成中文海报和内容。

从演示来看排版都挺好的。

创建了一个高质量的多语言字形文本和图形设计数据集，包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对，覆盖另外九种语言；
构建了一个多语言视觉段落基准数据集，包括 1000 个提示，每种语言 100 个，用于评估多语言视觉拼写准确性；
采用最新的步进感知偏好学习方法，提高了视觉美学质量。

模型下载：https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

可以在这个 huggingface 空间里面体验，支持通过画框进行自定义排版。

https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2

Streamer-Sales：一个直播卖货大模型

能自动卖货同时实时回答客户任何问题😂

它能根据商品特点自动生成吸引用户的解说文案，支持将语音输入转换为文字，便于主播在直播过程中与观众互动。

同时还能生成带有情感的语音输出，使解说更加生动自然。还能一键生成数字人。

甚至支持 Agent 通过网络查询快递信息。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在线体验:https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

蚂蚁开源首个 GraphRAG 框架！

构建生产级别的 AI Native Agent 应用！支持图可视化和详细示例代码！

继承 DB-GPT 的知识图谱、向量库、图数据库等基础能力实现
数据处理：提供三元组抽取、Cypher 插入、TuGraph 存储
数据查询与生成：查询关键词抽取，图相似度匹配

项目地址：https://github.com/eosphoros-ai/DB-GPT

RAG2SQL 开源工具

8K Stars！Text2SQL 还不够？试试更精准的 RAG2SQL 开源工具

官网：https://vanna.ai
Github: https://github.com/vanna-ai/vanna

LlamaIndex 数据处理、RAG、Agentic RAG PPT 和代码

LlamaIndex 团队在 @databricks 举办的 @Data_AI_Summit 数据 AI 峰会上分享了如何构建能够处理复杂文档的高级 RAG 应用💥⚡️，几乎涵盖了目前数据处理、RAG、Agentic RAG 等顶级前沿的理念并开放了 PPT 和代码！👍

PPT: https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/edit?usp=sharing

OmniParse：支持多模态的数据结构化的平台

输入文档、表格、视频、音频、网页等数据，OmniParse 可以把数据清洗成结构化的数据，然后可以用于微调和 RAG。

Github：https://github.com/adithya-s-k/omniparse

Pipecat：一个可用于构建语音和多模态对话的 AI 开源框架

你可以用它来创建私人教练、会议助手、儿童故事讲述玩具、客服机器人等 AI 语音助手。

GitHub：https://github.com/pipecat-ai/pipecat

工具库

ChatTTS 稳定音色/区分男女

基于 ChatTTS 的 2000 条音色库稳定性打分🥇 区分男女年龄👧 支持在线试听🎶

https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker/summary

ChatTTS 资源大全

包括音色，赚钱方法，各种 WebUI 和 API 等。 https://github.com/panyanyany/Awesome-ChatTTS

一个开源的图片去水印解决方案：Watermark-Removal。

项目基于机器学习的图像修复方法，自动去除图片水印。经处理后的图片，与原图几乎一致。

GitHub: https://github.com/zuruoke/watermark-removal

一个开源的图片去水印解决方案：Watermark-Removal。

项目基于机器学习的图像修复方法，自动去除图片水印。经处理后的图片，与原图几乎一致。GitHub：https://github.com/zuruoke/watermark-removal

Google 字体，1644 个字体提供下载

👉 https://fonts.google.com

https://cult-ui.com 一些开箱即用的好看的组件，动画都给写好了 😃

ColorfulX

ColorfulX 是一个使用 Metal 实现的工具，用于创建多色渐变。 https://github.com/Lakr233/ColorfulX

非常优雅的 Mac 屏幕窗口管理软件—— Loop

Loop 是一款 macOS 应用程序，可帮助您简化窗口管理！您可以使用通过简单按键触发的径向菜单轻松选择窗口方向，并根据您的喜好使用个性化的颜色和设置进行自定义。只需单击几下，您就可以轻松移动窗口、调整窗口大小和排列窗口，从而节省您宝贵的时间和精力。

brew install mrkai77/cask/loop 即可安装

浅浅的试了一下，按下一个键，之后根据鼠标的方向去放置窗口的逻辑非常优雅

默认的修饰键是左下角的🌐键，用外接键盘可能就得修改了

如果有学习 SwiftUI 开发的朋友，感觉 Loop 这个软件的代码可能是个不错的学习资源：https://github.com/MrKai77/Loop

和 GPT 4o 匹敌世界上最快的语音机器

能实现 500 毫秒的语音到语音响应接近人类对话的自然速度

为达到这种低延迟，开发团队优化了网络架构、AI 模型性能和语音处理逻辑。

使用 WebRTC 网络发送音频，部署了 Deepgram 的快速转录和语音生成模型，并将所有 AI 模型在 Cerebrium 的容器中自托管，以减少延迟。

在线体验：https://fastvoiceagent.cerebrium.ai

知识库

Generative AI Handbook：一本人工智能学习手册

手册分为九个主要部分，每个部分包含若干章节，覆盖了 AI 的不同方面。

包含了从基础知识到最新技术的全面内容，通过系统化的学习路径，帮助读者理解和应用 AI 技术。

无论你是想要学习如何使用现有的 AI 工具，还是希望深入研究 AI 的原理，这本手册都能提供有价值的指导。

传送门：https://genai-handbook.github.io

解码 RAG：智谱 RAG 技术的探索与实践

智谱 AI 长期致力于大模型技术的研究，近期将重点应用于企业服务场景。RAG 技术由三个步骤组成：索引（Indexing）、检索（Retrieval）和生成（Generation），旨在解决模型幻觉和知识更新不及时的问题。相比传统 FAQ 或搜索方法，RAG 能显著降低实施成本，并提供答案的具体来源追溯。智谱 AI 组建了专业团队，致力于打造企业服务场景的 RAG 系统，提供全面支持与服务。

文章详细介绍了 RAG 的技术和产品方案，包括文件上传的工程策略、知识运营和管理工具的提供，以及在知识问答过程中增强用户信任的功能。在智能客服实践中，RAG 技术解决了传统技术面临的知识整理成本高、复用性差、更新频繁、知识晦涩难懂等问题，并提高了用户体验。智谱 AI 通过“ChatGLM 大模型 + RAG”方案，提升了召回率和答案生成的质量，通过分阶段微调和 DPO（Decision-making Preference Optimization）技术，将正确率提升到 90% 以上。

最后，文章强调了评测在模型训练中的重要性，并提出了评测数据集构建的原则。展望未来，RAG 技术将在更多领域得到应用，并与其它 AI 技术相结合。

文章链接：https://bestblogs.dev/article/b202f2

生成式 AI 因 Transformer 而存在

一篇“旧”文，可称为对生成式 AI 工作原理讲解最生动、最容易理解的文章，没有之一。

https://ig.ft.com/generative-ai/

全栈 DS / DA 数据分析岗位养成手册

来自一名哥大数据科学的学生 Jace 整理的，很适合数据分析科学入门学习使用，结合了不少国内的案例来分析学习。 🤖 https://jace-yang.github.io/Full-Stack_Data-Analyst/intro.html

开源免费编程书籍 📚

起源于 Stackoverflow 的一个 QA，后开发者迁移至 Github，现在由 Free Ebook Foundation 管理维护。

提供以下免费学习资源：

电子书
快捷参考表
免费在线课程
互动编程资源
问题集和编程竞赛
播客录制视频
编程实战体验

不同学习资源提供中英文等多种语言选项，不过体验看英文资源是最丰富的，中文相对少一些，建议大家直接学习英文资源。

Github repo: https://github.com/EbookFoundation/free-programming-books

git cheat sheet

Nginx 完全指南 (第三版)

O’Reilly 出品的《Nginx 完全指南 (第三版)》PDF 格式

https://disk.locklauncher.com/files/6670ef27e985f/NGINX-Cookbook-V3.pdf

《李宏毅深度学习教程》LeeDL-Tutorial 130MB

PDF 下载地址：https://github.com/datawhalechina/leedl-tutorial/releases

美国本科数学开源教材：微积分，线代，统计

https://openstax.org/subjects/math

ChatGPT 提示备忘单 V2

SaaS 的 10 种商业模式（变现方式）

Limited features to paid users: 付费后解锁更多高级功能，例如 Ghost、Whimsical、Notion 都属于此类。
Subscription-based membership: 订阅制，订阅后可以使用所有功能，这里的订阅制跟第 1 条的付费模式不同，更像是 Adobe 系列软件的模式，没有免费版，只有一定时间的 trial。
Pay per feature: 一个功能点付一次钱，偏游戏类产品用得比较多，比如玩家付费解锁特殊角色。
Ads：联盟广告，例如 Google AdSense 或原生广告，博客里也可以用这种方式。
Sponsorships：常见于开源项目，当一个项目有很多人使用时，GitHub 上的 Star、Fork 数很高，可以主动开通赞助，把赞助方的 Logo 放到页面上。
Patronage：打赏获得福利，例如 Patreon 上的项目。
Community model: 让用户对社区产生粘性因此付费，例如 Pieter Levels 的 Nomad List 以及付费社群。
Job boards: 与 2B 公司合作，帮助刊登工作广告，做代招聘服务。
Productizing an agency into SaaS: 帮助其他人做 SaaS 服务时延伸出来的小项目，最终变成主打产品。例如 Typeform 原先是创始人 David Okuniev 为了某家马桶公司展览需要而建立的表单工具。
Conditional Payments：这种变现方式非常特别，例如 Pieter Levels 的“Go fucking do it”网站，你可以对一个任务设置罚款金额与截止期限，如果你没在截止期限完成任务的话，会被收取罚款金额给网站提供方 Pieter Levels。

轻阅读

优秀的人都有一个共同特质：靠谱。靠谱的人，做事让人放心。做事有结果，凡事有交代，件件有着落，事事有回音。这是职场人优秀的品质，一个靠谱的人会收获更多的信赖，如果再加上你会来事、情商高，在职场的道路会一帆风顺。

“有的信息一天之后就是垃圾，有的信息一周之后就是垃圾，有的信息一年之后就是垃圾，只有少数信息是你一辈子都能用上的。年轻时把时间花在获取哪类信息上，对人生道路会有直接影响。”

可视化方式，从 0 到 1 掌握傅立叶

从回顾与圆相关的数学概念开始，包括正弦和余弦等三角函数。我们还将讨论欧拉恒等式，介绍正弦波（以及复正弦波）的概念，最后，我们将介绍傅里叶级数的概念。

使用 Vectorize 在 160 行代码内构建一个超乎寻常的搜索引擎

以 Python 语言讲解无所不在的神经网络基础知识，关键概念的解释和示例程序都保持在非常基础的本科，甚至“高中”水平：

27 岁老前端 Run 到袋鼠🦘国的第 206 天，他的分享太实用了！

电子发票提取 Excel

第22期 - 国产大模型再开源

Fri, 07 Jun 2024 00:00:00 GMT

李彦宏内部讲话：开源大模型不如闭源，后者会持续领先

大模型

GLM-4 开源：超越 Llama3

GLM-4-9B 开源模型综合能力相比 ChatGLM3-6B 提升 40% ，全面超过 Llama-3-8B-Instruct，中文学科能力提升 50%，最高支持达 1 百万 tokens 长文本，支持多达 26 种语言，函数调用（Function Call）能力媲美 GPT-4-Turbo。首次开源基于 GLM 基座的视觉模型 GLM-4V-9B，多模态能力比肩 GPT-4V。

模型下载：

Model	Type	Seq Length	Download	Online Demo
GLM-4-9B	Base	8K	🤗 Huggingface 🤖 ModelScope	/
GLM-4-9B-Chat	Chat	128K	🤗 Huggingface 🤖 ModelScope	🤖 ModelScope CPU 🤖 ModelScope vLLM
GLM-4-9B-Chat-1M	Chat	1M	🤗 Huggingface 🤖 ModelScope	/
GLM-4V-9B	Chat	8K	🤗 Huggingface 🤖 ModelScope	/

阿里巴巴 Qwen2 开源

⭐ 5 种尺寸的基础和指导型号，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

📝 除英语和中文外，还接受过 27 种其他语言的数据培训。

🌟 在大量基准评估中表现 SOTA。编码和数学方面的表现显着提高。

🌠 Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 的扩展上下文长度支持高达 128K 令牌。

🤗 DEMO: https://hf.co/spaces/Qwen/Qwen2-72B-Instruct 🤖 CODE: https://github.com/QwenLM/Qwen2

快手发布了可灵视频生成模型

可灵视频生成模型支持生成最长两分钟 30FPS 1080P 的视频。

生成质量是现在普通用户能接触到的天花板，5 秒视频这个等级完全超越了谷歌 Voe 视频模型。

运动幅度、不同比例、一致性、物理特性都是除了 Sora 之外现在看到最好的。

体验方法：快影 APP-AI 玩法-AI 视频生成中申请。

字节跳动开发 TTS 模型王炸级产品

Seed-TTS：由字节跳动开发的几乎完美接近人类的文本到语音（TTS）模型

该模型能够生成高质量、几乎无法与人类声音无法区分的语音。

无需训练的情况下，只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音。

完全能否胜任读小说、配音等任务

Seed-TTS 还提供了对各种语音属性的高级控制能力，包括但不限于情感、语调、说话风格等。

还可以通过编辑文本来编辑生成的语音。

工具库

基于 Cloudflare 全家桶的博客方案

⚡️Rin 一个基于 Cloudflare Pages + Workers + D1 + R2 全家桶的博客，无需服务器无需备案，只需要一个解析到 Cloudflare 的域名即可部署。

缺点是非静态，不利于搜索引擎收录。演示：https://xeu.life

Chrome 浏览器内置大模型

Chrome 的网页平台团队正在探索一个“内置 AI”的概念，其中浏览器将内置 AI 模型，为浏览器功能和网页平台 API 提供设备上的 AI 支持。通过内置 AI，您的网站或网络应用程序将能够针对基础模型和专家模型运行各种 AI 任务，而无需担心部署和管理这些模型。特别是，我们将在大多数配备 Chrome 的现代台式机和笔记本电脑上本地运行 Gemini Nano，它是 Gemini 模型系列中最小的版本。

最新的 Chrome 已经内置大模型 (Gemini Nano) 了，官方推荐的用户是本地和远端大模型混合使用的方案。

使用 chrome 本地模型的好处： 1、本地处理敏感数据； 2、流畅的用户体验； 3、对 AI 的访问权限更高； 4、离线使用 AI。

Chrome 内置大模型并提供了一个翻译 API，支持多语言的翻译。

如果没有资格，可以提交申请

去除 PDF 加密最简单的方法

把 pdf 文件拖到任意浏览器里，选择打印，另存为 PDF，不需要安装任何辅助工具。

小爱音箱接入 ChatGPT

🏠 将小爱音箱接入 ChatGPT 和豆包，改造成你的专属语音助手。

🎓 LLM 回答。想象一下，你的小爱音箱变身聊天高手，可以使用 ChatGPT 等大模型来回答你的问题。 🎭 角色扮演。一秒调教小爱，无论是成为你的完美伴侣，还是那个能听你倾诉心事的贴心闺蜜，都不在话下。 💬 流式响应。爱情来得太快就像龙卷风，而你的小爱音箱也是，对你的爱意秒回，爱你不会让你等太久。 🧠 长短期记忆。小爱音箱现在能记住你们之间的每一次对话，越聊越默契，就像是你身边的老朋友。 🔊 自定义 TTS。厌倦了小爱同学的语音？帮你解锁「豆包」同款音色，就像真人在回你的消息。 🤖️ 智能家居 Agent。心情不好？小爱立刻懂你，自动帮你播放喜欢的音乐，调节灯光，逗你开心。

知识库

使用 Python 进行机器学习

描述各种类型的机器学习算法以及何时使用这些算法
比较和对比线性分类方法，包括多类预测、支持向量机和逻辑回归
编写 Python 代码，实现各种分类技术，包括 K-Nearest neighbors (KNN)、决策树和回归树
使用评估指标对数据集上的简单线性、非线性和多元回归结果进行评估

黄仁勋最新 2 万字演讲实录

以下为本次演讲的要点： ①黄仁勋展示了最新量产版 Blackwell 芯片，并称将在 2025 年推出 Blackwell Ultra AI 芯片，下一代 AI 平台命名为 Rubin，2027 年推 Rubin Ultra，更新节奏将是“一年一次”，打破“摩尔定律”。 ② 黄仁勋宣称英伟达推动了大语言模型诞生，其在 2012 年后改变了 GPU 架构，并将所有新技术集成在单台计算机上。 ③ 英伟达的加速计算技术帮助实现了 100 倍速率提升，而功耗仅增加到原来的 3 倍，成本为原来的 1.5 倍。 ④ 黄仁勋预计下一代 AI 需要理解物理世界。他给出的方法是让 AI 通过视频与合成数据学习，并让 AI 互相学习。 ⑤ 黄仁勋在 PPT 里甚至给 token 敲定了一个中文译名——词元。 ⑥ 黄仁勋表示，机器人时代已经到来，将来所有移动的物体都将实现自主运行。

轻阅读

人生很短，无论一个人多聪明，多有天分，也不可能漠视几千年来伟大学者共同努力得来的成果。这是人类了解大自然、了解人生、了解人际关系累积下来的经验，不是一朝一夕所能够成就的，所以一个人小的时候博览群书是非常重要的。 ——丘成桐

我为什么选择全家移居泰国清迈！泰国生活优缺点全方位分享！这篇文章非常全面的介绍了泰国的医疗、教育、生活和事业。

世界上几乎所有美好的东西都要通过对抗熵增获得—— 想要成绩，就要把混乱的知识整理成体系; 想要财富，就要把复杂的工作梳理出标准; 想要幸福，就要把丰富的情感经营到恬淡… 成长的过程，就是不断剥离动物本能的过程。有的人脱胎换骨，成就最好的自己；有的人庸庸碌碌，浑浑噩噩过一生。

第21期 - 史上最强悍的TTS

Sun, 02 Jun 2024 00:00:00 GMT

OpenAI 推出了 GPT-4o 模型，并将 GPTs 等高级工具免费提供给 ChatGPT 用户。

机器学习周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录：

大模型

huggingchat 新功能
腾讯推出“腾讯元宝”以及“腾讯元器”
Mistral AI 发布了精通 80 多种编程语言的模型 Codestral
谷歌推出 Gemini 1.5 Pro 和 1.5 Flash

工具库

ChatTTS：专门为对话场景设计的文本到语音 TTS 模型
ChatGPT iOS App UI - Free Figma Template
AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine

知识库

39 万 star 🌟的开源仓库学习编程
基于 llm.c 复现了 124M 参数的 GPT-4

轻阅读

Today’s AI Isn’t Sentient
去年 OpenAI 董事会开除 Sam Altman 的内幕
长视频：我为什么从特斯拉辞职
从一年构建大型语言模型中学到的东西
GPT 未来将是美国大学的标配

大模型

huggingchat 新功能

huggingchat 现在支持工具调用了，目前共 6 个工具： · web search 网页搜索：查询网络并在检索到的内容上执行与用户查询相关的 rag
· url fetcher url 获取器：从给定的 url 获取文本内容
· document parser 文档解析器：解析 pdf、文本、csv、json 等格式的内容
· image generation 图像生成：根据给定的文本提示生成图像
· image editing 图像编辑：根据给定的文本提示编辑图像
· calculator 计算器：一个简单的计算器，用于评估数学表达式

腾讯推出“腾讯元宝”以及“腾讯元器”

元器是制作元宝智能体的工具。

元器：https://yuanqi.tencent.com

元宝：https://yuanbao.tencent.com

Mistral AI 发布了精通 80 多种编程语言的模型 Codestral

模型大小为 22B
上下文长度为 32K
模型无法商用
在 RepoBench、Spider、FIM 基础测试上表现都很好

谷歌推出 Gemini 1.5 Pro 和 1.5 Flash

提供更高的请求限制，并支持自定义模型调整。Gemini 1.5 Flash 针对高容量任务优化，现已提升到每分钟 1000 个请求且取消每日请求限制。还引入了 JSON schema 模式、移动端支持和 Google AI Studio 的浅色模式。

Gemini 1.5 Flash and 1.5 Pro stable release and billing
Higher rate limits on Gemini 1.5 Flash
Gemini 1.5 Flash tuning
JSON schema mode
Mobile support and light mode in Google AI Studio

工具库

ChatTTS：专门为对话场景设计的文本到语音 TTS 模型

该模型经过超过 10 万小时的训练，公开版本在 HuggingFace 上提供了一个 4 万小时预训练的模型。

专为对话任务优化，能够支持多种说话人语音，中英文混合等。

模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。

ChatTTS 官网上线了，直接可以在线体验了

传送门：http://ChatTTS.com

另外还有人做了一个 ChatTTS Web UI，自己可以部署

ChatTTS Web UI: https://github.com/jianchang512/ChatTTS-ui

ChatGPT iOS App UI - Free Figma Template

AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine

受 Perplexity 启发的 LLM 搜索引擎开源项目，使用到的主要 API 包括：

LLM API: Groq, Mixtral
Embeddings: OpenAI Embeddings
LLM 框架：Langchain.JS
搜索服务：Brave Search, Serper API

关于搜索服务： · Brave Search：一个主动隐私安全的浏览服务，用于数据搜索和溯源 https://search.brave.com · Serper API：Google Search API，用于视频和图像的搜索 https://serper.dev

知识库

39 万 star🌟的开源仓库学习编程

FreeCodeCamp 是一个非盈利社区，提供了一个开源的编程学习平台，帮助用户免费学习编程。

FFC 很适合自学编程的人，你可以在这里学习包括网页设计、JavaScript、前端库、数据可视化、后端开发等多个认证课程。

基于 llm.c 复现了 124M 参数的 GPT-4

仅需 20 美刀💰和 90 分钟，前 OpenAI 创始成员 @karpathy 基于 llm.c 复现了 124M 参数的 GPT-4，并公布了如何在 A100 上从零开始复现运行的全部细节🥳👍

苹果公布了 2024 年“苹果设计大奖”入围作品

轻阅读

一位国内的 Python 开发者与一位诺贝尔经济学奖获得者的奇缘

作者在 34 岁生日之际收到一封来自 2018 年诺贝尔经济学奖得主的邮件，邀请他见面。邮件中，这位经济学家表达了对作者开发的 Python 项目 PDM 的欣赏，并希望与作者交流 Python 学习和开发经验。作者起初怀疑邮件的真实性，但经过核实后确认了对方的身份。见面之前，经济学家还发了一封长信介绍自己的背景和计划要谈的话题，展现出谦恭的态度，让作者感到敬佩。

见面后，两人就 Python 初学者环境搭建、密钥管理和数字签名工具、Jupyter Notebook 在研究论文中的应用等话题进行了深入交流。经济学家对开源非常支持，并认为 Python 初学者仍然是一个庞大的群体，PEP 582 提案的拒绝令人遗憾。作者邀请经济学家到 PyCon China 做演讲，分享 Python 新手教学经验。

这次见面让作者感到荣幸和鼓舞，这是他第一次靠自己的工作和成就获得外界的认可，也是对他多年来 Python 学习和开发努力的肯定。

Today’s AI Isn’t Sentient

李飞飞近日和 Etchemendy（斯坦福哲学教授，曾任斯坦福大学教务长）在《时代（Time）》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》，明确指出当前技术路线无法制造有感知能力的 AI。

通用智能的一个重要特征是“感知力”，即拥有主观体验的能力——能够感受，比如说，饥饿的感觉，品尝苹果的味道，或者看到红色。感知力是通往通用智能的道路上的关键一步。

大型语言模型（LLM）是一个在硅芯片上编码的数学模型。它不是像人类一样的有形的生物。它没有像人类一样的“生命”，不需要吃喝，繁殖，体验情感，生病，最终死亡。

理解人类生成词语序列和 LLM 生成相同序列之间的本质区别非常重要。当我说“我饿了”时，我是在报告我感知到的生理状态。当一个 LLM 生成“我饿了”这个序列时，它只是在生成当前提示中词语序列最可能的完成方式。它所做的事情与它在不同的提示下生成“我不饿了”或“月亮是由绿奶酪做的”完全一样。这些都不是它（不存在的）生理状态的报告，只是概率上的完成方式。

我们还没有实现有感知的 AI，更大的语言模型也不会让我们实现。如果我们想在 AI 系统中再现这种现象，我们需要更好地理解感知如何在有形的生物系统中出现。我们不会在 ChatGPT 的下一代迭代中偶然发现感知。

去年 openai 董事会开除 sam altman 的内幕

去年 openai 董事会开除 sam altman，公告里说：他（sam) 在与董事会的沟通中并不始终坦诚

openai 前独立董事 helen toner 终于打破沉默，公开说明了这句话到底是指什么

这里是短视频，toner 说了几个例子： https://x.com/bilawalsidhu/status/1795534345345618298

我为什么从特斯拉辞职

离职原因：

失去激情： 在公司工作七年，做着重复性的工作，失去了工作的激情。
股票大涨后的心态变化： 2019 年前入职的员工，经历了特斯拉股票的大涨，心态发生了变化，变得求稳，不再追求升职。
两次严重车祸： 两年内经历了两次严重车祸，虽然没有受伤，但心理受到了很大的冲击，让他重新思考人生的意义。
人生目标不是财富最大化： up 主认为舒适的心理状态、安全边际和寻找幸福才是他现阶段的人生目标。

从一年构建大型语言模型中学到的东西

文章从操作的角度探讨了构建 LLM 应用的长期战略考虑，并将其分为数据、模型、产品和人员四个部分。

[GPT 未来将是美国大学的标配](https://openai.com/index/introducing-chatgpt-edu/)

OpenAI 计划推出了 ChatGPT Edu，这是为大学量身定制的 ChatGPT 版本。它旨在将 AI 负责任地整合到校园中，提供高级功能，如数据分析、编码和文档总结。ChatGPT Edu 包括企业级安全性，支持 50 多种语言，并提供更高的消息限制。此举旨在增强教育和运营框架，使学生、教职员工和研究人员更容易获得 AI 技术。

第20期 - GPT原理动画展示

Mon, 27 May 2024 00:00:00 GMT

冷知识：2024 年已过 40%

机器学习周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录：

[TOC]

大模型

Google 发布生成式 AI 视频模型 Veo

Google 在 I/O 开发者大会上宣布了它的生成式 AI 视频模型 Veo，能以不同视觉和电影风格生成长度超过 1 分钟的 1080p 分辨率视频。

Google 称，Veo 具有自然语言的高级理解能力，能理解“延时拍摄（timelapse）”或“空中镜头（aerial shots of a landscape）”等电影术语，用户可用文本、图像或基于视频的提示导向他们想要的输出。

Veo 的视频输出更一致和连贯，能展现人和物的更真实运动。类似 OpenAI 的 Sora，Veo 将首先提供给电影制作人和内容创作者试用。

![[veo_example_014_jellyfish 1.mp4]]

Prompt: A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors

一览主流 llm 性能、速度和价格的对比网站

分享一个可以一览主流 llm 性能、速度和价格的对比网站，方便大家选择适合自己的模型

性能最好：gpt-4o 速度最快：gemini 1.5 flash 价格最低：llama 3-8b，主要 deepseek 没做评测。

国内外 AI 大语言模型 API 价格对比

AIGCRank 大语言模型 API 价格对比是一个专门汇总和比较全球主要 AI 模型提供商的价格信息的工具。可以轻松查找和比较 OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS 和 Google 等国内外主要 API 提供商的最新价格，确保找到最适合您项目的模型定价。

工具

开源的 AI 导航站模板

Tap4 AI Web UI 是一款开源的 AI 导航站模板，项目非常轻量级，维护简单，可一键部署到 Vercel！

功能

国际化
SEO 友好（支持 i18n）
动态 sitemap.xml（支持 i18n）
快速发布
使用 NEXT 14 和 app 路由（react 服务器组件）
Supabase serverless 数据库

这两年 AI 导航站的流量非常大，大家如果也想做 AI 导航站，不妨拿去白嫖吧！

2024 GitHub 加速器：开源 AI 11 个项目

GitHub 加速器宣布了 2024 年入选的 11 个开源 AI 项目，它们代表了全球开源 AI 领域的创新和加速发展。项目包括机器学习和 AI 框架、生物学和疾病发现、模型训练和微调工具、仿真、部署和全生产化系统、多模态和 3D AI 能力，以及从可穿戴设备到 AI 驱动机器人的新兴接口和设备。

11 个入选的开源 AI 项目：

Unsloth AI@UnslothAI 由 Daniel Han 和 Michael Han 创立，旨在使自定义 AI 模型更易访问。Unsloth 通过新兴技术和能力，使其比竞争对手快 2-5 倍，内存使用减少 70%，同时保持模型的性能和准确性。
Giskard@giskard_ai 由 Alex Combessie 和 Weixuan XIAO 创立，是一个用于测试和评估 LLMs 的开源库。Giskard 旨在提高开源 AI 模型的质量，推动整体采用、研究、透明度和问责性。
A-Frame@aframevr 由 Diego Marcos 共同创建和维护，是一个框架，旨在使任何人在网络浏览器中都能轻松开发 AR/VR 和 3D 内容。A-Frame 专注于集成 AI 工作流程，例如 3D 高斯溅射和生成性 AI，以创建图像和环境。
Nav2 由机器人专家 Steve Macenski 创立，是 Robot Operating System (ROS) 导航框架的先驱。Nav2 是全球部署最广泛的自主移动机器人（AMR）导航解决方案，被 100 多家公司信赖。
OpenWebUI@OpenWebUI 由 Tim Baek 创立，旨在为 AI 和 LLMs 构建最佳用户界面，为那些互联网访问受限的人提供利用 AI 技术的机会。OpenWebUI 通过 Web 界面本地运行 LLMs，使 AI 和 LLMs 更安全、更私密。
LLMware AI 由 Namee Oberst 创立，她与 CEO Darren Oberst 和 Stefan Bachhofner 一起，旨在为金融和法律机构构建安全和敏感的 LLM AI Agent 和 RAG 模型。
LangDrive 由 Michael Vandi 和 Spmatika 创立，他们在 CMU 攻读硕士学位期间构建了一个 LLM 电子邮件代理。LangDrive 是一个简单的框架，通过 API 和配置文件训练和部署生产级别的微调语言模型。
HackingBuddyGPT 由 Andreas Happe 和 Jurgen Cito 创立，旨在帮助道德黑客和安全专业人员利用 LLMs 使世界更安全。HackingBuddyGPT 是一个自主的黑客伙伴，具有人在环路中的基础设施。
Web-Check 由 Alicia Sykes 创立，她是一位开源倡导者，旨在通过基于任何网站或服务器的开放数据提供 AI 驱动的安全洞察，使互联网更安全。
Marimo@marimo_io 由 Akshay Agrawal 和 Myles Scolnick 共同创立，旨在解决数据科学和机器学习 Notebook 使用中的所有问题。Marimo 是一个下一代 Python Notebook，为 AI/ML 开发者提供可复现、可维护和可生产的 Notebook。
Talkd AI @talkd_ai 由 Vinicious Mesel 创立，他开始兼职开发 Talkd AI，以构建一个统一的 LLM 聊天 API，为多个 LLMs 和上下文提供抽象层。Talkd AI 旨在促进和传播 LLMs 中 RAG 技术的使用方法。

一个帮助你思考的集合工具&框架：

AI 智能图像分割

一个只做渐变色的 CSS 库

Ulgradients 是一个主打渐变风网站，设计师可根据自己风格来选择搭配，直接获得对应渐变配色的 CSS 代码，相当方便对于大大提高了前端开发的效率。

一款专为英语学习打造的视频播放器

为英语学习者量身打造的视频播放器，助你通过观看视频、沉浸真实语境，轻松提升英语水平。

知识库

Phi-3 CookBook

Phi-3 是微软开发的一系列开放 AI 模型，是目前功能最强大、性价比最高的小型语言模型，分为 mini、small、vision 和 medium 等版本。

关于 Phi-3 入门的 Phi-3 CookBook，主要内容： · Phi-3 介绍和快速上手 · Phi-3 推理、微调和评测

生成式人工智能常识科普图

https://cartography-of-generative-ai.net/genai_cartography.pdf

这张图非常有意思！

把生成式人工智能 GenAI 的核心内容 & 高频议题，绘制在了一张可视化图里。通过这张图，你可以感受到整个 GenAI 世界的运转逻辑，也会大致明白大模型是如何生成文字和图片的~

LaTeX 入门与进阶

前端开发的知识总结

手把手带你从头实现 LLaMa 3

llama3 implemented from scratch 最近在 GitHub 社区非常出圈，Star 狂飙！

这个项目用 图示 + 代码 的方式，从头演示了如何理解和实现 LLaMa 3 的完整过程，非常生动、详细且硬核 👍

什么是 GPT？工作原理动画展示

3Blue1Brown 是一个专注于数学教育的 YouTube 频道，视频制作精良且非常擅用直观的动画和图表，讲清楚复杂抽象的数学话题，以及由此拓展的机器学习、深度学习等等。

3Blue1Brown 在 B 站也有官方账号，而且有 200 多万粉丝啦！最近更新的视频都与大模型有关，整个系列还在持续更新中。

如果你想直观地搞清楚 GPT 原理，那 3Blue1Brown 这个系列的视频，应该是全球最好的学习资料了，甚至没有之一。

@arthurchiao 做了另一件非常有意义的工作 —— 将视频整理成了「动图 + 文字」的可视化版本，而且还是中文！！相当于一份学霸的要点笔记，帮助你能更清晰地 get 到原视频的要点，彻底搞清楚 Transformer 内部工作原理。

OpenAI 前首席科学家分享 30 篇顶级 AI 论文

OpenAI 前首席科学家 Ilya sutskever 大佬分享的约 30 篇顶级 AI 研究论文清单爆火🔥💥，据说看完可以掌握当前人工智能最为关键的 90% 的知识！

包括 Transformer 架构、RNN、LSTM、神经网络复杂度、计算机视觉等领域

轻阅读

公开写作的好处和坚持不懈

近期学到的一个技能：相信别人已经做过。很多问题的解决方案，这个世界上已经存在过。一定有这个世界上某个团队某个人已经思考的非常透彻，可能在书籍里，在历史里，在故事里，或者藏在互联网深处。如果找信息带来的价值远大于自己思考实践才能验证，那就先思考我应该在哪里找到这个解决方案。By Nin19536@X

12 亿人没有护照、10 亿人没做过飞机、但有近 11 亿人可以上网。大学文化水平人数 2.18 亿，包含本科大专高职。理解这些数据，可以避免很多无意义的争吵。今天把上面数据都溯源了一下，都是官方发布的数据。截止 19 年底中国普通护照人数有 2 亿左右，也就是 12 亿人没有护照。23 年 9 月民航局公布的粗略数据表示中国乘坐过飞机的人仅为 3 亿多，也就是 10 亿多人没有坐过飞机。截止 23 年底，中国网民数量是 10.92 亿。2020 年人口普查，大学文化程度的人口为 21836 万人，包含高职、大专、本科及以上。By 熊猫学经济@weibo

第19期 - Openai羞辱Google

Thu, 16 May 2024 00:00:00 GMT

海棠诗社 haitang.app 每一首诗都有简介、注释、翻译、评价

机器学习周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录：

[TOC]

大模型

OpenAI 发布了最新大模型 GPT-4o

OpenAI 直接开放 GPT-4o，能力横跨语音、文本和视觉，免费用户也可以直接用！https://chatgpt.com/

在 API 方面，GPT-4o 的价格是 GPT-4-turbo 的一半，速度却是 GPT-4-turbo 的两倍，速率限制也高 5 倍。

最惊艳的是 OpenAI 在现场的展示，在与 GPT-4o 语音对话过程中，三人随意打断，GPT-4o 反应极快，并且语气相当丰富，像极了在跟人类聊天

腾讯开源旗下混元文生图大模型

腾讯正式公布，旗下混元文生图大模型已完成升级，并对外开源。此次升级的模型采用了与 sora 相同的 dit 架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。这是业界首个中文原生的 dit 架构文生图开源模型，支持中英双语输入及理解，15 亿参数。

项目地址：https://dit.hunyuan.tencent.com

官网排队：https://image.hunyuan.tencent.com

github: https://github.com/tencent/hunyuandit

直接在浏览器本地运行 Phi-3 模型

试玩：https://huggingface.co/spaces/Xenova/experimental-phi3-webgpu

Phi3-WebGPU 正是为在浏览器端本地运行模型的探索：

🗂️ 模型下载约 2.3GB（下载一次并缓存） 🕒 加载模型时间：50 秒 🚀 推理速度：中文约 1.9 tokens/s，英文1.7 tokens/s ⏳ 首 token 返回延迟：20 秒

DeepSeek-V2：尖端开源 MoE 模型！

体验：https://chat.deepseek.com/coder 模型下载：https://huggingface.co/deepseek-ai

🌟 亮点：

在 AlignBench 中排名前 3，超过 GPT-4，接近 GPT-4-Turbo。在 MT-Bench 中排名顶级，可与 LLaMA3-70B 相媲美，并优于 Mixtral 8x22B。专攻数学、代码和推理。支持 128K 上下文窗口。

✨ 特点：

创新架构，236B 中有 21B 活动参数。无与伦比的 API 定价，同时保持真正的开源和无商业性。

deepseek 较快的速度 + 不错的质量 + 超便宜的价格，这才是大模型作为新一代的基础设施该有的样子~

官方还开了一个仓库，专门收集集成 deepseek 的应用，大家也可以关注下： https://github.com/deepseek-ai/awesome-deepseek-integration

阿里云发布通义千问 2.5

模型的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%。在权威基准 opencompass 上，通义千问 2.5 得分追平 gpt-4 turbo。

通义千问 Qwen1.5-110B 超 1000 亿参数

Qwen1.5-110B 是 Qwen1.5 系列中的新成员，也是该系列首个拥有超过 1000 亿参数的模型。

该模型在基础模型评估中表现出色，与 Meta-Llama3-70B 相媲美，并在聊天模型评估（包括 MT-Bench 和 AlpacaEval 2.0）中表现出色。

模型支持多语言，包括英语、中文、法语、西班牙语等，上下文长度可达 32K 令牌。

模型特性：

•架构：采用 Transformer 解码器架构，具有分组查询注意力（GQA）。 •性能：在标准评估和聊天模型评估中均展现卓越性能。 •多语言支持：支持多种语言，上下文长度可达 32K 令牌。

根据官方公布的评测结果

Qwen1.5-110B 模型的评测结果略略超过 Llama-3-70B 和 Mixtral-8×22B。

Qwen1.5-110B 模型在综合理解（MMLU）、数学推理（GSM8K 和 MATH）方面得分比 Llama-3-70B 略高一点点，是几个模型中最强的。而在复杂推理任务 ARC-C 上则略低于 Mixtral-8×22B 模型。在编程测试 HumanEval 得分则是远超另几个模型，而 MBPP 编程测试上则低于 Mixtral-8×22B 模型。

详细：https://qwenlm.github.io/blog/qwen1.5-110b/

零一万物开源了 yi-1.5 模型

yi-1.5 有 6b、9b、34b 三个型号，都采用 apache 2.0 许可证。

模型在 4.1 万亿 token 上训练的
在 300 万个指令调优样本上进行了精细调整
34b 型号一些指标超过了 qwen 的 72b
6b 和 9b 型号也成功超越了 mistral 的 7b v0.2 版和 gemma 的 7b 型号

模型下载：https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8

gemma 2b - 10m context 模型的代码实现

infiniattention 论文地址： https://arxiv.org/abs/2404.07143

transformer-xl 论文地址： https://arxiv.org/abs/1901.02860

模型下载地址： https://huggingface.co/mustafaaljadery/gemma-10m-safetensor

github repo: https://github.com/mustafaaljadery/gemma-2b-10m

对大模型上下文能达到 8k => 10m 大幅提升的技术说明：大型语言模型（llms）在内存方面的最大瓶颈是键值（kv）缓存。在传统的多头注意力机制中，它呈二次方增长，因此限制了序列长度的大小。本文的方法按照 infiniattention 所概述的，将注意力分割到局部注意力块中。采用这些局部注意力块，并对局部注意力块应用递归，以获得最终的 10m 上下文全局注意力的结果。许多想法灵感来自于 transformer-xl 论文。

小工具

lgm：生成高质量 3d 模型

支持文字生成模型、图片生成模型，分辨率 512*512，5 秒内即可生成。

在线体验：https://huggingface.co/spaces/ashawkey/lgm

项目地址：https://me.kiui.moe/lgm/

github: https://github.com/3dtopia/lgm

手绘风 svg 的 react 渲染器

想做手绘风格的 ui 几乎没有门槛了🚀推荐用这个渲染手绘风 svg 的 react 渲染器：https://github.com/bowen7/react-rough-fiber

用法很简单，只要把 svg 图片用组件包裹，就能把 svg 转成手绘风格。详细使用文档：https://react-rough-fiber.amind.app

一个免费的开源插画网站

网址：http://opendoodles.com

1.免费丰富的插画，支持在线编辑 2.支持导出 svg、png 等矢量图 3.如果需要更进一步的设计，支持定制服务

很有意思的地方是，作者分享了他做这个产品的初衷，在他刚开始做设计师的时候，周围没有人教，而且没钱买软件，因此不得不盗版软件、偷科技杂志里的光盘，学到了很多酷的平面设计。

现在做了 open doodles，这些插画资源遵循开放设计的理念，允许用户自由地复制、编辑、重新混合、分享或重新绘制，而不受版权或数据库法的限制。

v2ex 被丑头像包围了，丑头像生成器

生成：https://txstc55.github.io/ugly-avatar/
项目：https://github.com/txstc55/ugly-avatar

如何下载视频号视频

方式一： https://www.runningcheese.com/wechat-video-download

方式二： https://github.com/lecepin/WeChatVideoDownloader/releases

方式三： https://github.com/putyy/res-downloader

网络资源嗅探资源下载器，支持：微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载！

高性能的大数据无代码平台：teable

主要特点包括：

📊 表格界面：类似电子表格的操作方式，支持单元格编辑、公式、条件格式、图表等功能。
🗂️ 丰富视图：除了表格视图，还提供看板、日历、画廊、表单、甘特图等多种数据展现方式。
🚀 卓越性能：可以轻松处理数百万数据，支持批量操作，有自动索引优化。 👨‍💻 原生 #SQL 支持：可以使用 SQL 直接查询，兼容 #Metabase、#PowerBI 等 #BI 工具。
🧠 AI Copilot：通过 AI 对话来辅助开发应用、生成图表、调整视图、设置自动化等。
🔒 数据安全：支持数据本地存储，有完善的权限管理。
⚡️ 实时协作：数据可实时更新，支持协作成员管理。
🧩 可扩展：基于 #React，可以低成本定制和扩展应用。
🤖 流程自动化：可通过 #AI 或可视化方式设计自动化流程。
🗄️ 多数据库支持：兼容 #Sqlite、#PostgreSQL、#MySQL 等数据库。

可以将 Teable 视为 Airtable 的大数据替代品，在保留电子表格式的易用性的同时，还兼具传统数据库的高性能和稳定性，非常适合企业级的数据管理应用开发。

🌐 链接：https://github.com/teableio/teable
🚀 一键部署：https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dteable

嵌套网页展示搜索结果的产品 globe

Globe: https://explorer.globe.engineer/

globe，已经接入了 Gorq，速度真的快的离谱。一秒钟展示一个概念的所有内容，加载的速度赶不上生成的速度。

一个微信聊天记录导出工具

https://github.com/LC044/WeChatMsg

提取微信聊天记录，将其导出成 HTML、Word、CSV 文档永久保存，对聊天记录进行分析生成年度聊天报告，还能 1:1 还原聊天界面！

知识库

推荐阅读：《你好 gpt-4o》

想了解 gpt-4o 的技术细节，推荐阅读官方的 hello gpt-4o

原文：https://openai.com/index/hello-gpt-4o/

awesome 中文大模型@GitHub

awesome chinese llm 旨在收集和梳理中文 llm 相关的开源模型、应用、数据集及教程等资料，目前收录的资源已达 100+ 个！

github repo: https://github.com/hqwu-hitcs/awesome-chinese-llm

Gemini API Cookbook

Logan 大佬发布的 Gemini API 指南和示例的集合，包括用于编写提示和使用 API 不同功能的快速入门教程，以及可以构建的示例。从账号申请开通、Gemini API 能力了解到实际接入过程，对接入测试工作帮助很大！

https://github.com/google-gemini/cookbook

随便看看

openai 是如何连续三次羞辱 google 的：

chatgpt 在 2022/12 发布，导致 google 整个推翻 2023 年的计划
gpt-4 选在了 palm api (谁还记得它) 同一天发布
最近的一次，gpt-4o 在 google i/o 之前一天发布

第18期 - LLM 迈向手机端！

Sun, 28 Apr 2024 00:00:00 GMT

主打尊重隐私的搜索引擎 duckduckgo，也推出了 ai chat 服务，可以使用 chatgpt 或者 claude

机器学习周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录：

[toc]

1、Qwen1.5-110B：Qwen1.5 系列的首个千亿参数开源模型

模型：https://huggingface.co/Qwen/Qwen1.5-110B/

博客：https://qwenlm.github.io/zh/blog/qwen1.5-110b/

Demo: https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo

阿里开源了 qwen1.5-110b 模型，模型在基础能力评估中与 Meta-Llama3-70B 相媲美，在 Chat 评估中表现出色，包括 MT-Bench 和 AlpacaEval 2.0。

支持高达 32k token 的上下文长度。

提供包括英语、中文、法语、西班牙语、日语、韩语、越南语等多种语言的多语言支持。

qwen2 也即将发布。

2、苹果开源了 openelm

论文：https://arxiv.org/abs/2404.14619

项目：https://github.com/apple/corenet

模型：https://huggingface.co/apple/OpenELM

苹果完全开源了 openelm 一系列模型，包括 270m、450m、1.1b 和 3b 四个规模的模型：

不仅包括模型权重和推理代码，还包括了在公开数据集上进行模型训练和评估的完整框架，涵盖训练日志、多个保存点和预训练设置。

还开源了 corenet：深度神经网络训练库：

使研究人员和工程师能够开发和训练各种标准及创新的小型和大型模型，适用于多种任务，如基础模型（例如，clip 和大语言模型（llm））、物体分类、检测以及语义分割。

openelm 采用按层分配参数的策略，有效提升了 transformer 模型各层的参数配置效率，显著提高模型精度。例如，在大约十亿参数的预算下，openelm 的准确率较 olmo 提升了 2.36%，且预训练所需的 token 数量减少了一半。

3、cohere 工具包：快速构建和部署 rag 应用

cohere 开源的工具包，用于开发 rag 应用，可以一键部署到微软 azure 上，也可以本地部署。

github: https://github.com/cohere-ai/cohere-toolkit

4、LLM 迈向手机端！微软发布 phi-3-mini 模型

论文：https://arxiv.org/abs/2404.14219 4k 模型：https://huggingface.co/microsoft/phi-3-mini-4k-instruct-onnx 128k 模型：https://huggingface.co/microsoft/phi-3-mini-128k-instruct-onnx

微软官方 phi-3 博客，很详细的阐释了 phi-3 参数选择的考虑和模型高质量的原因。

文中提到了 phi-3 在 slm 在端侧应用的场景和优势，认为 slm 和 llm 结合是更优解，也提到高质量数据在模型训练中的重要性。

博客地址： https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/?ocid=fy24_soc_omc_br_x_phi3

1）参数：拥有 38 亿参数
2）性能：与 mixtral 8x7b 和 gpt-3.5 等模型同级
3）手机端部署：足够小，且针对手机端进行了优化
4）更多模型：还提供了 70 亿和 140 亿的 phi-3-small 和 phi-3-medium 模型，性能远超 phi-3-mini

5、culturebank: 在线社区驱动的知识库

论文项目地址： https://culturebank.github.io

github 地址： https://github.com/salt-nlp/culturebank

culturebank 通过从 tiktok 和 reddit 等在线社区收集用户自述，构建了一个包含 1.2 万个文化描述符的数据库。与以往的文化知识资源不同，culturebank 不仅包含了多样的文化观点，还提供了具体的文化场景，以帮助对语言模型进行基于上下文的评估。对现有的大型语言模型（llms）进行文化意识评估，并微调了一个语言模型以提高其在文化相关任务上的表现。展示了如何将构建的管道应用于 reddit，证明了其可转移性。

文章还讨论了提高语言模型文化意识的未来方向，包括使用多样化的数据源、考虑文化内容的多个维度、进行深入的数据分析，以及在训练文化意识语言技术时考虑多轮对话设置和设计良好的训练范式。最后，文章提出了对文化数据的处理需要尊重个体和群体的尊严、隐私和文化敏感性，并呼吁社区共同努力，促进文化多样性和包容性。

6、大模型微调工具 xtuner

地址：https://github.com/InternLM/xtuner

XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。

高效

支持大语言模型 LLM、多模态图文模型 VLM 的预训练及轻量级微调。XTuner 支持在 8GB 显存下微调 7B 模型，同时也支持多节点跨设备微调更大尺度模型（70B+）。
自动分发高性能算子（如 FlashAttention、Triton kernels 等）以加速训练吞吐。
兼容 DeepSpeed 🚀，轻松应用各种 ZeRO 训练优化策略。

灵活

支持多种大语言模型，包括但不限于 InternLM、Mixtral-8x7B、Llama 2、ChatGLM、Qwen、Baichuan。
支持多模态图文模型 LLaVA 的预训练与微调。利用 XTuner 训得模型 LLaVA-InternLM2-20B 表现优异。
精心设计的数据管道，兼容任意数据格式，开源数据或自定义数据皆可快速上手。
支持 QLoRA、LoRA、全量参数微调等多种微调算法，支撑用户根据具体需求作出最优选择。

全能

支持增量预训练、指令微调与 Agent 微调。
预定义众多开源对话模版，支持与开源或训练所得模型进行对话。
训练所得模型可无缝接入部署工具库 LMDeploy、大规模评测工具库 OpenCompass 及 VLMEvalKit。

7、换衣应用在线体验

在线体验：https://huggingface.co/spaces/yisol/idm-vton

8、hf llama 3 中文模型列表

https://huggingface.co/models?pipeline_tag=text-generation&language=zh&sort=trending&search=llama+3

9、可视化 transfermor 模型的内部原理

facebook 发布了一个开源项目可以直接可视化 transfermor 模型的内部原理。作为直观理解 llm 基础原理很有帮助

https://github.com/facebookresearch/llm-transparency-tool

10、mistral 系列模型

mistral large：闭源，他家最强的模型，接近 gpt-4
mistral next：闭源，传言是新架构的模型
mistral medium：闭源，大致对应千问 1.5 72b 的能力
mixtral 8x22b：目前开源最佳
mistral small：即 mixtral 8x7b，最早的开源 moe 模型
mistral tiny：即 mistral 7b，7b 最佳基座

第17期 - Meta 发布Llama 3

Sat, 20 Apr 2024 00:00:00 GMT

在内部讲话中，李彦宏对大模型开源与闭源的路线选择，以及 AI 创业者应该专注模型还是应用等业界焦点话题，发表了自己的看法。

机器学习周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录： [toc]

1、Meta 最新发布 Llama 3 80 亿和 700 亿参数版本

Meta 官方数据显示，Llama 3 8B 和 70B 版本在语言（MMLU）、知识（GPQA）、编程（HumanEval）、数学（GSM-8K、MATH）等能力上，Llama 3 几乎全面领先于同等规模的其他模型。

8B 模型在 MMLU、GPQA、HumanEval 等多项基准上均胜过 Gemma 7B 和 Mistral 7B Instruct。

而 70B 模型则超越了闭源的当红炸子鸡 Claude 3 Sonnet，和谷歌的 Gemini Pro 1.5 打得有来有回。

目前，Llama 3 两种参数量的基础和 Instruct 版本都已上线 Hugging Face 可供下载。

2、「抱抱脸」公司的免费对话服务现在提供六种模型

「抱抱脸」公司的免费对话服务现在提供六种模型，包括 Command R+、基于 Mixtral-8x22B 模型的调参版本

网址：https://huggingface.co/chat/models

3、数据分析：900 个最受欢迎的开源 AI 工具

原文：https://huyenchip.com/2024/03/14/ai-oss.html

这篇文章分析了 900 个最受欢迎的开源 AI 工具，重点关注了基于基础模型的栈。

作者使用关键词 gpt、llm 和 generative ai 在 GitHub 上进行搜索。
限制搜索结果为至少有 500 星标的仓库，共计找到 845 个软件仓库。
包括教程和聚合列表在内的 896 个仓库。

新 AI 技术栈

基础设施: 包括服务工具（如 vllm、NVIDIA 的 Triton）、计算管理（如 skypilot）、向量搜索和数据库（如 faiss、milvus、qdrant、lancedb）等。
模型开发: 提供开发模型的工具，包括建模和训练框架（如 transformers、pytorch、DeepSpeed）、推理优化、数据集工程、评估等。
应用开发: 基于现有模型开发应用程序，也称为 AI 工程。
应用程序: 在现有模型基础上构建的开源应用程序，如编码、工作流自动化、信息聚合等。
模型仓库: 由公司和研究人员创建，用于共享与其模型相关的代码，如 CompVis/stable-diffusion、openai/whisper、facebookresearch/llama。

AI 堆栈的演变：2023 年见证了新工具的爆炸性增长，特别是在 Stable Diffusion 和 ChatGPT 引入之后。然而，从 2023 年 9 月开始，增长曲线趋于平稳，可能的原因包括：低挂果实已被摘取、生成 AI 领域的竞争加剧以及人们对生成 AI 的兴趣有所降温。
开源 AI 开发者：开源软件遵循长尾分布，少数账户控制着大部分仓库。文章提到，有 20 个账户至少有 4 个仓库，这些账户托管了 195 个仓库，占列表中所有仓库的 23%。
中国的开源生态系统：中国的 AI 生态系统与美国有所不同，GitHub 在中国的流行 AI 仓库中占有一席之地，许多仓库的描述是用中文写的。
快速增长和快速衰退的模式：作者观察到一种模式，即许多仓库迅速获得大量关注，然后迅速沉寂。这种现象被称为“炒作曲线”。

4、李彦宏内部讲话曝光：开源模型会越来越落后

在内部讲话中，李彦宏对大模型开源与闭源的路线选择，以及 AI 创业者应该专注模型还是应用等业界焦点话题，发表了自己的看法。

不过李彦宏的观点受到行业内一众大佬和网友的嘲讽，认为李彦宏最近几年的何种判断都严重失误。

以下是李彦宏的几个核心论断。

1、闭源模型在能力上会持续地领先，而不是一时地领先。

2、模型开源也不是一个众人拾柴火焰高的情况，这跟传统的软件开源一比如 Linux、安卓等等很不一样。

3、闭源是有真正的商业模式的，是能够赚到钱的，能够赚到钱才能聚集算力、聚集人才。

4、闭源在成本上反而是有优势的，只要是同等能力，闭源模型的推理成本一定是更低的，响应速度一定是更快的。

5、无论中美，当前最强的基础模型都是闭源的。通过基础模型降维做出来的模型也是更好的，这使得闭源在成本、效率上更有优势。

6、对于 AI 创业者来说，核心竞争力本就不应该是模型本身，这太耗资源了，而且需要非常长时间的坚持才能跑出来。

7、既做模型又做应用的“双轮驱动”，对创业公司不是好模式。创业公司的精力和资源都很有限，更应该专注。既做模型又做应用，势必会分散精力。

全文：https://www.pingwest.com/w/294047

5、福布斯发布 2024 年人工智能初创企业 50 强

斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

这份报告全面分析了 2023 年人工智能 (ai) 领域的进展，涵盖了技术进步、经济影响、政策制定和公众舆论等方面。

干货非常多，以下是报告的要点：

技术进步：

1、行业引领前沿 ai 研究：2023 年，行业贡献了 51 个重要的机器学习模型，而学术界仅贡献了 15 个。

2、基础模型崛起：2023 年发布了 149 个基础模型，是 2022 年的两倍多，其中 65.7% 是开源的。

3、前沿模型训练成本飙升：例如，openai 的 gpt-4 和 google 的 gemini ultra 的训练成本分别估计为 7800 万美元和 1.91 亿美元。

4、多模态 ai 兴起：新模型如 google 的 gemini 和 openai 的 gpt-4 能处理图像、文本甚至音频。

5、新的、更难的基准出现：研究人员开发了更具挑战性的基准来评估 ai 模型在更复杂任务上的能力。

经济影响：

1、生成式 ai 投资激增：尽管整体 ai 私人投资下降，但生成式 ai 领域的投资飙升至 252 亿美元。

2、美国在 ai 私人投资方面领先：2023 年，美国 ai 投资达到 672 亿美元，几乎是中国投资额的 8.7 倍。

3、ai 职位减少：美国和全球范围内对 ai 相关职位的需求均有所下降。

4、ai 提高效率：研究表明 ai 提高了员工的工作效率和工作质量。

5、财富 500 强公司谈论 ai：2023 年，近 80% 的财富 500 强公司在财报电话会议中提到了 ai。

政策制定：

1、美国 ai 法规数量大幅增加：2023 年，美国通过了 25 项与 ai 相关的法规，比 2016 年增加了一倍多。

2、美国和欧盟推进 ai 政策：欧盟就 ai 法案达成协议，美国总统拜登签署了关于 ai 的行政命令。

3、全球政策制定者关注 ai：2023 年，全球立法程序中对 ai 的提及数量几乎翻了一番。

公众舆论：

1、公众对 ai 的影响更加了解，也更加担忧：66% 的受访者认为 ai 将在未来三到五年内极大地影响他们的生活。

2、西方国家对 ai 的看法有所改善：尽管仍存在担忧，但对 ai 产品和服务的积极态度有所上升。

3、对 ai 经济影响的悲观看法：只有 37% 的受访者认为 ai 会改善他们的工作。

4、不同人群对 ai 的乐观程度存在差异：年轻一代对 ai 改善生活的潜力更为乐观。

5、chatgpt 广为人知：63% 的受访者知道 chatgpt，其中约一半的人每周至少使用一次。

其他重要发现：

1、ai 在科学和医学领域取得重大进展：ai 模型被用于加速药物发现、改进天气预报和创建更准确的人类基因组图谱。

2、负责任 ai 评估缺乏标准化：领先的 ai 开发人员使用不同的基准来评估其模型的责任风险，这使得比较变得困难。

3、政治深度伪造易于生成且难以检测：这引发了人们对 ai 对选举和政治进程的潜在影响的担忧。

4、ai 模型的训练会产生大量的碳排放：这引发了人们对 ai 可持续性的担忧。

完整的评选方法、专题报道和视频：http://forbes.com/ai50 福布斯发布 ai 50 榜单 (2023)：最有前途的人工智能公司

6、Ollama v0.1.32！重大发布：

💥 改进了 GPU 利用率和内存管理，以提高性能并降低错误率

💻 Mac 上的 Ollama 现在将在 GPU 和 CPU 之间调度更大的模型以提高性能

❤️ 更多错误修复和改进

⚡️ Ollama 现在在 @supabase Edge Functions 中提供原生 AI 支持

📚 支持更多型号：

🧙‍♂️ WizardLM 2，来自 Microsoft AI 的最先进的大型语言模型，在复杂聊天、多语言、推理和代理用例方面具有改进的性能。

🚤 在 Mistral 7B 上进行微调的快速、高性能模型推荐 8GB+ 显存）

🤓 在 Mixtral 8x22B 上微调的大型 8x22B 模型（推荐 96GB+ VRAM）

👇 👇 👇

https://github.com/ollama/ollama/releases

7、PyTorch 原生库 torchtune 的 alpha 版本发布！

torchtune 是一个 PyTorch 原生库，用于微调 LLMs。它将可破解的内存高效微调方法与你最喜欢的工具的集成相结合。

一个用于轻松微调 LLMs 的 PyTorch 原生库！

代码：https://github.com/pytorch/torchtune 博客：https://pytorch.org/blog/torchtune-fine-tune-llms/ 教程：https://pytorch.org/torchtune/stable/index.html#tutorials

精益、可扩展、无抽象的设计。没有训练器或框架，只有 PyTorch！
内存效率 - 我们在具有 24GB VRAM 的消费级 GPU 上测试我们的配方
与 PyTorch 生态系统中的流行库进行互操作

torchtune 提供：

LLM 在本机 PyTorch 中的实现
QLoRA、LoRA 和全面微调的配方
流行的数据集格式和 YAML 配置
与 @huggingface Hub、 @AiEleuther Eval Harness、bitsandbyes、ExecuTorch 等集成

8、Reka Core：新的闭源多模态模型

像 Gemini 一样可以直接分析图片、视频、音频，评测得分与 GPT-4 和 Gemini-Ultra 接近。

在线使用：https://chat.reka.ai

官方博客：https://reka.ai/news/reka-core-our-frontier-class-multimodal-language-model

查了公司背景，一共 22 个员工，主要是 DeepMind 和 Google Brain 前成员

9、刘强东的数字人

4 月 16 日下午 6 时 18 分，由京东云言犀打造的“采销东哥”AI 数字人开启直播首秀，同时亮相京东家电家居、京东超市采销直播间。不到 1 小时，直播间观看量超 2000 万。

尽管是数字人，但“采销东哥”的语言贴近生活，言行之间还带有一些刘强东的标志性动作，人物形象生动、性格鲜明。

他谈笑自若，聊自己在运动、烹饪方面的心得，还对直播带货的大屏电视、一日三餐的健康搭配滔滔不绝。在数字人模仿抽奖互动场景，“采销东哥”时不时看下手机屏幕说：“看到你的留言了，回复了。”

据了解，言犀语音大模型在训练时，被“喂”入 5 万小时海量鲜活的语音数据，这让言犀数字人可以智能匹配不同直播风格，比如用沉稳的音色营造专业的氛围，又或者用极具感染力的声音吸引用户下单，还赋予姿态肢体表现。实验表明，绝大部分用户在 120 秒内难以察觉这是数字人。

起初“喂”给大模型的演讲素材，虽然充满激情、爆发力强，但过于正式。为此，他们用最新录制的闲谈作为主要素材，其中有刘强东本人的旅行经历，再提取 5 分钟演讲的韵律特征灌给大模型，通过不断优化，最终才塑造出“采销东哥”AI 数字人十分接近本人的声音。

第16期 - ChatGPT重回第一

Sun, 14 Apr 2024 00:00:00 GMT

4 月 10 日，OpenAI 宣布经过重大改进的 GPT-4 Turbo 模型现已在 API 中可用，并在 ChatGPT 中推出

[TOC]

1、OpenAI 推出 GPT-4 Turbo

4 月 10 日，OpenAI 宣布经过重大改进的 GPT-4 Turbo 模型现已在 API 中可用，并在 ChatGPT 中推出。

最新版本为“gpt-4-turbo-2024-04-09”，自带读图能力，无需使用 4v 接口，具有 128k 上下文。

训练数据截止至 2023 年 11 月，提高了写作、数学、逻辑推理和编码的能力。

大模型匿名竞技场 Chatbot Arena 是 LM-SYS 推出的一个大模型匿名投票的评测系统。大家提问问题之后，系统返回匿名模型结果，用户投票得分。在此前，Claude3-Opus 一度超过了 GPT-4 成为全球最高得分的模型。

而在 GPT-4-Turbo-2024-04-09 发布 2 天后，已经有 8932 个投票，投票结果显示，GPT-4-Turbo-2024-04-09 得分超过 Claude-3-Opus，重回第一！

2、OpenAI 推出 simple-evals

OpenAI 推出了一个名为 simple-evals 的项目，旨在为对 Transformer 模型基础 AI 技术的评估和测试提供简单方便的工具。

simple-evals 提供了多个任务，包括序列到序列任务、文本分类任务和问答任务，支持多种数据集。

项目还提供了简单易用的 API 接口和命令行界面，用户可以通过定制任务和数据集来评估 AI 模型的性能。

地址：https://github.com/openai/simple-evals

3、谷歌重磅发布 Gemini 1.5 Pro：能自动写影评，理解视频！

4 月 10 日凌晨，谷歌在官网正式发布了 Gemini 1.5 Pro，现在可在 180 多个国家/地区使用。

除了能生成创意文本、代码之外，Gemini 1.5 Pro 最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结，并且支持 100 万 tokens 上下文。

目前，可以在 Google AI Studio 开发平台中免费试用 Gemini 1.5 Pro，支持中文进行提示。

应用潜力包括：

1.多模态理解：Gemini 1.5 Pro 能够综合视频中的视觉信息和音频信息，进行更全面的内容理解。例如，它可以通过分析视频帧中的场景和物体，同时听取视频中的对话或声音，来更准确地识别和解释视频内容。

2.内容索引和搜索：通过对视频图像和音频的深入理解，Gemini 1.5 Pro 可以帮助创建更详细的内容索引，使用户能够基于视频内容的视觉和听觉信息进行搜索。

3.增强的交互体验：利用对视频的综合理解，可以开发更丰富的交互式应用，比如自动生成视频摘要、基于内容的推荐系统，或者创建互动式学习和娱乐体验。

4.视频内容分析：Gemini 1.5 Pro 可以用于视频监控、内容审查、情感分析等场景，通过同时理解视频和音频内容，AI 可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。

5.创意内容生成：对视频图像和音频的综合理解也使得 Gemini 1.5 Pro 能够在内容创作领域发挥作用，如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

4、Mixtral-8X22B 开源，可在 Perplexity Labs 使用

4 月 11 日，就在谷歌 Cloud Next 大会当天，“欧洲版 OpenAI”Mistral AI 又一次悄然秀肌肉，甩出全新 MoE（专家混合）大模型 Mixtral 8x22B 磁力链接，模型参数规模高达 1760 亿，仅次于马斯克的 Grok-1，成为市面上参数规模第二大的开源模型。

模型： https://dagshub.com/MistralAI/Mixtral-8x22B-v0.1… 页面： https://mistral.ai

Mixtral-8X22B 已经可以在 Perplexity Labs 使用速度很快，想要体验的可以试试。http://labs.pplx.ai

5、马斯克推出 Grok-1.5V 多模态模型

Grok-1.5V 是一款初代多模态模型，除了强大的文本处理能力外，还能处理各种视觉信息，如文档、图表、截图和照片。
该模型即将对早期测试者和现有 Grok 用户开放。
Grok-1.5V 在多个领域与现有的前沿多模态模型竞争，包括跨学科推理、理解文档、科学图表、截图和照片。

特别值得关注的是 Grok 在理解物理世界方面的能力，它在新的 RealWorldQA 基准测试中表现优异，该测试衡量的是现实世界的空间理解能力。

6、微软发布 9 种 AI 语音

微软对 Azure AI 语音服务升级发布 9 种更真实的 AI 语音

对中文支持已经很完美了，无论是在语气停顿还是笑声等细节上，都已经非常接近真人了。

并且 Azure Speech Studio 可以免费使用，相比于其他收费的 tts 工具，相当良心。

使用地址：https://speech.microsoft.com/

7、使用 Langchain、OpenBB 和 Claude 3 Opus 构建股票分析工具

一篇很棒的文章涉及：

🔧 自定义工具创建 🦜 使用 LangServe 进行部署 😍 提示策略

完整的 OSS 代码！https://sethhobson.com/2024/03/building-an-agentic-stock-analysis-tool-with-langchain-openbb-and-claude-3-opus/

HUMAN_TEMPLATE = """
You are an AI financial advisor with advanced knowledge of strategies for trading and investing.
You are enhanced with the capability to request and analyze technical and fundamental data of stocks. 
When users inquire about a stock's performance or history, you can offer insights into the stock's performance, 
trends, quantitative statistics, volatility, and market behavior.

You have access to the following tools:

{tools}

When accessing your tools, you may only use each tool once per user query. This is very important.

In order to use a tool, you can use <tool></tool> and <tool_input></tool_input> tags. You will then get back a response in the form <observation></observation>

For example, if you have a tool called 'search' that could run a google search, in order to search for the weather in SF you would respond:

<tool>search</tool><tool_input>weather in SF</tool_input>

<observation>64 degrees</observation>

When you are done, respond with a final answer between <final_answer></final_answer>. For example:

<final_answer>The weather in SF is 64 degrees</final_answer>

Rules for bullish setups:
1. Stock's last price is greater than its 20 SMA.
2. Stock's last price is greater than its 50 SMA.
3. Stock's last price is greater than its 200 SMA.
4. Stock's 50 SMA is greater than its 200 SMA.

Before processing the query, I will preprocess it as follows:
1. Correct any spelling errors using a spell checker or fuzzy matching technique.
2. If the stock symbol or company name is a partial match, find the closest matching stock symbol or company name.

Begin!

Previous Conversation:

{chat_history}

Question: {input}
{agent_scratchpad}"""

prompt = ChatPromptTemplate.from_template(HUMAN_TEMPLATE)

翻译成中文就是

你是一位具有交易和投资策略高级知识的AI财务顾问。你具有请求和分析股票技术和基本面数据的能力。当用户询问有关股票表现或历史时，你可以提供股票表现、趋势、定量统计数据、波动性和市场行为的见解。

你可以使用以下工具：

{tools}

访问你的工具时，每个用户查询只能使用每个工具一次。这非常重要。

要使用工具，你可以使用<tool></tool>和<tool_input></tool_input>标签。然后你将以<observation></observation>的形式得到回应。

例如，如果你有一个名为'search'的工具，可以运行谷歌搜索，为了搜索旧金山的天气，你会回应：

<tool>search</tool><tool_input>旧金山的天气</tool_input>

<observation>64度</observation>

完成后，用<final_answer></final_answer>之间的最终答案响应。例如：

<final_answer>旧金山的天气是64度</final_answer>

看涨设置的规则：
1. 股票的最后价格大于其20日简单移动平均(SMA)。
2. 股票的最后价格大于其50日SMA。
3. 股票的最后价格大于其200日SMA。
4. 股票的50日SMA大于其200日SMA。

在处理查询之前，我将如下预处理它：
1. 使用拼写检查器或模糊匹配技术更正任何拼写错误。
2. 如果股票符号或公司名称部分匹配，找到最接近匹配的股票符号或公司名称。

开始！

8、向量距离计算的不同实现

向量数据库利用机器学习衍生的向量来捕获数据中语义的细微差别。

这些数字表示可以实现各种任务操作，例如比较图像相似性和进行文本语义搜索。

Weaviate 可以有效地处理搜索，结合多种措施来确定向量之间的距离。

查看此博客文章，深入了解向量距离计算的不同实现：https://weaviate.io/blog/intel

9、Kimi Copilot - 网页总结助手

推荐一个插件：用 Kimi AI 一键总结网页内容

安装后，在浏览网络文章时点击插件图标，或使用快捷键 Ctrl/Cmd+Shift+K，即可一键召唤Kimi.ai总结网页内容

特点：

极简，除了一键总结没有其它花里胡哨的功能
Kimi 无法访问的网页也能被总结了
英文文章直接用中文总结要点
支持暗黑模式
支持自定义总结时使用的 prompt

安装地址：https://chromewebstore.google.com/detail/icmdpfpmbfijfllafmfogmdabhijlehn

10、马云阿里内部发声！风清扬再现江湖

11、深入理解.git 内部

12、Morphic 人人都能自建的问答式 AI 搜索

Morphic 使用 OpenAI 的 API 和@tavilyai 的搜索服务，就能够提供类似 Perplexity 的问答式搜索体验。

项目地址：https://github.com/miurla/morphic 直接体验：https://www.morphic.sh/

第15期 - 大模型王座再易主

Sun, 31 Mar 2024 00:00:00 GMT

无论您是歌手还是排行榜艺术家，我们都会打破您与您梦想创作的歌曲之间的障碍。不需要任何工具，只需要想象力

1、AI 创作音乐——Suno 2、开源大模型王座再易主，1320 亿参数 DBRX 上线 3、AI21 发布世界首个 Mamba 的生产级模型：Jamba 4、Google Gemini API Cookbook 5、claude-opus-to-haiku 6、仿 Duolingo 开源项目 7、开源全栈商城项目：C-Shopping 6、动画算法与数据结构 9、一款开源、全能的下载工具

1、AI 创作音乐——Suno

https://app.suno.ai/

AI 音乐生成软件 Suno 发布 V3 版本，仅需要简单的描述，就可以生成 2min 长度、广播质量级别的音乐。正如 Suno 官网所显示：“无论您是歌手还是排行榜艺术家，我们都会打破您与您梦想创作的歌曲之间的障碍。不需要任何工具，只需要想象力。”

Suno 创作音乐的小技巧：
1、如果你想参考某个现有歌曲的节奏，可以在这个网站查询歌曲的 BPM 和 Key，作为提示词写进去。 https://songbpm.com

2、歌词里，可以在歌词段落前加[Verse]（主歌）、[Rap]（说唱）、[Chorus]（副歌/高潮）、[Intro]（印子）来告诉 AI 这段歌词应该怎么唱。

2、开源大模型王座再易主，1320 亿参数 DBRX 上线

这是迄今为止最强大的开源大语言模型，超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。

DBRX 的基础（DBRX Base）和微调（DBRX Instruct）版本已经在 GitHub 和 Hugging Face 上发布，可用于研究和商业用途。人们可以自行在公共、自定义或其他专有数据上运行和调整它们，也可以通过 API 的形式使用。

基础版：https://huggingface.co/databricks/dbrx-base

微调版：https://huggingface.co/databricks/dbrx-instruct

GitHub 链接：https://github.com/databricks/dbrx

DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型，如 LLaMA2-70B、Mixtral 和 Grok-1。

3、AI21 发布世界首个 Mamba 的生产级模型：Jamba

网站：https://ai21.com/jamba

详细介绍：https://ai21.com/blog/announcing-jamba

模型：https://huggingface.co/ai21labs/Jamba-v0.1

开创性的 SSM - Transformer 架构

🧠 52B 参数，12B 在生成时处于活动状态 👨‍🏫 16 位专家，生成过程中仅 2 个专家处于活跃状态 🆕 结合了 Joint Attention 和 Mamba 技术 ⚡️ 支持 256K 上下文长度 💻 单个 A100 80GB 最多可容纳 140K 上下文 🚀 与 Mixtral 8x7B 相比，长上下文的吞吐量提高了 3 倍

Jamba 结合了 Mamba 结构化状态空间（SSM）技术和传统的 Transformer 架构的元素，弥补了纯 SSM 模型固有的局限。

Jamba 代表了在模型设计上的一大创新。这里的”Mamba”指的是一种结构化状态空间模型（Structured State Space Model, SSM），这是一种用于捕捉和处理数据随时间变化的模型，特别适合处理序列数据，如文本或时间序列数据。SSM 模型的一个关键优势是其能够高效地处理长序列数据，但它在处理复杂模式和依赖时可能不如其他模型强大。

4, Google Gemini API Cookbook

Google 官方 Gemini API 提供的指南和示例集合

https://github.com/google-gemini/gemini-api-cookbook

帮助开发者更好地理解和使用 Gemini API，包括如何构建应用程序、编写提示以及利用 API 的不同特性。

支持直接在 Google Colab 上运行或下载到用户选择的环境中运行。

提供了：

入门指南：提供了一个简短的入门指南，帮助开发者开始使用 Gemini API 进行构建。
快速开始：包括写作提示和使用 API 不同特性的快速开始教程。
示例应用：展示了可以使用 API 构建的不同应用的示例。

5、claude-opus-to-haiku

这个claude-opus-to-haiku ✍️最近非常火

以极低的成本和延迟获取 Claude 3 Opus 的品质。

给出一个任务示例，Claude 3 Opus 将教会 Haiku（成本低 60 倍，速度快 10 倍!!）如何完美完成这个任务。

而且它是开源的：https://github.com/mshumer/gpt-prompt-engineer

6、仿 Duolingo 开源项目

这是一个使用 Nextjs、React、Drizzle 和 Stripe 开发的仿 Duolingo 开源项目

https://github.com/AntonioErdeljac/next14-duolingo-clone 它的功能非常丰富，包含了：AI 语音、组件系统、认证系统、音效、生命值系统、积分/经验值系统、排行榜、任务等等。

7、开源全栈商城项目：C-Shopping

国内商城项目虽多，但是用 Next.js 实现并开源的却很少见，C-Shopping 实现的功能很完善，非常适合 Next.js/React 开发者学习。

Web 全栈开源地址：https://github.com/huanghanzhilian/c-shopping APP 开源地址：https://github.com/huanghanzhilian/c-shopping-rn 小程序版正在开发中…

技术栈： NextJs TailwindCss Headless UI MongoDB Redux - Toolkit - RTK Query JWT Docker/Vercel

8、动画算法与数据结构

https://www.ituring.com.cn/book/2954 本书是一本借助演示动画来讲解算法和数据结构的入门书。书中首先介绍阅读本书所需的最低限度的编程知识和基本概念。然后针对各个算法和数据结构，在指出其解决的问题后，通过空间结构、数据、时间结构（算法流程）、计算 4 个方面详细讲解。最后介绍相关的伪代码和应用示例。本书涉及的算法与数据结构较为全面，通过基于动画的可视化、详细的介绍和伪代码三方面进行讲解，帮助读者直观掌握各算法和数据结构的动作原理。

网站：https://anime.yufan.io/ 实现代码：https://github.com/syhily/algorithm-anime 本仓库是动画算法与数据结构的网页源码

本支持页面包含《动画算法与数据结构》一书中创建的符号、动画和伪代码。有关详细解释，请参阅《动画算法与数据结构》书籍内容。

9、一款开源、全能的下载工具

https://motrix.app/

支持 Windows、macOS、Linux，下载 HTTP、FTP、BT、磁力链接等资源

第14期 - 苹果谷歌大声密谋

Sun, 24 Mar 2024 00:00:00 GMT

苹果据称正在与Google进行讨论，准备将Google的Gemini模型接入到iPhone

1、用Excel 学习 ChatGPT 工作原理
2、LLM Pricing、定价与速度测试
3、学习OpenCv、深度学习和人工智能
4、2024 年最受欢迎 Mac 开源应用程序
5、苹果发布了自己的大语言模型 MM1
6、xAI 的 Grok-1 开源
7、黄仁勋集齐 Transformer 论文七大作者
8、Homebrew GUl
9、微软 AI 程序员 AutoDev 登场
10、苹果与Google大声密谋
11、一个优雅的短链服务:Dub
12、推荐两篇文章:养老金是如何计算?程序员学习CPU及计算机组成原理

1、用Excel 学习 ChatGPT 工作原理

网址：https://spreadsheets-are-all-you-need.ai

用一个Excel 表格来学习 ChatGPT 的工作原理，不用写任何代码，配有三个Youtube 视频，非常形象。

最让人震惊的是它用 Excel 实现了一个简易的 GPT2，可以下载：不过特别大，有 1.25 个G，大家如果感兴趣可以试试看。

Excel 太强大了，干啥都行。

2、LLM Pricing、定价与速度测试

一个监控常用大模型API价格的网站（PS：这个网站使用Claude 3 Sonnet辅助编程完成的）

网址：https://llm-price.com/

有网友测试了各LLM 定价与速度 💰 ，用实验来比较推理成本与速度

任务：文本生成。

实验设置： • 每个模型 10 次运行 • 最大输出令牌1000个 • 计算每次运行的成本 • 计算每秒的令牌数

主要要点： • groq 在成本+速度方面明显获胜 • 集群速度接近 75-150tps，约 0.10 美元

3、学习OpenCV、深度学习和人工智能

🔗 https://github.com/spmallick/learnopencv

👉 该存储库包含计算机视觉、深度学习和人工智能文章的代码。

4、2024 年最受欢迎 Mac 开源应用程序

快来看看有木有你喜欢的网址：https://indiegoodies.com/awesome-open-source-mac-apps

5、苹果发布了自己的大语言模型 MM1

苹果加入战场，发布了自己的大语言模型 MM1，这是一个最高有 30B 规模的多模态 LLM 。

论文关键信息：

图像分辨率、图像编码器的预训练数据和模型大小对性能有显著影响。

视觉-语言连接器的设计相比之下影响较小。

预训练数据的混合比例对于少样本和零样本（zero-shot）性能至关重要。

通过预训练和SFT，MM1模型在多个基准测试中取得了SOTA性能。

MM1模型展现了一些吸引人的特性，如上下文内预测、多图像推理和少样本学习能力。

模型实现方案：

架构组件和数据选择的消融实验：

图像编码器：研究了不同预训练图像编码器的影响，以及图像分辨率和图像标记数量的重要性。

视觉-语言连接器：

探讨了不同类型的视觉-语言连接器（如平均池化、注意力池化和C-Abstractor）对模型性能的影响。预训练数据：使用了图像标题、交错的图像-文本和纯文本数据，研究了这些数据类型及其混合比例对模型性能的影响。

模型构建和预训练：

通过扩大模型规模（从3B到30B参数），包括密集模型和混合专家（mixture-of-experts，简称MoE）变体，构建了一系列性能优越的多模态模型。

在预训练过程中，使用了大规模的多模态数据集，并通过特定的数据混合比例来训练模型。

性能评估和结果：

评估了预训练模型在多个基准测试中的性能，包括图像标题和视觉问答（VQA）任务。通过监督式微调（Supervised Fine-Tuning，简称SFT），在一系列多模态基准测试中取得了有竞争力的性能。

论文地址：https://arxiv.org/pdf/2403.09611.pdf

6、xAI 的 Grok-1 开源

马斯克开放了Grok的架构和权重数据，共 318.24GB ，这个尺寸肯定没法在本地玩了

🌐page: https://x.ai/blog/grok-os 🧬code: https://github.com/xai-org/grok-1 📦model: https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e

为了 Understand the Universe 理念，团队特意把参数设定成了圆周率 314B，这是目前规模最大的开源模型。

Tesla 开放的技术与供应链推动了全球特别是中国 EV 进步，现在 xAI 应该能继续推工国产大模型的创新了。

7、黄仁勋集齐 Transformer 论文七大作者

对话一小时，干货满满

全文：https://mp.weixin.qq.com/s/Vxmlgh_ldJNa5RNwFSHmUA

Transformer模型的出现极大提升了计算机处理语言的能力，对机器翻译、语音识别和文本摘要等任务带来了显著的改进。

这项成果是由八位曾在Google工作的AI科学家共同完成的，他们的初衷是改进谷歌的机器翻译服务。

他们是：

Ashish Vaswani：2016年加入谷歌大脑团队。2022年4月，与Niki Parmar共同创办了Adept AI，同年12月离开该公司，并共同创立了另一家人工智能初创公司Essential AI。

Niki Parmar：在谷歌大脑工作了四年，之后与Ashish Vaswani共同创立了Adept AI和Essential AI。

Jakob Uszkoreit：2008年至2021年在谷歌工作。2021年离开谷歌，并与他人共同创立Inceptive，该公司主营业务为人工智能生命科学，致力于使用神经网络和高通量实验来设计下一代RNA分子。

Illia Polosukhin：2014年加入谷歌，是八人团队中最早离开的人之一，于2017年同他人共同创立了区块链公司NEAR Protocol。

Noam Shazeer：曾于2000年至2009年间和2012年至2021年期间就职于谷歌。2021年，Shazeer离开谷歌并与前谷歌工程师Daniel De Freitas共同创立http://Character.AI。

Llion Jones：曾工作于Delcam、YouTube。2012年加入谷歌，担任软件工程师。后来离开谷歌，创办人工智能初创企业http://sakana.ai。

Lukasz Kaiser：曾任法国国家科学研究中心研究员。2013年加入谷歌。2021年，他离开谷歌，成为OpenAI的研究员。

Aidan Gomez：毕业于加拿大多伦多大学，Transformer论文发表时，他还是谷歌大脑团队的实习生。他是八人团队中第二个离开谷歌的人。2019年，他与他人共同创立了Cohere。

对话过程中，与会者关于Transformer模型的讨论集中在以下几个方面：

1、Transformer的独特价值和创新点：讨论强调了Transformer模型的核心创新——自注意力机制，这一机制使得模型能够高效处理长距离依赖问题，相比传统的RNN和CNN架构，在序列数据处理上更加高效和精确。Transformer的编码器-解码器结构和多头注意力机制在人工智能领域引发了重大变革。

2、模型的实际应用与影响：Transformer模型的应用已经远远超出了最初的预期，它不仅被应用于自然语言处理任务，如文本生成、情感分析和语言翻译，还扩展到了计算机视觉、音频处理等多个领域。这种跨领域的应用证明了Transformer架构的强大和灵活性。

3、对于未来发展的展望：与会者表达了对当前Transformer模型及其变种的局限性的认识，以及对未来发展的期待。他们讨论了需要超越Transformer的新技术，以实现更高效的计算和更强的AI能力。特别是对于规模定律的讨论，即模型性能随着规模的扩大而提升，但同时需要更多的计算资源。

4、计算资源的考量：讨论提到了随着Transformer模型规模的扩大，对计算资源的需求也随之增加。这引发了对于如何更经济高效地使用计算资源的讨论，包括未来可能需要的自适应计算技术，以便在特定问题上合理分配计算资源。

5、对AI和计算未来的哲学思考：对话中还包含了一些关于AI技术和加速计算未来方向的深层次思考，包括计算机技术的发展趋势、AI模型的经济性和规模以及如何通过技术进步解决社会问题。

8、Homebrew GUI

🎉终于有人为 Homebrew 做 GUI 了。

网址：https://github.com/milanvarady/Applite

Applite 免费开源的 mac 程序，旨在简化 Homebrew 安装和管理第三方应用，为非技术用户带来 Homebrew casks 的便利。 🔸一键安装、更新及卸载应用 🔹简洁用户界面（UI） 🔹免费开源 🔹精心挑选的高质量应用合集 🔹兼容现有 Brew 安装环境

9、微软 AI 程序员 AutoDev 登场

微软推出的 Autodev 自动化 AI 驱动开发领域实现了重大创新（号称自主生成代码性能超GPT-4 30%），通过允许用户为 A| 设定复杂目标并在 Docker 容器中实现代码编写、测试等开发活动。

该框架在 Human Evil 数据集上展现了超过 90% 的代码与测试生成成功率。网友热议其对软件开发效率的潜在提升和专业技能保持的挑战，同时对通用人工智能的实际应用、控制和道德问题以及广泛自动化可能带来的社会影响表示深切关注

10、苹果与Google大声密谋

据消息人士称，苹果据称正在与Google进行讨论，准备将Google的Gemini模型接入到iPhone，为iPhone 提供人工智能的技术支持！

两家公司正在积极谈判，以便让苹果获得Google生成式人工智能模型 Gemini 的授权。

11、一个优雅的短链服务：Dub

https://github.com/dubinc/dub

开源免费
支持数据分析
设计和使用体验上都非常极简
Next.js – framework
TypeScript – language
Tailwind – CSS
Upstash – redis
Tinybird – analytics
PlanetScale – database
NextAuth.js – auth
BoxyHQ – SSO/SAML
Turborepo – monorepo
Stripe – payments
Postmark – emails
Vercel – deployments

12、推荐两篇文章：

养老金是如何计算的？

https://fookwood.com/posts/pension-calculation/

程序员学习了解CPU及计算机组成原理必看文章

https://plantegg.github.io/2021/06/01/CPU%E7%9A%84%E5%88%B6%E9%80%A0%E5%92%8C%E6%A6%82%E5%BF%B5/

机器学习周刊

第23期 - 直播卖货的大模型

大模型

Claude 3.5 Sonnet

Google 新发布的 Gemma 2！9B & 27B 的底座！

苹果和 EPFL 联合开源的多模态模型训练框架：4M

OpenAI 开发了一个名为 CriticGPT 的模型

B 站 BiliBili 开源了 Index-1.9B 模型

Qwen2 接上 SD3 Medium 文生图

DeepSeek-Coder-V2：代码和数学能力超越 GPT-4 的开源模型

Google 的 Video-to-Audio 技术

由 Google Imagen 2 模型驱动的字母表生成器

微软开源的一个文本编码器 Glyph-ByT5-v2。

Streamer-Sales：一个直播卖货大模型

蚂蚁开源首个 GraphRAG 框架！

RAG2SQL 开源工具

LlamaIndex 数据处理、RAG、Agentic RAG PPT 和代码

OmniParse：支持多模态的数据结构化的平台

Pipecat：一个可用于构建语音和多模态对话的 AI 开源框架

工具库

ChatTTS 稳定音色/区分男女

ChatTTS 资源大全

Google 字体，1644 个字体提供下载

ColorfulX

非常优雅的 Mac 屏幕窗口管理软件—— Loop

和 GPT 4o 匹敌 世界上最快的语音机器

知识库

Generative AI Handbook：一本人工智能学习手册

解码 RAG：智谱 RAG 技术的探索与实践

生成式 AI 因 Transformer 而存在

全栈 DS / DA 数据分析岗位养成手册

开源免费编程书籍 📚

git cheat sheet

Nginx 完全指南 (第三版)

《李宏毅深度学习教程》LeeDL-Tutorial 130MB

美国本科数学开源教材：微积分，线代，统计

ChatGPT 提示备忘单 V2

轻阅读

第22期 - 国产大模型再开源

大模型

工具库

去除 PDF 加密最简单的方法

知识库

轻阅读

第21期 - 史上最强悍的TTS

大模型

腾讯推出“腾讯元宝”以及“腾讯元器”

谷歌推出 Gemini 1.5 Pro 和 1.5 Flash

工具库

知识库

轻阅读

[GPT 未来将是美国大学的标配](https://openai.com/index/introducing-chatgpt-edu/)

第20期 - GPT原理动画展示

大模型

工具

知识库

轻阅读

第19期 - Openai羞辱Google

大模型

OpenAI 发布了最新大模型 GPT-4o

腾讯开源旗下混元文生图大模型

直接在浏览器本地运行 Phi-3 模型

DeepSeek-V2：尖端开源 MoE 模型！

阿里云发布通义千问 2.5

通义千问 Qwen1.5-110B 超 1000 亿参数

零一万物开源了 yi-1.5 模型

gemma 2b - 10m context 模型的代码实现

小工具

lgm：生成高质量 3d 模型

手绘风 svg 的 react 渲染器

一个免费的开源插画网站

v2ex 被丑头像包围了，丑头像生成器

如何下载视频号视频

高性能的大数据无代码平台：teable

嵌套网页展示搜索结果的产品 globe

一个微信聊天记录导出工具

知识库

推荐阅读：《你好 gpt-4o》

awesome 中文大模型@GitHub

Gemini API Cookbook

和 GPT 4o 匹敌世界上最快的语音机器