第21期 - 史上最强悍的TTS

OpenAI 推出了 GPT-4o 模型，并将 GPTs 等高级工具免费提供给 ChatGPT 用户。

Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录：

大模型

huggingchat 新功能
腾讯推出“腾讯元宝”以及“腾讯元器”
Mistral AI 发布了精通 80 多种编程语言的模型 Codestral
谷歌推出 Gemini 1.5 Pro 和 1.5 Flash

工具库

ChatTTS：专门为对话场景设计的文本到语音 TTS 模型
ChatGPT iOS App UI - Free Figma Template
AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine

知识库

39 万 star 🌟的开源仓库学习编程
基于 llm.c 复现了 124M 参数的 GPT-4

轻阅读

Today’s AI Isn’t Sentient
去年 OpenAI 董事会开除 Sam Altman 的内幕
长视频：我为什么从特斯拉辞职
从一年构建大型语言模型中学到的东西
GPT 未来将是美国大学的标配

大模型

huggingchat 新功能

huggingchat 现在支持工具调用了，目前共 6 个工具： · web search 网页搜索：查询网络并在检索到的内容上执行与用户查询相关的 rag · url fetcher url 获取器：从给定的 url 获取文本内容 · document parser 文档解析器：解析 pdf、文本、csv、json 等格式的内容 · image generation 图像生成：根据给定的文本提示生成图像 · image editing 图像编辑：根据给定的文本提示编辑图像 · calculator 计算器：一个简单的计算器，用于评估数学表达式

腾讯推出“腾讯元宝”以及“腾讯元器”

元器是制作元宝智能体的工具。

元器：https://yuanqi.tencent.com

元宝：https://yuanbao.tencent.com

Mistral AI 发布了精通 80 多种编程语言的模型 Codestral

模型大小为 22B
上下文长度为 32K
模型无法商用
在 RepoBench、Spider、FIM 基础测试上表现都很好

谷歌推出 Gemini 1.5 Pro 和 1.5 Flash

提供更高的请求限制，并支持自定义模型调整。Gemini 1.5 Flash 针对高容量任务优化，现已提升到每分钟 1000 个请求且取消每日请求限制。还引入了 JSON schema 模式、移动端支持和 Google AI Studio 的浅色模式。

Gemini 1.5 Flash and 1.5 Pro stable release and billing
Higher rate limits on Gemini 1.5 Flash
Gemini 1.5 Flash tuning
JSON schema mode
Mobile support and light mode in Google AI Studio

工具库

ChatTTS：专门为对话场景设计的文本到语音 TTS 模型

该模型经过超过 10 万小时的训练，公开版本在 HuggingFace 上提供了一个 4 万小时预训练的模型。

专为对话任务优化，能够支持多种说话人语音，中英文混合等。

模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。

ChatTTS 官网上线了，直接可以在线体验了

传送门：http://ChatTTS.com

另外还有人做了一个 ChatTTS Web UI，自己可以部署

ChatTTS Web UI: https://github.com/jianchang512/ChatTTS-ui

ChatGPT iOS App UI - Free Figma Template

AI 开源搜索引擎：Perplexity-Inspired LLM Answer Engine

受 Perplexity 启发的 LLM 搜索引擎开源项目，使用到的主要 API 包括：

LLM API: Groq, Mixtral
Embeddings: OpenAI Embeddings
LLM 框架：Langchain.JS
搜索服务：Brave Search, Serper API

关于搜索服务： · Brave Search：一个主动隐私安全的浏览服务，用于数据搜索和溯源 https://search.brave.com · Serper API：Google Search API，用于视频和图像的搜索 https://serper.dev

知识库

39 万 star🌟的开源仓库学习编程

FreeCodeCamp 是一个非盈利社区，提供了一个开源的编程学习平台，帮助用户免费学习编程。

FFC 很适合自学编程的人，你可以在这里学习包括网页设计、JavaScript、前端库、数据可视化、后端开发等多个认证课程。

基于 llm.c 复现了 124M 参数的 GPT-4

仅需 20 美刀💰和 90 分钟，前 OpenAI 创始成员 @karpathy 基于 llm.c 复现了 124M 参数的 GPT-4，并公布了如何在 A100 上从零开始复现运行的全部细节🥳👍

苹果公布了 2024 年“苹果设计大奖”入围作品

轻阅读

一位国内的 Python 开发者与一位诺贝尔经济学奖获得者的奇缘

作者在 34 岁生日之际收到一封来自 2018 年诺贝尔经济学奖得主的邮件，邀请他见面。邮件中，这位经济学家表达了对作者开发的 Python 项目 PDM 的欣赏，并希望与作者交流 Python 学习和开发经验。作者起初怀疑邮件的真实性，但经过核实后确认了对方的身份。见面之前，经济学家还发了一封长信介绍自己的背景和计划要谈的话题，展现出谦恭的态度，让作者感到敬佩。

见面后，两人就 Python 初学者环境搭建、密钥管理和数字签名工具、Jupyter Notebook 在研究论文中的应用等话题进行了深入交流。经济学家对开源非常支持，并认为 Python 初学者仍然是一个庞大的群体，PEP 582 提案的拒绝令人遗憾。作者邀请经济学家到 PyCon China 做演讲，分享 Python 新手教学经验。

这次见面让作者感到荣幸和鼓舞，这是他第一次靠自己的工作和成就获得外界的认可，也是对他多年来 Python 学习和开发努力的肯定。

Today’s AI Isn’t Sentient

李飞飞近日和 Etchemendy（斯坦福哲学教授，曾任斯坦福大学教务长）在《时代（Time）》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》，明确指出当前技术路线无法制造有感知能力的 AI。

通用智能的一个重要特征是“感知力”，即拥有主观体验的能力——能够感受，比如说，饥饿的感觉，品尝苹果的味道，或者看到红色。感知力是通往通用智能的道路上的关键一步。

大型语言模型（LLM）是一个在硅芯片上编码的数学模型。它不是像人类一样的有形的生物。它没有像人类一样的“生命”，不需要吃喝，繁殖，体验情感，生病，最终死亡。

理解人类生成词语序列和 LLM 生成相同序列之间的本质区别非常重要。当我说“我饿了”时，我是在报告我感知到的生理状态。当一个 LLM 生成“我饿了”这个序列时，它只是在生成当前提示中词语序列最可能的完成方式。它所做的事情与它在不同的提示下生成“我不饿了”或“月亮是由绿奶酪做的”完全一样。这些都不是它（不存在的）生理状态的报告，只是概率上的完成方式。

我们还没有实现有感知的 AI，更大的语言模型也不会让我们实现。如果我们想在 AI 系统中再现这种现象，我们需要更好地理解感知如何在有形的生物系统中出现。我们不会在 ChatGPT 的下一代迭代中偶然发现感知。

去年 openai 董事会开除 sam altman 的内幕

去年 openai 董事会开除 sam altman，公告里说：他（sam) 在与董事会的沟通中并不始终坦诚

openai 前独立董事 helen toner 终于打破沉默，公开说明了这句话到底是指什么

这里是短视频，toner 说了几个例子： https://x.com/bilawalsidhu/status/1795534345345618298

我为什么从特斯拉辞职

离职原因：

失去激情： 在公司工作七年，做着重复性的工作，失去了工作的激情。
股票大涨后的心态变化： 2019 年前入职的员工，经历了特斯拉股票的大涨，心态发生了变化，变得求稳，不再追求升职。
两次严重车祸： 两年内经历了两次严重车祸，虽然没有受伤，但心理受到了很大的冲击，让他重新思考人生的意义。
人生目标不是财富最大化： up 主认为舒适的心理状态、安全边际和寻找幸福才是他现阶段的人生目标。

从一年构建大型语言模型中学到的东西

文章从操作的角度探讨了构建 LLM 应用的长期战略考虑，并将其分为数据、模型、产品和人员四个部分。

[GPT 未来将是美国大学的标配](https://openai.com/index/introducing-chatgpt-edu/)

OpenAI 计划推出了 ChatGPT Edu，这是为大学量身定制的 ChatGPT 版本。它旨在将 AI 负责任地整合到校园中，提供高级功能，如数据分析、编码和文档总结。ChatGPT Edu 包括企业级安全性，支持 50 多种语言，并提供更高的消息限制。此举旨在增强教育和运营框架，使学生、教职员工和研究人员更容易获得 AI 技术。

喜欢周刊 → 投喂一杯咖啡☕️

第21期 - 史上最强悍的TTS X

大模型

腾讯推出“腾讯元宝”以及“腾讯元器”

谷歌推出 Gemini 1.5 Pro 和 1.5 Flash

工具库

知识库

轻阅读

[GPT 未来将是美国大学的标配](https://openai.com/index/introducing-chatgpt-edu/)

第21期 - 史上最强悍的TTS