第23期 - 直播卖货的大模型

谷歌这个项目可根据提示词创造各种字母形式,然后用它来书写各种内容

[TOC]

大模型

Claude 3.5 Sonnet

Anthropic 发布 3.5 系列首个模型:Claude 3.5 Sonnet,这也是 Anthropic 目前最强大模型!

朋友们用起来😎(最近风好严重,老章也惨遭封号😂):https://claude.ai

Google 新发布的 Gemma 2!9B & 27B 的底座!

Google 发布其开源模型 Gemma 2

  • 全新的架构设计 性能大幅提升
  • Gemma 2 拥有 9B 和 27B 参数规模,相比第一代模型在推理效率和安全性上有显著提升。
  • 27B 的 Gemma 2 在同等规模模型中表现最佳,甚至可与体积两倍的模型竞争。
  • 优化在各种硬件上高速运行,从高端桌面、游戏笔记本和云端设置上都能实现高效运行。

模型http://huggingface.co/google
报告https://ai.google.dev/gemma
试玩https://huggingface.co/spaces/huggingface-projects/gemma-2-9b-it

苹果和 EPFL 联合开源的多模态模型训练框架:4M

苹果和 EPFL 联合开源的多模态模型训练框架,业界良心,含金量巨高!支持数十种模态和任务,读图能力支持表面法线、深度图、图片分割、物体检测、图片描述。画图能力支持线框补图、画深度图和表面法线、基于深度图和区域修改图片。支持微调来适配新类型的任务

项目地址https://4m.epfl.ch 在线体验https://huggingface.co/spaces/EPFL-VILAB/4M Githubhttps://github.com/apple/ml-4m 论文https://arxiv.org/abs/2406.09406

OpenAI 开发了一个名为 CriticGPT 的模型

CriticGPT,一种基于 GPT-4 训练优化的模型,专门用于来发现 ChatGPT 中的代码错误。

通过与人类合作 CriticGPT 能够显著减少模型幻觉,同时保持高效的错误检测能力。

当前的 LLM 模型如 ChatGPT 等,在生成复杂代码时,即使是经验丰富的专家也难以可靠地评估其输出的质量和正确性。CriticGPT 通过训练模型生成自然语言评论,帮助人类更准确地评估代码,从而弥补了人类评估的局限性。

研究发现,在 CriticGPT 的帮助下,人们审查 ChatGPT 代码的表现比没有帮助时高出 60%。

B 站 BiliBili 开源了 Index-1.9B 模型

Index-1.9B 系列是 Index 系列模型中的轻量版本

1.9B 包含: Index-1.9B base : 基座模型,具有 19 亿 非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先
Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对 benchmark 的影响
Index-1.9B chat : 基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型,由于预训练中引入了较多互联网社区语料,聊天的趣味性明显更强
Index-1.9B character : 在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 角色扮演定制

模型: github: https://github.com/bilibili/Index-1.9B?tab=readme-ov-file
Index-1.9B-Chat: https://huggingface.co/IndexTeam/Index-1.9B-Chat
IndexTeam/Index-1.9B-Character: https://huggingface.co/IndexTeam/Index-1.9B-Character
IndexTeam/Index-1.9B: https://huggingface.co/IndexTeam/Index-1.9B
IndexTeam/Index-1.9B-Pure: https://huggingface.co/IndexTeam/Index-1.9B-Pure

Qwen2 接上 SD3 Medium 文生图

支持中文输入,会自动优化并输出英文提示词

工作流https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

Qwen2 插件https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2

DeepSeek-Coder-V2:代码和数学能力超越 GPT-4 的开源模型

DeepSeek-Coder-V2:首个开源模型在编码和数学方面超越 GPT4-Turbo

在编码和数学方面表现出色,超越 GPT4-Turbo、Claude3-Opus、Gemini-1.5Pro、Codestral。 支持 338 种编程语言,上下文长度为 128K。 全面开源,提供两种尺寸:230B(也提供 API 访问)和 16B。

输出性能达 5000-10000 token/s,百万输出 Token 2 元,对标 Mistral 的代码模型 Codestral,DeepSeek 开源具备顶尖代码和数学推理能力的 DeepSeek Coder V2

开放论文,模型和代码,支持 236B 和 16B,支持微调并开放 API 服务

项目地址https://github.com/deepseek-ai/DeepSeek-Coder-V2

Google 的 Video-to-Audio 技术

视频生成模型正在以惊人的速度发展,但许多当前系统只能生成无声输出。让生成的电影栩栩如生的下一个重要步骤之一是为这些无声视频创建配乐。

谷歌分享了视频转音频 (V2A) 技术的进展,该技术使同步视听生成成为可能。V2A 将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的音景。

详情https://deepmind.google/discover/blog/generating-audio-for-video/

由 Google Imagen 2 模型驱动的字母表生成器

谷歌这个项目可根据提示词创造各种字母形式,然后用它来书写各种内容 非常适合制作标题或封面艺术!

传送门 : https://labs.google/gentype

我也生成了一个:章北海

水果主题

海洋主题

微软开源的一个文本编码器 Glyph-ByT5-v2。

支持使用十多种语言生成图片。

还搭配了一个使用这个文本编码器的 SDXL 模型,可以直接生成中文海报和内容。

从演示来看排版都挺好的。

  1. 创建了一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,覆盖另外九种语言;

  2. 构建了一个多语言视觉段落基准数据集,包括 1000 个提示,每种语言 100 个,用于评估多语言视觉拼写准确性;

  3. 采用最新的步进感知偏好学习方法,提高了视觉美学质量。

模型下载https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

可以在这个 huggingface 空间里面体验,支持通过画框进行自定义排版。

https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2

Streamer-Sales:一个直播卖货大模型

能自动卖货 同时实时回答客户任何问题😂

它能根据商品特点自动生成吸引用户的解说文案,支持将语音输入转换为文字,便于主播在直播过程中与观众互动。

同时还能生成带有情感的语音输出,使解说更加生动自然。还能一键生成数字人。

甚至支持 Agent 通过网络查询快递信息。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在线体验:https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

蚂蚁开源首个 GraphRAG 框架!

构建生产级别的 AI Native Agent 应用!支持图可视化和详细示例代码!

  • 继承 DB-GPT 的知识图谱、向量库、图数据库等基础能力实现
  • 数据处理:提供三元组抽取、Cypher 插入、TuGraph 存储
  • 数据查询与生成:查询关键词抽取,图相似度匹配

项目地址https://github.com/eosphoros-ai/DB-GPT

RAG2SQL 开源工具

8K Stars!Text2SQL 还不够?试试更精准的 RAG2SQL 开源工具

官网:https://vanna.ai
Github: https://github.com/vanna-ai/vanna

LlamaIndex 数据处理、RAG、Agentic RAG PPT 和代码

LlamaIndex 团队在 @databricks 举办的 @Data_AI_Summit 数据 AI 峰会上分享了如何构建能够处理复杂文档的高级 RAG 应用💥⚡️,几乎涵盖了目前数据处理、RAG、Agentic RAG 等顶级前沿的理念并开放了 PPT 和代码!👍

PPT: https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/edit?usp=sharing

OmniParse:支持多模态的数据结构化的平台

输入文档、表格、视频、音频、网页等数据,OmniParse 可以把数据清洗成结构化的数据,然后可以用于微调和 RAG。

Githubhttps://github.com/adithya-s-k/omniparse

Pipecat:一个可用于构建语音和多模态对话的 AI 开源框架

你可以用它来创建私人教练、会议助手、儿童故事讲述玩具、客服机器人等 AI 语音助手。

GitHubhttps://github.com/pipecat-ai/pipecat

工具库

ChatTTS 稳定音色/区分男女

基于 ChatTTS 的 2000 条音色库 稳定性打分🥇 区分男女年龄👧 支持在线试听🎶

https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker/summary

ChatTTS 资源大全

包括音色,赚钱方法,各种 WebUI 和 API 等。 https://github.com/panyanyany/Awesome-ChatTTS

一个开源的图片去水印解决方案:Watermark-Removal。

项目基于机器学习的图像修复方法,自动去除图片水印。经处理后的图片,与原图几乎一致。

GitHub: https://github.com/zuruoke/watermark-removal

一个开源的图片去水印解决方案:Watermark-Removal。

项目基于机器学习的图像修复方法,自动去除图片水印。经处理后的图片,与原图几乎一致。GitHub:https://github.com/zuruoke/watermark-removal

Google 字体,1644 个字体提供下载

👉 https://fonts.google.com

https://cult-ui.com 一些开箱即用的好看的组件,动画都给写好了 😃

ColorfulX

ColorfulX 是一个使用 Metal 实现的工具,用于创建多色渐变。 https://github.com/Lakr233/ColorfulX

非常优雅的 Mac 屏幕窗口管理软件—— Loop

Loop 是一款 macOS 应用程序,可帮助您简化窗口管理!您可以使用通过简单按键触发的径向菜单轻松选择窗口方向,并根据您的喜好使用个性化的颜色和设置进行自定义。只需单击几下,您就可以轻松移动窗口、调整窗口大小和排列窗口,从而节省您宝贵的时间和精力。

brew install mrkai77/cask/loop 即可安装

浅浅的试了一下,按下一个键,之后根据鼠标的方向去放置窗口的逻辑非常优雅

默认的修饰键是左下角的🌐键,用外接键盘可能就得修改了

如果有学习 SwiftUI 开发的朋友,感觉 Loop 这个软件的代码可能是个不错的学习资源:https://github.com/MrKai77/Loop

和 GPT 4o 匹敌 世界上最快的语音机器

能实现 500 毫秒的语音到语音响应 接近人类对话的自然速度

为达到这种低延迟,开发团队优化了网络架构、AI 模型性能和语音处理逻辑。

使用 WebRTC 网络发送音频,部署了 Deepgram 的快速转录和语音生成模型,并将所有 AI 模型在 Cerebrium 的容器中自托管,以减少延迟。

在线体验:https://fastvoiceagent.cerebrium.ai

知识库

Generative AI Handbook:一本人工智能学习手册

手册分为九个主要部分,每个部分包含若干章节,覆盖了 AI 的不同方面。

包含了从基础知识到最新技术的全面内容,通过系统化的学习路径,帮助读者理解和应用 AI 技术。

无论你是想要学习如何使用现有的 AI 工具,还是希望深入研究 AI 的原理,这本手册都能提供有价值的指导。

传送门:https://genai-handbook.github.io

解码 RAG:智谱 RAG 技术的探索与实践

智谱 AI 长期致力于大模型技术的研究,近期将重点应用于企业服务场景。RAG 技术由三个步骤组成:索引(Indexing)、检索(Retrieval)和生成(Generation),旨在解决模型幻觉和知识更新不及时的问题。相比传统 FAQ 或搜索方法,RAG 能显著降低实施成本,并提供答案的具体来源追溯。智谱 AI 组建了专业团队,致力于打造企业服务场景的 RAG 系统,提供全面支持与服务。

文章详细介绍了 RAG 的技术和产品方案,包括文件上传的工程策略、知识运营和管理工具的提供,以及在知识问答过程中增强用户信任的功能。在智能客服实践中,RAG 技术解决了传统技术面临的知识整理成本高、复用性差、更新频繁、知识晦涩难懂等问题,并提高了用户体验。智谱 AI 通过“ChatGLM 大模型 + RAG”方案,提升了召回率和答案生成的质量,通过分阶段微调和 DPO(Decision-making Preference Optimization)技术,将正确率提升到 90% 以上。

最后,文章强调了评测在模型训练中的重要性,并提出了评测数据集构建的原则。展望未来,RAG 技术将在更多领域得到应用,并与其它 AI 技术相结合。

文章链接:https://bestblogs.dev/article/b202f2

生成式 AI 因 Transformer 而存在

一篇“旧”文,可称为对生成式 AI 工作原理讲解最生动、最容易理解的文章,没有之一。

https://ig.ft.com/generative-ai/

全栈 DS / DA 数据分析岗位养成手册

来自一名哥大数据科学的学生 Jace 整理的,很适合数据分析科学入门学习使用,结合了不少国内的案例来分析学习。 🤖 https://jace-yang.github.io/Full-Stack_Data-Analyst/intro.html

开源免费编程书籍 📚

起源于 Stackoverflow 的一个 QA,后开发者迁移至 Github,现在由 Free Ebook Foundation 管理维护。

提供以下免费学习资源:

  • 电子书
  • 快捷参考表
  • 免费在线课程
  • 互动编程资源
  • 问题集和编程竞赛
  • 播客录制视频
  • 编程实战体验

不同学习资源提供中英文等多种语言选项,不过体验看英文资源是最丰富的,中文相对少一些,建议大家直接学习英文资源。

Github repo: https://github.com/EbookFoundation/free-programming-books

git cheat sheet

Nginx 完全指南 (第三版)

O’Reilly 出品的《Nginx 完全指南 (第三版)》PDF 格式

https://disk.locklauncher.com/files/6670ef27e985f/NGINX-Cookbook-V3.pdf

《李宏毅深度学习教程》LeeDL-Tutorial 130MB

PDF 下载地址:https://github.com/datawhalechina/leedl-tutorial/releases

美国本科数学开源教材:微积分,线代,统计

https://openstax.org/subjects/math

ChatGPT 提示备忘单 V2

SaaS 的 10 种商业模式(变现方式)

  1. Limited features to paid users: 付费后解锁更多高级功能,例如 Ghost、Whimsical、Notion 都属于此类。

  2. Subscription-based membership: 订阅制,订阅后可以使用所有功能,这里的订阅制跟第 1 条的付费模式不同,更像是 Adobe 系列软件的模式,没有免费版,只有一定时间的 trial。

  3. Pay per feature: 一个功能点付一次钱,偏游戏类产品用得比较多,比如玩家付费解锁特殊角色。

  4. Ads: 联盟广告,例如 Google AdSense 或原生广告,博客里也可以用这种方式。

  5. Sponsorships: 常见于开源项目,当一个项目有很多人使用时,GitHub 上的 Star、Fork 数很高,可以主动开通赞助,把赞助方的 Logo 放到页面上。

  6. Patronage: 打赏获得福利,例如 Patreon 上的项目。

  7. Community model: 让用户对社区产生粘性因此付费,例如 Pieter Levels 的 Nomad List 以及付费社群。

  8. Job boards: 与 2B 公司合作,帮助刊登工作广告,做代招聘服务。

  9. Productizing an agency into SaaS: 帮助其他人做 SaaS 服务时延伸出来的小项目,最终变成主打产品。例如 Typeform 原先是创始人 David Okuniev 为了某家马桶公司展览需要而建立的表单工具。

  10. Conditional Payments: 这种变现方式非常特别,例如 Pieter Levels 的“Go fucking do it”网站,你可以对一个任务设置罚款金额与截止期限,如果你没在截止期限完成任务的话,会被收取罚款金额给网站提供方 Pieter Levels。

轻阅读

优秀的人都有一个共同特质:靠谱。靠谱的人,做事让人放心。做事有结果,凡事有交代,件件有着落,事事有回音。这是职场人优秀的品质,一个靠谱的人会收获更多的信赖,如果再加上你会来事、情商高,在职场的道路会一帆风顺。

“有的信息一天之后就是垃圾,有的信息一周之后就是垃圾,有的信息一年之后就是垃圾,只有少数信息是你一辈子都能用上的。年轻时把时间花在获取哪类信息上,对人生道路会有直接影响。”

可视化方式,从 0 到 1 掌握傅立叶

从回顾与圆相关的数学概念开始,包括正弦和余弦等三角函数。我们还将讨论欧拉恒等式,介绍正弦波(以及复正弦波)的概念,最后,我们将介绍傅里叶级数的概念。

download (1)

使用 Vectorize 在 160 行代码内构建一个超乎寻常的搜索引擎

以 Python 语言讲解无所不在的神经网络基础知识,关键概念的解释和示例程序都保持在非常基础的本科,甚至“高中”水平

27 岁老前端 Run 到袋鼠🦘国的第 206 天,他的分享太实用了!

电子发票提取 Excel