第19期 - Openai羞辱Google

海棠诗社 haitang.app 每一首诗都有简介、注释、翻译、评价

Ai周刊：关注 Python、机器学习、深度学习、大模型等硬核技术

本期目录：

[TOC]

大模型

OpenAI 发布了最新大模型 GPT-4o

OpenAI 直接开放 GPT-4o，能力横跨语音、文本和视觉，免费用户也可以直接用！https://chatgpt.com/

在 API 方面，GPT-4o 的价格是 GPT-4-turbo 的一半，速度却是 GPT-4-turbo 的两倍，速率限制也高 5 倍。

最惊艳的是 OpenAI 在现场的展示，在与 GPT-4o 语音对话过程中，三人随意打断，GPT-4o 反应极快，并且语气相当丰富，像极了在跟人类聊天

腾讯开源旗下混元文生图大模型

腾讯正式公布，旗下混元文生图大模型已完成升级，并对外开源。此次升级的模型采用了与 sora 相同的 dit 架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。这是业界首个中文原生的 dit 架构文生图开源模型，支持中英双语输入及理解，15 亿参数。

项目地址：https://dit.hunyuan.tencent.com

官网排队：https://image.hunyuan.tencent.com

github: https://github.com/tencent/hunyuandit

直接在浏览器本地运行 Phi-3 模型

试玩：https://huggingface.co/spaces/Xenova/experimental-phi3-webgpu

Phi3-WebGPU 正是为在浏览器端本地运行模型的探索：

🗂️ 模型下载约 2.3GB（下载一次并缓存） 🕒 加载模型时间：50 秒 🚀 推理速度：中文约 1.9 tokens/s，英文1.7 tokens/s ⏳ 首 token 返回延迟：20 秒

DeepSeek-V2：尖端开源 MoE 模型！

体验：https://chat.deepseek.com/coder 模型下载：https://huggingface.co/deepseek-ai

🌟 亮点：

在 AlignBench 中排名前 3，超过 GPT-4，接近 GPT-4-Turbo。在 MT-Bench 中排名顶级，可与 LLaMA3-70B 相媲美，并优于 Mixtral 8x22B。专攻数学、代码和推理。支持 128K 上下文窗口。

✨ 特点：

创新架构，236B 中有 21B 活动参数。无与伦比的 API 定价，同时保持真正的开源和无商业性。

deepseek 较快的速度 + 不错的质量 + 超便宜的价格，这才是大模型作为新一代的基础设施该有的样子~

官方还开了一个仓库，专门收集集成 deepseek 的应用，大家也可以关注下： https://github.com/deepseek-ai/awesome-deepseek-integration

阿里云发布通义千问 2.5

模型的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%。在权威基准 opencompass 上，通义千问 2.5 得分追平 gpt-4 turbo。

通义千问 Qwen1.5-110B 超 1000 亿参数

Qwen1.5-110B 是 Qwen1.5 系列中的新成员，也是该系列首个拥有超过 1000 亿参数的模型。

该模型在基础模型评估中表现出色，与 Meta-Llama3-70B 相媲美，并在聊天模型评估（包括 MT-Bench 和 AlpacaEval 2.0）中表现出色。

模型支持多语言，包括英语、中文、法语、西班牙语等，上下文长度可达 32K 令牌。

模型特性：

•架构：采用 Transformer 解码器架构，具有分组查询注意力（GQA）。 •性能：在标准评估和聊天模型评估中均展现卓越性能。 •多语言支持：支持多种语言，上下文长度可达 32K 令牌。

根据官方公布的评测结果

Qwen1.5-110B 模型的评测结果略略超过 Llama-3-70B 和 Mixtral-8×22B。

Qwen1.5-110B 模型在综合理解（MMLU）、数学推理（GSM8K 和 MATH）方面得分比 Llama-3-70B 略高一点点，是几个模型中最强的。而在复杂推理任务 ARC-C 上则略低于 Mixtral-8×22B 模型。在编程测试 HumanEval 得分则是远超另几个模型，而 MBPP 编程测试上则低于 Mixtral-8×22B 模型。

详细：https://qwenlm.github.io/blog/qwen1.5-110b/

零一万物开源了 yi-1.5 模型

yi-1.5 有 6b、9b、34b 三个型号，都采用 apache 2.0 许可证。

模型在 4.1 万亿 token 上训练的
在 300 万个指令调优样本上进行了精细调整
34b 型号一些指标超过了 qwen 的 72b
6b 和 9b 型号也成功超越了 mistral 的 7b v0.2 版和 gemma 的 7b 型号

模型下载：https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8

gemma 2b - 10m context 模型的代码实现

infiniattention 论文地址： https://arxiv.org/abs/2404.07143

transformer-xl 论文地址： https://arxiv.org/abs/1901.02860

模型下载地址： https://huggingface.co/mustafaaljadery/gemma-10m-safetensor

github repo: https://github.com/mustafaaljadery/gemma-2b-10m

对大模型上下文能达到 8k => 10m 大幅提升的技术说明：大型语言模型（llms）在内存方面的最大瓶颈是键值（kv）缓存。在传统的多头注意力机制中，它呈二次方增长，因此限制了序列长度的大小。本文的方法按照 infiniattention 所概述的，将注意力分割到局部注意力块中。采用这些局部注意力块，并对局部注意力块应用递归，以获得最终的 10m 上下文全局注意力的结果。许多想法灵感来自于 transformer-xl 论文。

小工具

lgm：生成高质量 3d 模型

支持文字生成模型、图片生成模型，分辨率 512*512，5 秒内即可生成。

在线体验：https://huggingface.co/spaces/ashawkey/lgm

项目地址：https://me.kiui.moe/lgm/

github: https://github.com/3dtopia/lgm

手绘风 svg 的 react 渲染器

想做手绘风格的 ui 几乎没有门槛了🚀推荐用这个渲染手绘风 svg 的 react 渲染器：https://github.com/bowen7/react-rough-fiber

用法很简单，只要把 svg 图片用组件包裹，就能把 svg 转成手绘风格。详细使用文档：https://react-rough-fiber.amind.app

一个免费的开源插画网站

网址：http://opendoodles.com

1.免费丰富的插画，支持在线编辑 2.支持导出 svg、png 等矢量图 3.如果需要更进一步的设计，支持定制服务

很有意思的地方是，作者分享了他做这个产品的初衷，在他刚开始做设计师的时候，周围没有人教，而且没钱买软件，因此不得不盗版软件、偷科技杂志里的光盘，学到了很多酷的平面设计。

现在做了 open doodles，这些插画资源遵循开放设计的理念，允许用户自由地复制、编辑、重新混合、分享或重新绘制，而不受版权或数据库法的限制。

v2ex 被丑头像包围了，丑头像生成器

生成：https://txstc55.github.io/ugly-avatar/
项目：https://github.com/txstc55/ugly-avatar

如何下载视频号视频

方式一： https://www.runningcheese.com/wechat-video-download

方式二： https://github.com/lecepin/WeChatVideoDownloader/releases

方式三： https://github.com/putyy/res-downloader

网络资源嗅探资源下载器，支持：微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载！

高性能的大数据无代码平台：teable

主要特点包括：

📊 表格界面：类似电子表格的操作方式，支持单元格编辑、公式、条件格式、图表等功能。 🗂️ 丰富视图：除了表格视图，还提供看板、日历、画廊、表单、甘特图等多种数据展现方式。 🚀 卓越性能：可以轻松处理数百万数据，支持批量操作，有自动索引优化。 👨‍💻 原生 #SQL 支持：可以使用 SQL 直接查询，兼容 #Metabase、#PowerBI 等 #BI 工具。 🧠 AI Copilot：通过 AI 对话来辅助开发应用、生成图表、调整视图、设置自动化等。 🔒 数据安全：支持数据本地存储，有完善的权限管理。 ⚡️ 实时协作：数据可实时更新，支持协作成员管理。 🧩 可扩展：基于 #React，可以低成本定制和扩展应用。 🤖 流程自动化：可通过 #AI 或可视化方式设计自动化流程。 🗄️ 多数据库支持：兼容 #Sqlite、#PostgreSQL、#MySQL 等数据库。

可以将 Teable 视为 Airtable 的大数据替代品，在保留电子表格式的易用性的同时，还兼具传统数据库的高性能和稳定性，非常适合企业级的数据管理应用开发。

🌐 链接：https://github.com/teableio/teable 🚀 一键部署：https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dteable