第07期 - 全球大模型这一年

当顶级商业领袖、顶尖科学家这些人类最聪明的大脑，手握数以千万计的资本狂卷一年，2023 年全球大模型卷出了什么？

目录：

1、《商业访谈录》：全球大模型这一年
2、Gradio 在浏览器直接运行@gradio/lite
3、MotionShop:视频角色替换为 3D 化身
4、GPT-SOVITS: 适用于中文的语音克隆
5、北大学神整理最全面的计算机自学指南
6、腾讯 PhotoMaker 上线：生成多风格肖像
7、AI 墓地：200 多个失败的 AI 工具/服务
8、ant-codeAl: 通过截图、草稿生成代码
9、Phi2-Chinese-0.2B: 训练中文小模型
10、工具推荐 Kap:截屏生成视频/Gif 动图

1、全球大模型这一年

音频：https://www.xiaoyuzhoufm.com/episode/65910adb991e2ee60880f151

文字稿：https://mp.weixin.qq.com/s/lK1HZZE-szWucRA1l986sw

这是《商业访谈录》的跨年特辑，张小珺邀请拾象创始人李广密聊了 2023 年全球大模型领域都发生了哪些天翻地覆的变化，还有对 2024 年大模型市场趋势的预测和猜想。时长 1 个半小时，信息含量巨大。

2、Gradio 在浏览器直接运行

网址：https://www.gradio.app/guides/gradio-lite

Gradio 是用于创建交互式机器学习应用的 Python 库，广受好评。它其实也可以完全在浏览器中运行，依靠的就是 Gradio-Lite：一个利用 Pyodide 在浏览器中直接运行 Gradio 的库。有了 @gradio/lite，可以为 Gradio 应用程序编写常规的 Python 代码，它们将无缝地在浏览器中运行，无需服务器端基础设施。

什么是 @gradio/lite？ gradio/lite 是一个 JavaScript 库，可以使开发人员直接在 Web 浏览器中运行 Gradio 应用，它通过 Pyodide 来实现这一能力。Pyodide 是可以将 Python 代码在浏览器环境中解释执行的 WebAssembly 专用 Python 运行时。

3、MotionShop：视频角色替换为 3D 化身

项目及演示：https://aigc3d.github.io/motionshop/

在线体验：https://modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

MotionShop 是阿里巴巴的新项目，将视频中的角色替换为 3D 化身 通过先进的视频处理和 3D 渲染技术，MotionShop 能够高效地将视频中的某个角色替换为 3D 人物，同时不改变视频中的其他场景和人物。 被替换的 3D 人物能完整复刻原视频中人物的动作，保持动作一致。

有网友做了测试，对比了 MotionShop 和 Wonder Studio，看起来还不错。

我也是玩了一下，输入视频限制时长 15 秒以内，可选角色也只有 4 个。就是排队太漫长了，效果与 Wonder Studio 还是有差距的，只能当个平替。

4、GPT-SoVITS：适用于中文的语音克隆

Github: https://github.com/RVC-Boss/GPT-SoVITS

B 站演示视频：https://www.bilibili.com/video/BV12g4y1m7Uw/

B 站 up 花儿不哭（RVC 变声器创始人）发布了自研的低成本 AI 音色克隆软件，他还开源了代码。有评论说是目前中文最佳，支持通过 5 秒音频克隆、1 分钟音频克隆，也支持通过完整训练来克隆。

5、北大学神整理最全面的计算机自学指南

网址：https://www.github.com/PKUFlyingPig/cs-self-learning

电子书：https://csdiy.wiki/

这是一个系统的自学计算机的最优路径，作者是来自北大信科的 PKUFlyingPig。他把自学 CS 的经验和教训，还有受益终身的课程记录下来，详细介绍必学工具、数学基础、软件基础等，由浅入深的带你走入计算机科学领域。

6、腾讯 PhotoMaker 上线：生成多风格肖像

项目网址：https://photo-maker.github.io

Github: https://github.com/TencentARC/PhotoMaker

写实风格的体验网址：https://huggingface.co/spaces/TencentARC/PhotoMaker

其他风格的体验网址：https://huggingface.co/spaces/TencentARC/PhotoMaker-Style

腾讯的 PhotoMaker 发布了源码和体验网址，无需训练 LoRA，保持人脸一致，生成多种风格的肖像。

我简单尝试了一下，它预设了十种风格的模板，最大输出是 4 张图片，GPU 资源有限，失败可能性蛮大的。

另外，它也比较吃 Prompt，可能需要深入摸索，才能生成满意的输出。

7、AI 墓地：200 多个失败的 AI 项目

网址：https://dang.ai/ai-graveyard

这个网站记录了 200 多个已经停止运营的 AI 工具和服务，可以通过详情页页了解这些失败项目的背景、功能和技术实现方式等等。

失败是成功之母，吃（别人）一堑长（自己）一智，从这些失败的项目身上，AI 玩家可以学到很多东西以免多走弯路。

8、ant-codeAI：通过截图、草稿生成前端代码

代码:https://github.com/sparrow-js/ant-codeAI

网址：https://www.ancodeai.com/

ant-codeAI 通过使用 OpenAI、Gemini 技术生成高可用代码，支持 web（React，Vue，Tailwind CSS），native（react native）等代码，使用 GPT-4 Vision 生成，通过截图、绘制草稿、输入创意生成代码。

9、Phi2-Chinese-0.2B：从 0 训练中文小模型

代码：https://github.com/charent/Phi2-mini-Chinese

这个项目完整地介绍了从 0 开始训练自己的 Phi2 中文小模型的全过程（数据清洗、tokenizer 训练、CLM 因果模型预训练、SFT 指令微调、RLHF 优化），开源了代码和模型权重，支持加载本地知识库做检索增强生成 RAG。

10、工具推荐：截屏生成视频/Gif 动图

网址：https://getkap.co

最后推荐一个软件截屏生成视频/Gif 的软件，简洁，免费，开源，高亮点击，操作很方便，还能一键分享到不同的平台

喜欢周刊 → 投喂一杯咖啡☕️