第07期 - 全球大模型这一年

当顶级商业领袖、顶尖科学家这些人类最聪明的大脑,手握数以千万计的资本狂卷一年,2023 年全球大模型卷出了什么?

目录:

1、《商业访谈录》:全球大模型这一年
2、Gradio 在浏览器直接运行@gradio/lite
3、MotionShop:视频角色替换为 3D 化身
4、GPT-SOVITS: 适用于中文的语音克隆
5、北大学神整理最全面的计算机自学指南
6、腾讯 PhotoMaker 上线:生成多风格肖像
7、AI 墓地:200 多个失败的 AI 工具/服务
8、ant-codeAl: 通过截图、草稿生成代码
9、Phi2-Chinese-0.2B: 训练中文小模型
10、工具推荐 Kap:截屏生成视频/Gif 动图

1、全球大模型这一年

音频:https://www.xiaoyuzhoufm.com/episode/65910adb991e2ee60880f151

文字稿:https://mp.weixin.qq.com/s/lK1HZZE-szWucRA1l986sw

这是《商业访谈录》的跨年特辑,张小珺邀请拾象创始人李广密聊了 2023 年全球大模型领域都发生了哪些天翻地覆的变化,还有对 2024 年大模型市场趋势的预测和猜想。时长 1 个半小时,信息含量巨大。

2、Gradio 在浏览器直接运行

网址:https://www.gradio.app/guides/gradio-lite

Gradio 是用于创建交互式机器学习应用的 Python 库,广受好评。它其实也可以完全在浏览器中运行,依靠的就是 Gradio-Lite:一个利用 Pyodide 在浏览器中直接运行 Gradio 的库。有了 @gradio/lite,可以为 Gradio 应用程序编写常规的 Python 代码,它们将无缝地在浏览器中运行,无需服务器端基础设施。

什么是 @gradio/lite? gradio/lite 是一个 JavaScript 库,可以使开发人员直接在 Web 浏览器中运行 Gradio 应用,它通过 Pyodide 来实现这一能力。Pyodide 是可以将 Python 代码在浏览器环境中解释执行的 WebAssembly 专用 Python 运行时。

3、MotionShop:视频角色替换为 3D 化身

项目及演示:https://aigc3d.github.io/motionshop/

在线体验:https://modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

MotionShop 是阿里巴巴的新项目,将视频中的角色替换为 3D 化身 通过先进的视频处理和 3D 渲染技术,MotionShop 能够高效地将视频中的某个角色替换为 3D 人物,同时不改变视频中的其他场景和人物。 被替换的 3D 人物能完整复刻原视频中人物的动作,保持动作一致。

有网友做了测试,对比了 MotionShop 和 Wonder Studio,看起来还不错。

我也是玩了一下,输入视频限制时长 15 秒以内,可选角色也只有 4 个。就是排队太漫长了,效果与 Wonder Studio 还是有差距的,只能当个平替。

4、GPT-SoVITS:适用于中文的语音克隆

Github: https://github.com/RVC-Boss/GPT-SoVITS

B 站演示视频:https://www.bilibili.com/video/BV12g4y1m7Uw/

B 站 up 花儿不哭(RVC 变声器创始人)发布了自研的低成本 AI 音色克隆软件,他还开源了代码。有评论说是目前中文最佳,支持通过 5 秒音频克隆、1 分钟音频克隆,也支持通过完整训练来克隆。

5、北大学神整理最全面的计算机自学指南

网址:https://www.github.com/PKUFlyingPig/cs-self-learning

电子书:https://csdiy.wiki/

这是一个系统的自学计算机的最优路径,作者是来自北大信科的 PKUFlyingPig。他把自学 CS 的经验和教训,还有受益终身的课程记录下来,详细介绍必学工具、数学基础、软件基础等,由浅入深的带你走入计算机科学领域。

6、腾讯 PhotoMaker 上线:生成多风格肖像

项目网址:https://photo-maker.github.io

Github: https://github.com/TencentARC/PhotoMaker

写实风格的体验网址:https://huggingface.co/spaces/TencentARC/PhotoMaker

其他风格的体验网址:https://huggingface.co/spaces/TencentARC/PhotoMaker-Style

腾讯的 PhotoMaker 发布了源码和体验网址,无需训练 LoRA,保持人脸一致,生成多种风格的肖像。

我简单尝试了一下,它预设了十种风格的模板,最大输出是 4 张图片,GPU 资源有限,失败可能性蛮大的。

另外,它也比较吃 Prompt,可能需要深入摸索,才能生成满意的输出。

7、AI 墓地:200 多个失败的 AI 项目

网址:https://dang.ai/ai-graveyard

这个网站记录了 200 多个已经停止运营的 AI 工具和服务,可以通过详情页页了解这些失败项目的背景、功能和技术实现方式等等。

失败是成功之母,吃(别人)一堑长(自己)一智,从这些失败的项目身上,AI 玩家可以学到很多东西以免多走弯路。

8、ant-codeAI:通过截图、草稿生成前端代码

代码:https://github.com/sparrow-js/ant-codeAI

网址:https://www.ancodeai.com/

ant-codeAI 通过使用 OpenAI、Gemini 技术生成高可用代码,支持 web(React,Vue,Tailwind CSS),native(react native)等代码,使用 GPT-4 Vision 生成,通过截图、绘制草稿、输入创意生成代码。

9、Phi2-Chinese-0.2B:从 0 训练中文小模型

代码:https://github.com/charent/Phi2-mini-Chinese

这个项目完整地介绍了从 0 开始训练自己的 Phi2 中文小模型的全过程(数据清洗、tokenizer 训练、CLM 因果模型预训练、SFT 指令微调、RLHF 优化),开源了代码和模型权重,支持加载本地知识库做检索增强生成 RAG。

10、工具推荐:截屏生成视频/Gif 动图

网址:https://getkap.co

最后推荐一个软件截屏生成视频/Gif 的软件,简洁,免费,开源,高亮点击,操作很方便,还能一键分享到不同的平台