第07期 - 全球大模型这一年
当顶级商业领袖、顶尖科学家这些人类最聪明的大脑,手握数以千万计的资本狂卷一年,2023 年全球大模型卷出了什么?
目录:
1、《商业访谈录》:全球大模型这一年
2、Gradio 在浏览器直接运行@gradio/lite
3、MotionShop:视频角色替换为 3D 化身
4、GPT-SOVITS: 适用于中文的语音克隆
5、北大学神整理最全面的计算机自学指南
6、腾讯 PhotoMaker 上线:生成多风格肖像
7、AI 墓地:200 多个失败的 AI 工具/服务
8、ant-codeAl: 通过截图、草稿生成代码
9、Phi2-Chinese-0.2B: 训练中文小模型
10、工具推荐 Kap:截屏生成视频/Gif 动图
1、全球大模型这一年
音频:https://www.xiaoyuzhoufm.com/episode/65910adb991e2ee60880f151
文字稿:https://mp.weixin.qq.com/s/lK1HZZE-szWucRA1l986sw
这是《商业访谈录》的跨年特辑,张小珺邀请拾象创始人李广密聊了 2023 年全球大模型领域都发生了哪些天翻地覆的变化,还有对 2024 年大模型市场趋势的预测和猜想。时长 1 个半小时,信息含量巨大。
2、Gradio 在浏览器直接运行
网址:https://www.gradio.app/guides/gradio-lite
Gradio 是用于创建交互式机器学习应用的 Python 库,广受好评。它其实也可以完全在浏览器中运行,依靠的就是 Gradio-Lite:一个利用 Pyodide 在浏览器中直接运行 Gradio 的库。有了 @gradio/lite,可以为 Gradio 应用程序编写常规的 Python 代码,它们将无缝地在浏览器中运行,无需服务器端基础设施。
什么是 @gradio/lite?
gradio/lite
是一个 JavaScript 库,可以使开发人员直接在 Web 浏览器中运行 Gradio 应用,它通过 Pyodide 来实现这一能力。Pyodide 是可以将 Python 代码在浏览器环境中解释执行的 WebAssembly 专用 Python 运行时。
3、MotionShop:视频角色替换为 3D 化身
项目及演示:https://aigc3d.github.io/motionshop/
在线体验:https://modelscope.cn/studios/Damo_XR_Lab/motionshop/summary
MotionShop 是阿里巴巴的新项目,将视频中的角色替换为 3D 化身 通过先进的视频处理和 3D 渲染技术,MotionShop 能够高效地将视频中的某个角色替换为 3D 人物,同时不改变视频中的其他场景和人物。 被替换的 3D 人物能完整复刻原视频中人物的动作,保持动作一致。
有网友做了测试,对比了 MotionShop 和 Wonder Studio,看起来还不错。
我也是玩了一下,输入视频限制时长 15 秒以内,可选角色也只有 4 个。就是排队太漫长了,效果与 Wonder Studio 还是有差距的,只能当个平替。
4、GPT-SoVITS:适用于中文的语音克隆
Github: https://github.com/RVC-Boss/GPT-SoVITS
B 站演示视频:https://www.bilibili.com/video/BV12g4y1m7Uw/
B 站 up 花儿不哭(RVC 变声器创始人)发布了自研的低成本 AI 音色克隆软件,他还开源了代码。有评论说是目前中文最佳,支持通过 5 秒音频克隆、1 分钟音频克隆,也支持通过完整训练来克隆。
5、北大学神整理最全面的计算机自学指南
网址:https://www.github.com/PKUFlyingPig/cs-self-learning
这是一个系统的自学计算机的最优路径,作者是来自北大信科的 PKUFlyingPig。他把自学 CS 的经验和教训,还有受益终身的课程记录下来,详细介绍必学工具、数学基础、软件基础等,由浅入深的带你走入计算机科学领域。
6、腾讯 PhotoMaker 上线:生成多风格肖像
项目网址:https://photo-maker.github.io
Github: https://github.com/TencentARC/PhotoMaker
写实风格的体验网址:https://huggingface.co/spaces/TencentARC/PhotoMaker
其他风格的体验网址:https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
腾讯的 PhotoMaker 发布了源码和体验网址,无需训练 LoRA,保持人脸一致,生成多种风格的肖像。
我简单尝试了一下,它预设了十种风格的模板,最大输出是 4 张图片,GPU 资源有限,失败可能性蛮大的。
另外,它也比较吃 Prompt,可能需要深入摸索,才能生成满意的输出。
7、AI 墓地:200 多个失败的 AI 项目
网址:https://dang.ai/ai-graveyard
这个网站记录了 200 多个已经停止运营的 AI 工具和服务,可以通过详情页页了解这些失败项目的背景、功能和技术实现方式等等。
失败是成功之母,吃(别人)一堑长(自己)一智,从这些失败的项目身上,AI 玩家可以学到很多东西以免多走弯路。
8、ant-codeAI:通过截图、草稿生成前端代码
代码:https://github.com/sparrow-js/ant-codeAI
ant-codeAI 通过使用 OpenAI、Gemini 技术生成高可用代码,支持 web(React,Vue,Tailwind CSS),native(react native)等代码,使用 GPT-4 Vision 生成,通过截图、绘制草稿、输入创意生成代码。
9、Phi2-Chinese-0.2B:从 0 训练中文小模型
代码:https://github.com/charent/Phi2-mini-Chinese
这个项目完整地介绍了从 0 开始训练自己的 Phi2 中文小模型的全过程(数据清洗、tokenizer 训练、CLM 因果模型预训练、SFT 指令微调、RLHF 优化),开源了代码和模型权重,支持加载本地知识库做检索增强生成 RAG。
10、工具推荐:截屏生成视频/Gif 动图
最后推荐一个软件截屏生成视频/Gif 的软件,简洁,免费,开源,高亮点击,操作很方便,还能一键分享到不同的平台