这是第八期周刊,每
周五发布!
OpenAI o1 强化微调(RFT)开源方案之字节 ReFT
整个 ReFT 的方法参见下图。
具体的原理见论文,核心是具备了三个 RFT 的关键要素:
- 不依赖人工思维链标注的奖励系统。这是和传统的 RLHF、DPO等方法对比,在数学等领域中,有天然的正例可以作为 PPO 训练的奖励基础,无需人工标注思维链。
- 只需要标注正例答案,ReFT 可自行搜索 CoT 路径(含负例和正例)。 之前 CoT 微调主要靠大量 CoT 数据,这种微调方法我也实践过,缺点有2: 1. 需要合成大量数据,2. 正确路径不止一条,模型仅在单一的正确路径上训练,泛化性较差。参见附图2 ,ReFT 可以搜索到错误和正确的路径,且除多次合成路径外,也增加多数投票、奖励模型重排序方法来提升路径质量。
- 部分正确奖励信号:ReFT将推理正确打分为1,推理失败打分为0,不正确的结果打分为0.1。从而可以缓解稀疏奖励的问题,提升训练稳定性,鼓励模型探索更多的推理路径。这点可能不够精细,o1 号称可以做到分步奖励,但是需要等 RFT 上线后才能知道


Willow:划时代的量子芯片
谷歌推出的新的量子芯片,即将开启下一个时代。两大核心突破:
1)通过提升量子位的数量,可以成倍降低计算的错误率
2)只用5分钟就完成了RCS计算,使用传统的超级计算机则需要10^25年,同时证明了量子计算是发生在平行宇宙里的,而我们也活在多元宇宙中
官方博客:https://blog.google/technology/research/google-willow-quantum-chip/
Nature论文:https://www.nature.com/articles/s41586-024-08449-y
谷歌出量子计算免费课程:https://www.coursera.org/learn/quantum-error-correction
量子计算在计算领域已经超过了传统计算机,但是在实际应用的场景目前还不能超越传统计算机,通过迭代Willow,谷歌表示前景很乐观。

工具分享:将照片转换为可调节的栅格图像
通过 JS 代码将照片转换为可调节的栅格图像。在线代码:https://editor.p5js.org/vjthlk/sketches/fWbxwrifY
Sora终于上线
上线初期体验(收集信息),图生还是不太,文生得狂开盲盒,但是还是可以期待后期迭代的;
OpenAI直播第四天,推出了最新Canvas,类似一个智能的协同文档,可与ChatGPT实时互动和协作!
启动cancas后,它会以侧边栏的方式存在,左侧是聊天界面,右侧是Canvas工作区,用户可以实时编辑,ChatGPT也可以同步编辑,实现写作、编程实时协作
1、Canvas已集成到ChatGPT主要模型中,默认功能 —现在已向4o所有用户开放 —已上线网页版和Windows桌面版
2、支持在Canvas中运行Python代码,并查看输出结果 —支持代码审查、添加注释、错误修复等 —ChatGPT修改代码时,会显示内联差异对比 —可以渲染图形/图表
3、支持在GPTs中集成Canvas功能 —新创建的GPTs,Canvas功能默认开启 —已有的GPTs,需要手动开启
Day5 ChatGPT与Apple的深度合作
Day6 实时视频通话&圣诞老人模式正式上线
MidJourney 发布在线创作工具:Patchwork
用户可以通过“门户”创建新世界,设定世界的主题和风格参考,还可以通过随机化选项或者自己定义个性化设定。
你可以通过它创建角色、派系、地点等虚拟实体,并生成相关的文字或图像,形成一个具有深度的虚拟世界。它不仅适合个人使用,也支持多人协作。
它能做什么?
-
无限画布:
你可以在一个无限大的画布上添加和调整文字和图片。画布上的每个内容片段都可以自由拖动、放大、缩小或删除。
-
生成新世界:
系统会帮你自动生成一个“世界”,包括它的样子、风格和背景故事。如果你有自己的风格想法,可以加入去影响生成结果。
-
创造角色和故事:
你可以快速生成角色,比如名字、背景故事和头像。同样可以添加地点、事件,像写小说一样发展故事。
-
生成图像:
根据描述文字,系统会画出符合设定的图片,比如角色的画像、地点的风景等。还可以修改图片,让它更符合你的想法。
-
分享与保存
1. 创建和管理故事世界
-
实体创建:支持创建各种故事元素,包括角色、派系、地点等。
-
AI 辅助生成:利用人工智能生成角色背景、场景描述、图像等。
-
多样化内容:用户可自定义内容,也可编辑 AI 提供的建议。

2. 可视化与交互
- 画布导航:用户可在画布中自由移动、缩放和摆放内容。

3. 世界之间的连接
- 沙盒模式:用户可以创建沙盒世界,添加门户连接多个虚拟世界。

- 门户功能:通过门户在不同世界间穿梭,探索自己或其他人创建的内容。
Gemini 2.0 Flash:实时音视频对话,编程…
实时音视频对话功能,就像科幻电影照进现实。
视频将带你深入了解Gemini 2.0 Flash的各项新特性、技术突破、实际应用演示,以及与1.5 Pro的性能对比,更有Project Astra、Project Mariner等前沿项目解读。
从代码生成到游戏辅助,从图片生成到深度研究,Gemini 展现了无限可能。
时间戳:
00:00 Gemini 2.0 Flash 整体介绍与性能提升
02:27 实时音视频对话功能演示
11:03 Gemini 教我们打游戏
11:18 Project Astra、Project Mariner 介绍
12:39 图像生成与编辑功能演示
13:19 谷歌代码执行原生工具使用演示
14:33 数据分析代理介绍
15:12 Deep Research 介绍
16:04 编程工具 Jules
BLENDERGPT:20秒生成3D模型
可无缝导入 Blender 只需输入一段文字或提供一张图片描述,它就能在大约 20 秒内创建一个带有纹理的 3D 模型。
可以直接导入 Blender 或下载用在其他 3D 软件中直接使用。
但是精度还不是很高
特斯拉机器人
依靠深度学习做主体预测行为