科技周刊2025第2月第1期
2025-06-04 15:21:09

李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。

李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提炼出来的,使用16个英伟达H100 GPU进行了26分钟的训练。

这是官方的报道但是媒体/自媒体的宣传出现了「一丢丢偏差」;结合论文简要说几点最关键的看法帮大家省流,然后还原一下这篇 AI 论文是如何在信息传递的过程中逐渐「被标题党」的。大家可以按需阅读。

点击我跳转查看详情

NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架:ASAP

它可以帮助机器人在模拟环境中学会动作后,能够准确地在真实世界中执行这些动作,这使得以前难以实现的高度灵活的动作成为可能!

该框架通过一个两阶段的过程,使得机器人可以在仿真环境中预先训练,之后将这些训练过的策略应用到真实世界中,并通过进一步的调整实现更加灵活的全身运动。

仿真阶段:在仿真环境中,使用人类的运动数据进行预训练,帮助机器人学习如何模仿这些动作。

现实世界阶段:将预训练的策略部署到实际机器人中,通过收集现实环境中的数据,进一步优化机器人的运动控制,减少仿真与实际执行之间的误差。

通过ASAP框架,研究人员成功地让人形机器人模仿了著名运动员的标志性动作,例如克里斯蒂亚诺·罗纳尔多的“Siuu”庆祝动作、勒布朗·詹姆斯的“Silencer”动作,以及科比·布莱恩特的后仰跳投。 (下面视频是向前跳 (0.85米)科比·布莱恩特的后仰跳投

ASAP的关键在于通过补偿模型来调整仿真与现实世界的物理差异,从而使机器人能够执行高度敏捷和协调的全身运动。

在过去,机器人在模拟环境中学会的动作,往往在真实世界中执行时会出现偏差。这是因为计算机模拟的环境无法完全再现现实世界的物理特性,导致机器人在现实中无法准确地执行在模拟中学到的动作。ASAP框架通过在真实环境中收集数据并进行调整,成功地弥合了这种差距,使机器人能够在现实世界中准确地执行复杂而灵活的动作。

# Nature:OpenAI 的“深度研究”工具:有用吗?

OpenAI 发布了名为“深度研究”(Deep Research)的工具,这是一款收费工具,旨在帮助科学家和研究人员在短时间内生成长达数页的报告。该工具能够从数十或数百个网站获取信息,并通过自动化合成成一篇引用清晰的文献综述。这项技术类似于Google在2024年12月推出的工具,是一种人工智能助手,能够在几分钟内完成通常需要数小时才能完成的工作。

科学家反馈:

不少科学家对这一工具表示赞赏,认为它能高效地生成文献综述和完整的研究评审,甚至能够识别出某一领域的知识空白。

杰克逊实验室的免疫学家德里亚·乌努特马兹(Derya Unutmaz)在使用OpenAI的深度研究报告后表示,这些报告**“非常令人印象深刻”,“可信赖”**,并且能够与已发表的综述文章相媲美,甚至更好。他认为,写作综述文章可能会变得不再必要。

然而,也有一些科学家持谨慎态度。例如,加利福尼亚湾区环境研究所的数据科学家凯尔·卡巴萨雷斯(Kyle Kabasares)指出:“如果这是人类写的,我会觉得它需要很多改进。”他认为,AI生成的报告虽然有其价值,但并不完美,仍然需要经过大量的人工修改才能达到发表的标准。

Deep Research的技术优势:

OpenAI的深度研究工具结合了o3大语言模型(LLM)在推理方面的能力和互联网搜索引擎的功能,这使得该工具不仅能够理解和总结已有的知识,还能结合最新的互联网信息。与之相比,Google的深度研究工具当前依赖于Gemini 1.5 Pro模型,而非其较为先进的2.0 Flash Thinking推理模型。

Unsloth AI 优化了 R1 核心算法 GRPO

只需要 15G 显存就能在本地将 15B 的模型训练为推理模型,极限情况下 7G 显卡也可以

前几天即使是为 Qwen2.5(1.5B)实现推理也需要 160G 显存 而且不是对 R1 蒸馏模型微调,而是将标准模型转化为完整的推理模型

核心技术创新:GRPO算法优化1 Unsloth团队通过Group Relative Policy Optimization(GRPO)算法实现了两大突破: 资源效率革命:将训练VRAM需求从160GB(A100x2)降至7GB(T4单卡) 自主推理涌现:模型无需标注思维链数据,通过强化学习自主生成推理过程

image-20250208181443171

image-20250208181535904

DeepSeek 官方提示词网站

DeepSeek 官方提示词网站:https://api-docs.deepseek.com/zh-cn/prompt-library

image-20250208165347210

DeepSeek API不稳定的问题

现在国内几乎很难找到稳定的api,国内厂商大部分我都试了一遍,在高峰期几乎所有厂商都会卡顿。我还在寻找稳定的满血api。

Prev
2025-06-04 15:21:09
Next