李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。

李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。研究人员表示，s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提炼出来的，使用16个英伟达H100 GPU进行了26分钟的训练。

这是官方的报道但是媒体/自媒体的宣传出现了「一丢丢偏差」；结合论文简要说几点最关键的看法帮大家省流，然后还原一下这篇 AI 论文是如何在信息传递的过程中逐渐「被标题党」的。大家可以按需阅读。

点击我跳转查看详情

NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架：ASAP

它可以帮助机器人在模拟环境中学会动作后，能够准确地在真实世界中执行这些动作，这使得以前难以实现的高度灵活的动作成为可能！

该框架通过一个两阶段的过程，使得机器人可以在仿真环境中预先训练，之后将这些训练过的策略应用到真实世界中，并通过进一步的调整实现更加灵活的全身运动。

仿真阶段：在仿真环境中，使用人类的运动数据进行预训练，帮助机器人学习如何模仿这些动作。

现实世界阶段：将预训练的策略部署到实际机器人中，通过收集现实环境中的数据，进一步优化机器人的运动控制，减少仿真与实际执行之间的误差。

通过ASAP框架，研究人员成功地让人形机器人模仿了著名运动员的标志性动作，例如克里斯蒂亚诺·罗纳尔多的“Siuu”庆祝动作、勒布朗·詹姆斯的“Silencer”动作，以及科比·布莱恩特的后仰跳投。（下面视频是向前跳 (0.85米)、科比·布莱恩特的后仰跳投）

ASAP的关键在于通过补偿模型来调整仿真与现实世界的物理差异，从而使机器人能够执行高度敏捷和协调的全身运动。

在过去，机器人在模拟环境中学会的动作，往往在真实世界中执行时会出现偏差。这是因为计算机模拟的环境无法完全再现现实世界的物理特性，导致机器人在现实中无法准确地执行在模拟中学到的动作。ASAP框架通过在真实环境中收集数据并进行调整，成功地弥合了这种差距，使机器人能够在现实世界中准确地执行复杂而灵活的动作。

# Nature：OpenAI 的“深度研究”工具：有用吗？

OpenAI 发布了名为“深度研究”（Deep Research）的工具，这是一款收费工具，旨在帮助科学家和研究人员在短时间内生成长达数页的报告。该工具能够从数十或数百个网站获取信息，并通过自动化合成成一篇引用清晰的文献综述。这项技术类似于Google在2024年12月推出的工具，是一种人工智能助手，能够在几分钟内完成通常需要数小时才能完成的工作。

科学家反馈：

不少科学家对这一工具表示赞赏，认为它能高效地生成文献综述和完整的研究评审，甚至能够识别出某一领域的知识空白。

杰克逊实验室的免疫学家德里亚·乌努特马兹（Derya Unutmaz）在使用OpenAI的深度研究报告后表示，这些报告**“非常令人印象深刻”，“可信赖”**，并且能够与已发表的综述文章相媲美，甚至更好。他认为，写作综述文章可能会变得不再必要。

然而，也有一些科学家持谨慎态度。例如，加利福尼亚湾区环境研究所的数据科学家凯尔·卡巴萨雷斯（Kyle Kabasares）指出：“如果这是人类写的，我会觉得它需要很多改进。”他认为，AI生成的报告虽然有其价值，但并不完美，仍然需要经过大量的人工修改才能达到发表的标准。

Deep Research的技术优势：

OpenAI的深度研究工具结合了o3大语言模型（LLM）在推理方面的能力和互联网搜索引擎的功能，这使得该工具不仅能够理解和总结已有的知识，还能结合最新的互联网信息。与之相比，Google的深度研究工具当前依赖于Gemini 1.5 Pro模型，而非其较为先进的2.0 Flash Thinking推理模型。

Unsloth AI 优化了 R1 核心算法 GRPO

只需要 15G 显存就能在本地将 15B 的模型训练为推理模型，极限情况下 7G 显卡也可以

前几天即使是为 Qwen2.5（1.5B）实现推理也需要 160G 显存而且不是对 R1 蒸馏模型微调，而是将标准模型转化为完整的推理模型

核心技术创新：GRPO算法优化1 Unsloth团队通过Group Relative Policy Optimization(GRPO)算法实现了两大突破：资源效率革命：将训练VRAM需求从160GB(A100x2)降至7GB(T4单卡) 自主推理涌现：模型无需标注思维链数据，通过强化学习自主生成推理过程

DeepSeek 官方提示词网站

DeepSeek 官方提示词网站：https://api-docs.deepseek.com/zh-cn/prompt-library

DeepSeek API不稳定的问题

现在国内几乎很难找到稳定的api，国内厂商大部分我都试了一遍，在高峰期几乎所有厂商都会卡顿。我还在寻找稳定的满血api。

2025-06-04 15:21:09