科技周刊2025第3月第3期
2025-06-04 15:21:09

DeepSeek-V3/R1 满血版 671B 全参数微调指南:DeepSeek-671B-SFT-Guide。

由中科院和中科闻歌联合推出,包含从训练到推理的完整代码和脚本,以及实践中积累一些经验和结论。

  • 实现了包含 DeepSeek-V3/R1 训练逻辑的 modeling 文件(详见 ./model,根据 Deepseek-V3 论文并结合 Deepseek-V2 的 modeling 文件进行代码逻辑补全);
  • 实现了基于数据并行(DeepSpeed ZeRO)+ 序列并行(SP)的 DeepSeek-V3/R1 671B 满血版全参数微调;
  • 总结了模型训练和部署全流程踩坑经验、遇到的问题及解决方案。

链接:https://github.com/ScienceOne-AI/DeepSeek-671B-SFT-Guide/blob/main/README_zh.md

波士顿动力展示了最新的Atlas机器人的动作能力

波士顿动力公司和RAI Institute合作,利用强化学习和动作捕捉技术,让Atlas能自我学习更自然、更灵活的类人动作。

Atlas通过强化学习来模仿或优化动作,而这些动作是通过捕捉人类或其他模型的动作(动作捕捉技术)获得的。

Gemini又有更新

  1. Canvas,基本上跟openai,claude类似,有Google自己的特色,console窗口,版本控制
  2. Audio overview,这是把NotebookLM的功能放进来了,通过上传文件,生成两个AI主持人聊天,推送给全球免费用户,且“with more languages coming soon”看来不久后可以有中文主持人评论文件了。

Jensen 推出 Newton

这是由 NVIDIA、Google DeepMind 和迪士尼研究公司开发的用于机器人模拟的开源物理引擎。

  • 基于 NVIDIA Warp 构建,它提供 GPU 加速性能并与 MuJoCo 和 Isaac Lab 等框架兼容。
  • 具有可微分物理、多物理模拟的可扩展性以及与 OpenUSD 集成以实现灵活的数据建模。
  • Newton 通过为机器人训练和测试创建逼真的虚拟环境来解决模拟与现实之间的差距。
  • 迪士尼研究公司正在使用 Newton 为下一代娱乐机器人提供动力,其中包括受星球大战启发的 BDX 机器人。

英伟达(Nvidia)正式发布名为Isaac GR00T N1的机器人基础模型

这是一款开源、可定制的预训练人工智能模型,专门用来加速类人机器人(人形机器人)的开发和应用能力。

英伟达的GR00T N1模型实现了机器人推理与技能上的重大突破。通过少量的二次训练数据,我们就能顺利将它部署到NEO Gamma机器人上,让我们距离‘创造出真正能与人类相伴、产生有意义帮助的机器人伙伴’这一目标更进一步。

双系统架构:像人类大脑一样工作 早在一年前,英伟达首次公布GR00T模型时,它的设计理念就明确表示灵感来源于人类大脑的双系统认知架构:

系统1:被称为“快速行动模型”,类似人类的本能反应与直觉,可以迅速做出反应。这套系统使用的是通过人类实际示范动作,以及英伟达自家Omniverse平台生成的虚拟仿真数据训练而成。

系统2:则是更为理性的“慢速思考模型”,由视觉语言模型驱动。它负责观察周围环境、理解人类给出的指令,并仔细思考后制定详细的行动计划。接着,这些计划会交由系统1快速执行,转化为精准、流畅的机器人动作,比如单手或双手抓取物品,以及执行复杂的、多步骤的任务。

开放模型:人人可用、人人可定制 GR00T N1是一个已经预先训练好的通用机器人基础模型,具备基本的类人推理与技能。但开发人员可以根据具体需求,通过额外的二次训练(post-training)来自定义机器人更具体的能力和行为表现,比如家庭整理、办公室工作,甚至更复杂的特殊应用场景。

Krea AI 推出「Video Training」

可以自己上传视频训练属于自己的 AI视频风格模型 使用的是 Wan 2.1 模型,可以学习特定风格、动作或物体。

支持上传图像和视频:图像用于风格学习,视频用于风格+动作学习。

用户可调节训练参数,包括训练步数和触发提示词(trigger prompt)。

训练完成后,可在 Krea Video 中使用生成的风格,支持调整风格强度。

OpenAI 发布新一代语音模型

更拟人 支持情感语气控制和更强大的语音智能代理

  • 准确率远超 Whisper 系列
  • 支持语气、语调控制
  • 低延迟实时语音交互能力
  • 支持风格提示(Prompt)

img

Sider AI 也推出了Deep Research功能

但是和其他家的有一点不一样

它可以自动模拟人类进行研究,访问网络去搜索内容,最重要的是它在搜索内容的同时会自动做笔记,你可以在界面右侧看到它做的笔记内容。左侧是搜索来源。 最重要的是它会在最终给你生成一个可视化的交互式网页。

下面会有演示视频:

  • 它在边查询内容、变撰写的时候会自动做笔记
  • 如果发现有价值的信息,会自动做笔记
  • 在界面右侧给你展示出来 除了笔记,
  • AI 还还会模拟人做 highlight

【实操】我测试了一下测试链接如下:https://sider.ai/share-wisebase/Aw21vvzwFGJQ1e7Si8c5yu?view=1

image-20250321164553669

Prev
2025-06-04 15:21:09
Next