蚂蚁集团，香港科技大学等出的一款智能交互式图像编辑系统：MagicQuill

它可以实现你想在图片上添加什么，直接用笔划，系统自动猜想并画出来，不满意的地方直接擦掉重来，对不会PS的人非常实用支持多种图像风格，真实风格、奇幻风格、动漫风格等等出图的效果非常好，边缘处理很精细，不会出现明显的痕迹，添加的内容和原图能自然融合，颜色运用的也非常好

武汉大学与字节跳动联合推出 MikuDance：二次元角色动画生成技术

MikuDance 是武汉大学、阶跃星辰、字节联合推出的又一个类似阿里 Animate Anyone 的技术，专注于二次元角色，能轻松将二次元角色根据 Open Pose 姿势生成对应动画。，在在动作还原度和角色特征保持方面效果不错，不过在镜头拉远的时候会明显崩坏。目前只提供了演示，代码即将开源，值得期待。

Midjourney 个性化风格样式「水彩风格」

--sref 1030583812

绘制像素画工具：Resprite

支持 Pad 和手机中绘制像素风格插画，支持 iOS 和 Android 系统平台。

https://resprite.fengeon.com/

Codeium 推出 Windsurf Editor：又一个 Cursor 替代

最强劲的 Cursor 对手登场！Codeium 推出全新 IDE 编辑器 Windsurf，同样基于 VSCode。亮点包括： 1. 支持自动写入多文件，与 Cursor 不相上下。 2. 强大的agentic功能，这块体验甚至优于 Cursor。 3. 引入工具，可运行 Shell（需用户批准）。 Windsurf 是目前最有实力挑战 Cursor 的编辑器之一！

谷歌 Gemini IOS APP 上线：聊天、识图、画图一应俱全

Gemini app 已在 iPhone 上推出，用户可以通过它进行聊天、识图和画图等操作。此外，其最新推出的模型 Gemini (Exp 1114) 现已超越 o1-preview，成为 Chatbot Arena 大模型榜单的第一名！

宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练

宇树科技，开源Unitree G1机器人操作数据集，包括数据采集、学习算法、数据集和模型，并表示将持续更新

实时活动地球模拟

灵感来自 Github 主页展示的实时活动地球模拟，使用 ThreeJS 和 three-globe 库实现，并添加了漂亮的阴影效果。
Live demo https://janarosmonaliev.github.io/github-globe

Github https://github.com/janarosmonaliev/github-globe

Google 正式推出 Gemini AI 驱动的视频演示应用 Vids

通过简单提示即可生成各种类型的视频演示

你只需提供提示或 Google Drive 中的文档，系即可生成一个初始视频故事板，包括推荐的场景、脚本、背景音乐等。 Vids 还支持语音旁白，还包含滚动式提词器，帮助用户在录制过程中自然流畅地呈现信息。此外，用户可以添加自己的视频、屏幕录制和音频录制，以便制作多样化的视频内容。

OpenAI ChatGPT Canvas 即将支持 Python、JS 和 TS 的代码沙盒

ChatGPT Canvas 即将推出代码沙盒环境，将率先支持 Python、Javascript 和 Typescript，从曝光的演示视频来看，现在已经支持直接运行 React 了。

微软推出 VSCode AI Toolkit：集成大模型调试与微调

微软在 VSCode 上推出了 AI Toolkit 插件，该插件支持调试和微调本地及远程的大模型。通过使用 GitHub 账号登录，用户可以免费访问托管在 GitHub Models 上的多种模型，包括 GPT4o 和 o1-preview 等。这款插件现在已经成为我的提示词调试器，尽管目前的 Playground 功能还有待提升，但其优点在于无需脱离 VSCode 环境，无论你是否是开发者，我都推荐你试试。

字节豆包团队推出 SeedEdit：强大的图像编辑模型

SeedEdit 是由字节豆包团队推出的图像编辑工具，它能够根据任何文本提示修改现有图像，并保持一致性。该工具支持多种功能，如局部替换、几何变换、重新打光、风格更改、表情编辑、文字替换、姿势修改以及局部擦除等。从演示视频和官方提供的演示来看，效果非常强大，你们可以在线试试。不过，它调用了字节的 API，但目前这个 API 还没有公开申请的地方，期待后续的开放。

阿里发布 Qwen2.5-Coder：32B 模型超越一众开源模型

阿里通义刚刚开源了 Qwen2.5-Coder 全系列模型，本次带来了 0.5B、3B、14B、32B 四个尺寸，其中 32B 模型以碾压姿态超越了一众开源模型，甚至比肩 GPT4o 和 Claude 3.5 Sonnet。官方还演示了如何结合 Cursor 在 1 分钟内实现一个贪吃蛇游戏，并通过 Open WebUI 实现了类似 Claude Artifacts 的功能。此外，通义官网还即将上线代码模式，支持一句话生成网站、小游戏和数据图表等各类可视化应用。

谷歌开源诺奖项目 AlphaFold 3

AlphaFold 3 是谷歌最近开源的备受瞩目的项目，这个项目在今年荣获了诺贝尔生物学奖。虽然我不是很懂，但听起来确实很厉害。佬友们快去找找有没有 typo 需要 fix，发个 PR，以后也可以吹吹参与过诺奖项目了！

AI有鼻子了，还能远程传输气味，图像生成香水

最近，一个名叫 Osmo 的初创公司宣布，他们成功地将气味数字化了。第一个成功的案例是「新鲜的夏季李子」，而且复现出的味道「闻起来」很不错。整个过程依靠 AI 技术来完成，不需要人工干预。有了这项技术，你就可以像下载音乐一样下载香水了。

这个发帖的 Alex Wiltschko 是 Osmo 的 CEO 和联合创始人。「将气味数字化」进而「生成气味」最初只是他在谷歌工作期间的一个研究项目。但在 2022 年，他在 Lux Capital 和谷歌风投的支持下，将其作为一家独立的初创公司推出。

2025-06-04 15:21:09