蚂蚁集团,香港科技大学等出的一款智能交互式图像编辑系统:MagicQuill
它可以实现你想在图片上添加什么,直接用笔划,系统自动猜想并画出来,不满意的地方直接擦掉重来,对不会PS的人非常实用 支持多种图像风格,真实风格、奇幻风格、动漫风格等等 出图的效果非常好,边缘处理很精细,不会出现明显的痕迹,添加的内容和原图能自然融合,颜色运用的也非常好
武汉大学与字节跳动联合推出 MikuDance:二次元角色动画生成技术
MikuDance 是武汉大学、阶跃星辰、字节联合推出的又一个类似阿里 Animate Anyone 的技术,专注于二次元角色,能轻松将二次元角色根据 Open Pose 姿势生成对应动画。,在在动作还原度和角色特征保持方面效果不错,不过在镜头拉远的时候会明显崩坏。目前只提供了演示,代码即将开源,值得期待。
Midjourney 个性化风格样式「水彩风格」
--sref 1030583812

绘制像素画工具:Resprite
支持 Pad 和 手机中绘制像素风格插画,支持 iOS 和 Android 系统平台。

Codeium 推出 Windsurf Editor:又一个 Cursor 替代
最强劲的 Cursor 对手登场!Codeium 推出全新 IDE 编辑器 Windsurf,同样基于 VSCode。亮点包括: 1. 支持自动写入多文件,与 Cursor 不相上下。 2. 强大的agentic功能,这块体验甚至优于 Cursor。 3. 引入工具,可运行 Shell(需用户批准)。 Windsurf 是目前最有实力挑战 Cursor 的编辑器之一!

谷歌 Gemini IOS APP 上线:聊天、识图、画图一应俱全
Gemini app 已在 iPhone 上推出,用户可以通过它进行聊天、识图和画图等操作。此外,其最新推出的模型 Gemini (Exp 1114) 现已超越 o1-preview,成为 Chatbot Arena 大模型榜单的第一名!
宇树也来玩开源了:机器人操作数据集,采用抱抱脸LeRobot训练
宇树科技,开源Unitree G1机器人操作数据集,包括数据采集、学习算法、数据集和模型,并表示将持续更新

实时活动地球模拟
灵感来自 Github 主页展示的实时活动地球模拟,使用 ThreeJS 和 three-globe 库实现,并添加了漂亮的阴影效果。
Live demo https://janarosmonaliev.github.io/github-globe
Github https://github.com/janarosmonaliev/github-globe
Google 正式推出 Gemini AI 驱动的视频演示应用 Vids
通过简单提示即可生成各种类型的视频演示
你只需提供提示或 Google Drive 中的文档,系即可生成一个初始视频故事板,包括推荐的场景、脚本、背景音乐等。 Vids 还支持语音旁白,还包含滚动式提词器,帮助用户在录制过程中自然流畅地呈现信息。 此外,用户可以添加自己的视频、屏幕录制和音频录制,以便制作多样化的视频内容。
OpenAI ChatGPT Canvas 即将支持 Python、JS 和 TS 的代码沙盒
ChatGPT Canvas 即将推出代码沙盒环境,将率先支持 Python、Javascript 和 Typescript,从曝光的演示视频来看,现在已经支持直接运行 React 了。
微软推出 VSCode AI Toolkit:集成大模型调试与微调
微软在 VSCode 上推出了 AI Toolkit 插件,该插件支持调试和微调本地及远程的大模型。通过使用 GitHub 账号登录,用户可以免费访问托管在 GitHub Models 上的多种模型,包括 GPT4o 和 o1-preview 等。这款插件现在已经成为我的提示词调试器,尽管目前的 Playground 功能还有待提升,但其优点在于无需脱离 VSCode 环境,无论你是否是开发者,我都推荐你试试。
字节豆包团队推出 SeedEdit:强大的图像编辑模型
SeedEdit 是由字节豆包团队推出的图像编辑工具,它能够根据任何文本提示修改现有图像,并保持一致性。该工具支持多种功能,如局部替换、几何变换、重新打光、风格更改、表情编辑、文字替换、姿势修改以及局部擦除等。从演示视频和官方提供的演示来看,效果非常强大,你们可以在线试试。不过,它调用了字节的 API,但目前这个 API 还没有公开申请的地方,期待后续的开放。
阿里发布 Qwen2.5-Coder:32B 模型超越一众开源模型
阿里通义刚刚开源了 Qwen2.5-Coder 全系列模型 ,本次带来了 0.5B、3B、14B、32B 四个尺寸,其中 32B 模型以碾压姿态超越了一众开源模型,甚至比肩 GPT4o 和 Claude 3.5 Sonnet。官方还演示了如何结合 Cursor 在 1 分钟内实现一个贪吃蛇游戏,并通过 Open WebUI 实现了类似 Claude Artifacts 的功能。此外,通义官网还即将上线代码模式,支持一句话生成网站、小游戏和数据图表等各类可视化应用。

谷歌开源诺奖项目 AlphaFold 3
AlphaFold 3 是谷歌最近开源的备受瞩目的项目,这个项目在今年荣获了诺贝尔生物学奖。虽然我不是很懂,但听起来确实很厉害。佬友们快去找找有没有 typo 需要 fix,发个 PR,以后也可以吹吹参与过诺奖项目了!

AI有鼻子了,还能远程传输气味,图像生成香水
最近,一个名叫 Osmo 的初创公司宣布,他们成功地将气味数字化了。第一个成功的案例是「新鲜的夏季李子」,而且复现出的味道「闻起来」很不错。整个过程依靠 AI 技术来完成,不需要人工干预。有了这项技术,你就可以像下载音乐一样下载香水了。

这个发帖的 Alex Wiltschko 是 Osmo 的 CEO 和联合创始人。「将气味数字化」进而「生成气味」最初只是他在谷歌工作期间的一个研究项目。但在 2022 年,他在 Lux Capital 和谷歌风投的支持下,将其作为一家独立的初创公司推出。