科技周刊2025第2期
2025-06-04 15:21:09

这是2025第2期周刊,每周五发布!

英伟达发布50系显卡

旗舰级 RTX 5090 创始版采用双槽位设计,可以装入小型机箱——这与体型庞大的 RTX 4090 形成鲜明对比。RTX 5090 配备 32GB GDDR7 显存,内存带宽高达 1,792GB/秒,拥有惊人的 21,760 个 CUDA 核心。

得益于 DLSS 4 技术和全新的 Blackwell 架构,Nvidia 称这款显卡性能将是 RTX 4090 的两倍

image-20250110203318019

NVIDIA 的 Project DIGITS:一台价值 3000 美元的个人超级计算机,性能是普通笔记本的 1000 倍

Project Digits 的核心是新的 GB10 Grace Blackwell Superchip,它具有足够的处理能力来运行复杂的 AI 模型,同时又足够紧凑,可以放在桌子上并使用标准电源插座供电。

每个 Project Digits 都配备了 128GB 的统一内存和高达 4TB 的 NVMe 存储。对于要求更高的 AI 应用,两个 Project Digits 可以连接在一起,处理多达 4050 亿个参数的模型(Meta 的最佳模型 Llama 3.1 具有 4050 亿个参数)。

它就像是给每个开发者配了一台袖珍的AI超级计算机!

img

NVIDIA 还发布了 NVIDIA Cosmos™ 平台

这是一种专为加速物理 AI 系统(如自动驾驶车辆和机器人)开发而设计的先进工具套件。

Cosmos 包括生成式世界基础模型(WFMs)、高级视频标记器(tokenizers)、安全保障机制和加速视频处理管道。

该平台旨在通过生成逼真、基于物理的合成数据,帮助开发者大幅降低物理 AI 模型开发的成本。

**简单来说就是:**Cosmos专门用来帮助开发机器人和自动驾驶系统。它通过 AI 模型生成虚拟数据和模拟场景,让开发者可以更快、更便宜地训练和测试他们的 AI 系统,而不用花费大量时间和金钱去采集真实数据。

  • 可实现文本到世界、视频到世界的生成。

  • 提供三种模型:Nano(低延迟边缘部署)、Super(高性能基线模型)、Ultra(高保真模型)。

  • 通过18000万亿次 tokens 的训练,涵盖2000万小时的真实及合成数据。

  • Tokenizers 压缩效率提高 8 倍,处理速度提升 12 倍。

    图片

香港科技大学和Adobe 公司开发出一种全新的视频生成技术:TransPixar

可以生成带 透明背景 的视频

传统的视频生成技术通常只能输出普通的彩色画面(RGB格式),而 TransPixar 可以生成具有透明背景的视频(RGBA格式)。

这让生成的视频可以无缝叠加到其他背景上

例如:一只松鼠在透明背景下摆动尾巴

英伟达发布了Groot Teleop 技术

允许你通过Apple Vision Pro 来训练机器人

你可以佩戴Apple Vision Pro进入到虚拟机器人的身体里面来进行虚拟操控机器人,训练它的各种操作和动作。

然后可以将训练成果转移到真实机器人身上!

设计师的灵感

Design Spells 是面向设计师的灵感平台,汇集创意案例、设计工具推荐和实用技巧。

https://www.designspells.com/

image-20250110205420269

Cursor AI 的资源网站

Cursor 宝藏资源网站,收录各种 Cursor 提示词以及使用案例。学习如何使用 Cursor 生成优秀的代码程序。

https://cursor.directory/

image-20250110205536688

微软开源 phi-4 模型:14B 参数,性能超越 GPT-4o

phi-4 是微软刚刚开源的最强小参数模型,其参数仅为 14B。

在各种基准测试中,phi-4 对比同参数量的模型表现优异,甚至在 GPQA 和 MATH 基准测试中超过了 GPT-4o。这个模型最初于去年 12 月 12 日发布,现在竟然直接开源了,并且基于 MIT 协议,可随意商用。

img

字节跳动开源 S T A R 视频超分模型:利用 T2V 技术实现高清修复

S T A R 是字节跳动开源的一个利用 T2V(Text-to-Video)模型对视频进行超分辨率的方法。无论是 AI 生成的视频还是现实中的视频,S T A R 都能进行高清修复。预训练模型(基于 I2VGen-XL 和 CogVideoX-5B)及推理代码现已发布,有兴趣的佬友可以自己试试。

img

Gazelle 多人注视检测技术在线版本发布,精准检测目光方向

Gazelle 是一个开源的多人注视检测技术,能够精准地检测人们的目光方向和注视对象。

现在,Gazelle 的在线版本已经发布,社区提供了两个不同的演示:gaze-demoGaze-LLE-demo

img

日本公司发明咸味勺子 :不放盐就能尝到味道

据麒麟公司介绍,这是一款通过发电从而节省食盐的发明。该款勺子的设计理念是通过减少食客盐的使用量,而非简单地限制食物中的盐分含量。

另外,该产品的工作原理是通过小电流“将钠离子分子集中在舌头上”,从而增强咸味。

一份超过 170 页的 LLM 论文,其中包括对能力和局限性的一些见解。

https://arxiv.org/abs/2501.04040

image-20250110211646320

Prev
2025-06-04 15:21:09
Next