科技周刊2025第4月第3期
2025-06-04 15:21:09

OpenAI 发布了三款新模型

GPT-4.1 系列在真实的软件工程工作中相比 GPT-4o 是一次重大升级。

三款新模型现在都支持最多 100 万个 token 的上下文(超过 React 代码库的 8 倍),能够处理大型代码仓库和大量长文档。 为了展示其在长上下文理解方面的提升,OpenAI还发布了一个全新的开源评估工具 OpenAI MRCR,用于测试模型在干扰项中准确定位关键信息的能力

图二完整版本:https://cookbook.openai.com/examples/gpt4-1_prompting_guide

image-20250418165202663

image-20250418165759279

HiDream的开源图像模型

在多项图像基准测试中都排名第一 ,而且开源24小时内,就在 竞技场榜单上冲到了第二的位置 那么它的实力到底怎么样?

该模型兼顾了生成质量与速度的需求,可以在几秒内容实现高质量的图像生成。

它在图像质量、提示词遵循能力和多风格生成方面表现出色,号称达到 开源模型中的最先进水平(SOTA)。 HiDream-I1参数量达到170亿,共开源三个版本,分别兼顾生成质量与速度需求:

Full 版:最强画质,30秒出图

Dev 版:画质不错,10秒出图

Fast 版:极速生成,5秒出图

测试:

左:一位 日本女性股票交易员,留着短发,佩戴着耳机,以写实风格呈现。 从显示股票市场的LED监视器背后可以看到她的身影——整个市场因混乱的股灾而全线跌停,屏幕上满是绿色的跌停数字。她举起双手触摸屏幕,面容悲伤,正流着眼泪。背景中是多个跌停的股市数字指数,整体以白色和绿色调为主,冷感数字感十足。她有黑色的眼睛,穿着深色衣物,脸上露出一种令人震惊甚至可怕的哀嚎表情,仿佛正盯着画面外的某个灾难性的景象——也许她被“困”在这些跌停数字屏幕后。请在画面中添加文字:“XiaoHu”

右:一幅超现实主义风格的黑白肖像作品,主角是一位留着短发和齐刘海的年轻女性,穿着白衬衫、黑色西装与条纹领带,造型干练,带有强烈的时尚感

image-20250418165513838

image-20250418165614618

快手发布可灵2.0视频模型及可图2.0图像模型 性能大幅提升并支持多模态编辑 制作视频更轻松

据官方介绍在动态质量、语义响应、画面美学等维度,可灵2.0模型保持全球领先。此外,可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。

可灵 AI 2.0 是一次跨越式升级,核心体现在三个关键词:

  • 更聪明:新模型能理解更复杂的语义和创意描述。
  • 更自由:提供多模态编辑工具,自定义程度高。
  • 更美观:画面质量、风格一致性与创意自由度全面提升。

OpenAI 发布 O3 和 O4-mini 推理模型:工具调用能力

OpenAI 发布两款全新推理模型:O3 和 O4-mini。除了推理性能提升外,最大的亮点是支持工具调用能力,包括网络搜索、文件分析、深度视觉输入推理以及最近爆火的图像生成功能。

同时发布的还有 Codex,一个在终端中运行的轻量级编程助手,功能类似 Claude-Code

价格:

O3 输入 $10.00 / 1M tokens,输出 $40.00 / 1M tokens O4-mini 输入 $1.10 / 1M tokens,输出 $4.40 / 1M tokens

腾讯 InstantCharacter:角色一致性生成技术

InstantCharacter 是由腾讯混元和 InstantX 团队联合推出的角色一致性技术。

该技术允许用户通过指定参考角色,生成高度多样化且保持一致的角色形象。

特别适合搭配 LoRA 进行风格转绘,大家可以在线体验试试~

image-20250418171751414

FramePack:6GB 显存即可生成长达千帧视频

FramePack 是由 ControlNet 作者 Lvmin Zhang 开发的一项突破性技术,仅需 6GB VRAM 即可生成长达千帧的视频。目前该技术仅支持 N 卡使用。

这意味着即使是普通消费级 GPU 也能轻松玩长视频生成了。

Prev
2025-06-04 15:21:09
Next