这是2025第1期周刊,每
周五发布!(抱歉上周没发这周补上)
AnimateDiff 到 Runway:AI 视频生成技术的飞跃
一个对比:两年前使用 AnimateDiff 技术制作的 AI 视频与如今使用 Runway 制作的效果。可以看到 AI 视频生成技术的进步。特别是在画面的一致性和稳定性方面,提升不是一点半点!
华佗 GPT-o1:专为医学推理设计的开源 LLM
华佗 GPT-o1 是香港中文大学深圳分校推出的专为医学推理设计的医学 LLM。基于 Qwen2.5 的版本支持中英文双语,并且完全开源,包括数据集。当然,如果你更喜欢纯英文模型,也有基于 LLaMA-3.1 的版本,可以使用 vllm 或 Sglang 等工具进行部署。

CALCULATING EMPIRES是一张具有里程碑意义的信息图,展示了从 1500 年以来通信、硬件、教育、医药等等各个领域的技术发展
Calculating Empires 把人类过去 500年来的全部技术,用一张24 米长、3 米高的巨型图片一次性呈现

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论
你只需输入一个主题,它就会从数百个网站中搜索信息,为你撰写一篇全面的研究文章。从格式/主题/内容/引用/绝对专家水准。 关键是:完全免费对公众开放!
Co-STORM与 STORM 的区别在于,它引入了协作对话机制,并采用轮次管理策略,实现流畅的协作式 AI 学术研究。功能包括如下:
Co-STORM LLM 专家:这种类型的智能体会根据外部知识来源生成答案并能根据对话历史提出后续问题。
主持人(Moderator):该智能体会根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题。当然,问题生成也可以基于事实。
人类用户:人类用户将主动观察对话以更深入地了解主题,或者通过注入对话来引导讨论焦点,积极参与对话。

LatentSync:精准的唇形同步工具
可以根据音频输入,自动调整视频中角色的嘴型,实现精准的口型同步。
直接用声音驱动嘴巴的动作,不需要复杂的中间步骤。
提出了一种“时间对齐”的技术,专门解决画面可能会跳动或不一致的问题。
提供了全套工具,可以轻松处理视频和音频,比如调整帧数、检测人脸、去除质量差的视频,保证最终生成的视频效果很好。在线演示可以试一下。

AI Timeline:AI大事记
这个网站整理了2022年开始每个月的AI重大项目,精简又不会错过重要信息。
网址:https://nhlocal.github.io/AiTimeline/#2024

Instant3d.ai:用于生成Blender/Unity 3D资产的助手工具
一个超简单的3D建模AI平台。只需上传一张2D图片,立刻就能看到它转变为3D模型
