Ruyi – 图森未来推出的图生视频大模型
Large Action Models – 微软推出的行动大模型开发框架
Leffa – Meta 开源的图像生成框架,精确控制人物的外观和姿势
LatentLM – 微软联合清华推出的多模态生成模型
Lyra – SmartMore联合多所高校推出的增强多模态交互能力
Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图
Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型
ColorFlow – 清华和腾讯共同推出的图像序列着色模型
NodeTool – AI工作流可视化构建器,拖放节点设计复杂工作流
VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架
豆包3D生成模型 – 豆包推出3D生成模型,自然语言交互实时生成3D场景图
MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型
FACTS Grounding – 谷歌推出的评估大模型能力的基准测试
MarkItDown – 微软开源的多功能、多格式文档转Markdown工具
EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型
WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码
UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架
X-AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式
Explorer – AI 3D世界生成模型,文本图像秒变3D渲染场景
Gemini 2.0 Flash Thinking – 谷歌推出的实验性推理模型,展示详细思考过程