3DHM – 3D人体动作生成框架,单张图片生成任意视频动作
Diff-Instruct – 从预训练扩散模型中迁移知识的通用框架
VidTok – 微软开源的视频分词器,支持连续和离散分词化
Infinity – 字节跳动推出的高分辨率图像生成模型
ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型
cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载
CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型
AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架
Enhance-A-Video – 上海AI Lab 联合新加坡国立等推出的视频生成质量增强算法
Valley – 字节跳动推出的多模态大模型
联通元景 – 中国联通AI开源的中文原生文生图模型
DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法
MNN – 阿里开源的移动端深度学习推理框架
启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型
Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架
PeterCat – AI问答机器人,自动抓取 GitHub 上的文档和 issue 作为知识库
PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架
Vision Parse – 开源的 PDF 转 Markdown 工具
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型
Mathtutor on Groq – AI数学辅导工具,支持用语音形式提出数学问题