Hugging News #0512: 🤗 Transformers、🧨 Diffusers 更新,AI 游戏是下个新热点吗

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧!

开源更新

Transformers 现已支持 Meta 的 SAM 分割模型

你还可以使用自动遮罩生成管道预测给定图像的分割掩码,并提供一组边界框或一组 2D 点,以预测感兴趣的对象的分割掩码,只需调用 AutoModel.from_pretrained 即可。

查看 Notebook: 在 :hugs:transformers 中使用 Segment Anything Model:
IPYNB.CN Jupyter Notebook 阅读器

TPU YYDS: 做完一个小时的音频转录只需要 15 秒!

我们的一位同事 Sanchit 为 OpenAI 的 Whisper 模型提供了 JAX 实现,代码兼容 CPU、GPU 和 TPU,可以部署为用于音频处理的推理端点,也可以批处理单个音频文件。

GitHub 地址:
GitHub - sanchit-gandhi/whisper-jax: JAX implementation of OpenAI's Whisper model for up to 70x speed-up on TPU.

更轻松地微调 TTS 模型

:hugs: transformers 已经增加了在文本到语音中微调 SpeechT5 模型的功能。

你可以在这个 Colab 中查看详细操作步骤:
Google Colab

在 diffusers 上进行 Multi-concept 主题训练

现在你可以通过 Custom Diffusion 在 :firecracker:diffusers 上进行 Multi-concept 主题训练,上图展示了结合木头和猫咪的图片。Custom Diffusion 只微调 UNet 的交叉注意力层,同时支持在消费者硬件上无缝学习的文本反演融合。因此,仅用 250 步,我们就可以得到相当好的结果。

Custom Diffusion 文档: https://hf.co/docs/diffusers/main/en/training/custom_diffusion

产品更新

Gradio 新增 gradio_client

现在,你可以使用 gradio_client 库将任意一个 Gradio 应用以 API 方式调用。

Space 模版现已支持 AimStack

现在,你可以在新建 Space 应用的时候选择 AimStack 这个 Docker 模版,Aim 是一个开源的、自托管的 AI 元数据跟踪工具,它为探索和比较元数据提供了一个性能强大的用户界面,以及一个用于编程访问的、非常适合自动化的 SDK。在 Space 应用上构建一个 Aim 应用,你可以随时与他人共享训练结果,用于探索和比较元数据,以及以编程方式访问跟踪的元数据。

推理端点大更新

端点启动 / 创建时间减少了约 4-6 倍,你可以在 1 分钟内完成 BERT、10 分钟内完成 FLAN-T5-XXL (11B) 推理等。

轻松地在你的游戏里加入数万个开源模型

本周,我们发了一篇文章,介绍如何 在 Space 应用中使用 Unity API,邀请你回顾这篇文章,敬请期待更多 AI 游戏的文章和产品发布。


以上就是本期 Hugging News,本周日是母亲节,请用任何方式告诉亲爱的妈妈:我爱你!:heart: