Hugging News #0512: 🤗 Transformers、🧨 Diffusers 更新，AI 游戏是下个新热点吗

101 · 2023 年5 月 12 日 13:55

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」，本期 Hugging News 有哪些有趣的消息，快来看看吧！

开源更新

Transformers 现已支持 Meta 的 SAM 分割模型

你还可以使用自动遮罩生成管道预测给定图像的分割掩码，并提供一组边界框或一组 2D 点，以预测感兴趣的对象的分割掩码，只需调用 AutoModel.from_pretrained 即可。

查看 Notebook: 在 transformers 中使用 Segment Anything Model:
IPYNB.CN Jupyter Notebook 阅读器

TPU YYDS: 做完一个小时的音频转录只需要 15 秒！

我们的一位同事 Sanchit 为 OpenAI 的 Whisper 模型提供了 JAX 实现，代码兼容 CPU、GPU 和 TPU，可以部署为用于音频处理的推理端点，也可以批处理单个音频文件。

GitHub 地址:
GitHub - sanchit-gandhi/whisper-jax: JAX implementation of OpenAI's Whisper model for up to 70x speed-up on TPU.

更轻松地微调 TTS 模型

transformers 已经增加了在文本到语音中微调 SpeechT5 模型的功能。

你可以在这个 Colab 中查看详细操作步骤:
Google Colab

在 diffusers 上进行 Multi-concept 主题训练

现在你可以通过 Custom Diffusion 在 diffusers 上进行 Multi-concept 主题训练，上图展示了结合木头和猫咪的图片。Custom Diffusion 只微调 UNet 的交叉注意力层，同时支持在消费者硬件上无缝学习的文本反演融合。因此，仅用 250 步，我们就可以得到相当好的结果。

Custom Diffusion 文档: https://hf.co/docs/diffusers/main/en/training/custom_diffusion

产品更新

Gradio 新增 `gradio_client` 库

现在，你可以使用 gradio_client 库将任意一个 Gradio 应用以 API 方式调用。

Space 模版现已支持 AimStack

现在，你可以在新建 Space 应用的时候选择 AimStack 这个 Docker 模版，Aim 是一个开源的、自托管的 AI 元数据跟踪工具，它为探索和比较元数据提供了一个性能强大的用户界面，以及一个用于编程访问的、非常适合自动化的 SDK。在 Space 应用上构建一个 Aim 应用，你可以随时与他人共享训练结果，用于探索和比较元数据，以及以编程方式访问跟踪的元数据。

推理端点大更新

端点启动 / 创建时间减少了约 4-6 倍，你可以在 1 分钟内完成 BERT、10 分钟内完成 FLAN-T5-XXL (11B) 推理等。

轻松地在你的游戏里加入数万个开源模型

本周，我们发了一篇文章，介绍如何在 Space 应用中使用 Unity API，邀请你回顾这篇文章，敬请期待更多 AI 游戏的文章和产品发布。

以上就是本期 Hugging News，本周日是母亲节，请用任何方式告诉亲爱的妈妈：我爱你！