每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧!
开源更新
Transformers 现已支持 Meta 的 SAM 分割模型
你还可以使用自动遮罩生成管道预测给定图像的分割掩码,并提供一组边界框或一组 2D 点,以预测感兴趣的对象的分割掩码,只需调用 AutoModel.from_pretrained
即可。
查看 Notebook: 在 transformers 中使用 Segment Anything Model:
IPYNB.CN Jupyter Notebook 阅读器
TPU YYDS: 做完一个小时的音频转录只需要 15 秒!
我们的一位同事 Sanchit 为 OpenAI 的 Whisper 模型提供了 JAX 实现,代码兼容 CPU、GPU 和 TPU,可以部署为用于音频处理的推理端点,也可以批处理单个音频文件。
更轻松地微调 TTS 模型
transformers 已经增加了在文本到语音中微调 SpeechT5 模型的功能。
你可以在这个 Colab 中查看详细操作步骤:
Google Colab
在 diffusers 上进行 Multi-concept 主题训练
现在你可以通过 Custom Diffusion 在 diffusers 上进行 Multi-concept 主题训练,上图展示了结合木头和猫咪的图片。Custom Diffusion 只微调 UNet 的交叉注意力层,同时支持在消费者硬件上无缝学习的文本反演融合。因此,仅用 250 步,我们就可以得到相当好的结果。
Custom Diffusion 文档: https://hf.co/docs/diffusers/main/en/training/custom_diffusion
产品更新
Gradio 新增 gradio_client
库
现在,你可以使用 gradio_client
库将任意一个 Gradio 应用以 API 方式调用。
Space 模版现已支持 AimStack
现在,你可以在新建 Space 应用的时候选择 AimStack 这个 Docker 模版,Aim 是一个开源的、自托管的 AI 元数据跟踪工具,它为探索和比较元数据提供了一个性能强大的用户界面,以及一个用于编程访问的、非常适合自动化的 SDK。在 Space 应用上构建一个 Aim 应用,你可以随时与他人共享训练结果,用于探索和比较元数据,以及以编程方式访问跟踪的元数据。
推理端点大更新
端点启动 / 创建时间减少了约 4-6 倍,你可以在 1 分钟内完成 BERT、10 分钟内完成 FLAN-T5-XXL (11B) 推理等。
轻松地在你的游戏里加入数万个开源模型
本周,我们发了一篇文章,介绍如何 在 Space 应用中使用 Unity API,邀请你回顾这篇文章,敬请期待更多 AI 游戏的文章和产品发布。
以上就是本期 Hugging News,本周日是母亲节,请用任何方式告诉亲爱的妈妈:我爱你!