Hugging News #0331: Hugging Papers 来啦，快来认领你的论文!

101 · 2023 年4 月 2 日 02:53

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」，本期 Hugging News 有哪些有趣的消息，快来看看吧！

产品更新

Paper Pages 大更新

我们正在继续加深与预印本平台 (arXiv.org) 的合作和集成，除了可以在论文页面直接找到 Hugging Face 上的 Space 应用以外，我们又为 Hugging Face Hub 上线了一个论文页面，比如: https://hf.co/papers/2211.05100

你还可以通过论文编号查询模型、数据集和 Space 应用，也可以在模型和数据集页面直接访问到论文页面:

与此同时，如果你是某个论文的作者之一，你还可以在 Hugging Face 的论文页面来“认领”和关联你的 Hugging Face 账号。

用户的个人页面也会显示自己的论文:

快来试试看吧！

Docker HuggingFace

你可以在 Spaces 中使用 Docker SDK 来构建你的机器学习应用。上一周，我们还发布了一项与 Docker 的合作，现在你可以将你的 Space 应用一键使用 Docker 部署到其他环境中啦！

Hub 对 ipynb 文件 (Jupyter Notebook) 的两个重要更新

Hub 的页面现在可以直接渲染 .ipynb 文件 (Jupyter Notebook) 啦，除此之外，我们还与 Google Colab 团队合作，现在 Colab 可以直接打开托管在 Hugging Face Hub 上的 .ipynb 文件啦：

Zapier 平台加入对 Hugging Face 的集成支持

Zapier 是一个自动化工作平台，而无需编写任何代码即可快速自动化很多业务流程。通过与Hugging Face 的集成，你可以使用将任意其他工作流程与 Hugging Face 提供的 AI 模型能力结合。快来试试看吧:
https://zapier.com/apps/hugging-face/integrations

社区活动

Gradio 创意主题构建大赛

Gradio 团队发起了一个主题构建黑客松活动，快来参与吧！本次和黑客松活动为期两周，你可以发挥创意和脑洞任意构建有意思的 Gradio 主题。下面有一个视频来简单介绍如何上手制作一个主题:

https://www.bilibili.com/video/BV1Xv4y1H7it/

如果你想参与，请在这个页面查看参与方法:
https://hf.co/Gradio-Themes

也可以在这个 Space 应用里查看别人做的主题:
https://hf.co/spaces/gradio/theme-gallery

开源库更新

bloomz.cpp 让你在 Mac 和手机上运行 BLOOM 模型

bloomz.cpp 是一个用纯 C/C++ 实现 Hugging Face 的 BLOOM 系列模型推理的代码库。它建立在 @ggerganov 的 llama.cpp 库之上，支持使用 BloomForCausalLM.from_pretrained() 加载的所有模型。库还支持高级用法，可以进行更详细的设置和自定义操作。

GitHub 地址: https://github.com/NouamaneTazi/bloomz.cpp

The Stack 数据集 v1.2 正式版发布

The Stack 是 BigCode 项目的一部分，这是一个包含了 300 种编程语言的开源代码数据集。
数据集页面: https://hf.co/datasets/bigcode/the-stack

Common Voice 13 数据集现已「登陆」 Hugging Face

Common Voice 的多语言数据集是最大的公开语音数据集，Mozilla 相信，一组大型、可公开使用的语音数据集，将可促进基于机器学习的语音技术的创新，与健康的商业竞争。目前，Common Voice 13 数据集已经在 Hugging Face Hub 上发布，借助 Datasets 库，你只需要几行代码就可以使用它。
数据集页面: https://hf.co/datasets/mozilla-foundation/common_voice_13_0

TRL v0.4.1 发布

TRL (Transformer Reinforcement Learning) 是一个用于训练具有增强学习的 Transformer 语言模型的库，可与transformers 集成。它支持使用 Proximal Policy Optimization（PPO）优化解码器模型，例如 GPT-2、BLOOM、GPT-Neo。

0.4.1 版本更新包括支持大型模型训练、简易 pipeline 并行、peft 数据并行支持，以及分布式训练的错误修复。简易管道并行支持大规模模型在训练设置中进行拟合，以便在这些模型上应用 RLHF。此功能使用 peft 训练适配器，同时利用 bitsandbytes 来减少活动模型的内存占用。通过修复与 peft 集成和 DP 相关的错误，支持多 GPU 训练。此外，对于 PyTorch 2.0 的发布，本次更新还包括一些小的修复。

GitHub 地址: https://github.com/lvwerra/trl

祝大家有一个愉快的周末，我们下周见！