Hugging News #0918: Hub 加入分类整理功能、科普文本生成中的流式传输

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息,快来看看吧! :tada::heart_eyes:

:hugs:Hub 加入分类整理 (Collection) 功能

现在你可以把任何你喜欢的模型 / 数据集 / Space 应用等按照自己的喜好进行分类整理和收藏。这个功能不仅对个人账号开放,同时对 Hub 上的组织账号也同样开放,Collection 会显示在个人或者组织的资料页面上,快去试试看吧!

查看文档: https://hf.co/docs/hub/collections

模型显存计算器

模型显存计算器 (Model Memory Calculator) 工具,旨在帮助大家计算在 :hugs: Hub上训练或运行大型模型所需的 vRAM(显存)。这个工具能在百分之几的误差内估算模型的显存需求。

最小推荐的 vRAM 是模型“最大层”的大小,而训练一个模型大约需要其大小的 4 倍显存 (考虑到 Adam 优化器)。在进行模型推理 (inference) 时,可能还需额外增加最多 20% 的显存。这个工具支持所有使用 transformers 和 timm 库的模型。使用时只需输入模型的 URL 或名字,选择其来源框架,以及你想使用的精度即可。
即刻体验: https://hf-accelerate-model-memory-usage.hf.space/

探索生物和化学方面的基座模型

我们一位同事 Katie 正在收集生物和化学领域的基座模型的列表,我们看到绝大多数都是开源并且开放权重的。

你可以在这里查看到这些模型的列表:
https://hf.co/spaces/hf4h/bio-chem-foundation-models

为什么要在文本生成中选择使用流式传输?

流式传输是服务器逐个返回模型生成的标记 (tokens) 的模式,这有助于用户逐步查看生成过程,而不必等待整个生成完成。这对于提高终端用户体验至关重要,因为它减少了延迟,这是流畅体验的关键因素之一。

使用流式传输,服务器可以在生成完整响应之前逐个返回标记,使用户能够更早地了解生成质量。这有一些积极的影响:对于非常长的查询,用户可以更早地获得结果。在生成过程中观察进展允许用户在生成不符合他们期望的方向时停止生成。在早期展示结果时,感知的延迟较低。在会话界面中使用时,体验感觉更加自然。

我们发布了一个文档,介绍了如何在 Python、cURL 和 JavaScript 中实现流式传输,以及流式传输的工作原理,其中使用了 Server-Sent Events(SSE)来建立 HTTP 连接并实现数据的单向传输。通过指定最大并发请求数,还可以管理服务器的负载。

查看文档: https://hf.co/docs/text-generation-inference/conceptual/streaming


以上就是本期的 Hugging News,新的一周开始了,我们一起加油! :muscle::tada: