Hugging News #0526: Hugging Cast 发布第一期、邀请来认领自己的论文啦！

101 · 2023 年5 月 26 日 14:36

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」，本期 Hugging News 有哪些有趣的消息，快来看看吧！

重磅更新

Hugging Cast 播客 #1 发布

Hugging Cast 是由 Hugging Face 团队成员录制的、介绍最新人工智能新闻、应用以及开源动态的播客节目，第一期的 Hugging Cast 已经发布，我们聊了 Hugging Chat 以及 AI 的实践相关的话题。

来 B 站看看吧:
https://www.bilibili.com/video/BV1jM411G74u/

今晚 11 点 Hugging Cast 播客 #2 线上直播，欢迎来这里报名参加:
https://streamyard.com/watch/GJkVxAWR76k2

StarCoder: 开源的 SOTA 代码大模型

StarCoder 是针对代码的大语言模型 (代码 LLM)，模型使用了 GitHub 上被许可的数据训练而得，包含 80 多种编程语言、Git commits、Issues 等。与 LLaMA 类似，我们基于 1 万亿个词元训练了一个约 15B 参数的模型。此外，我们还针对一个 35B 词元的 Python 数据集对 StarCoderBase 模型进行了微调，从而获得了一个我们称之为 StarCoder 的新模型。

详情请回顾文章: StarCoder: 最先进的代码大模型

每日论文精选页面上线

AK (@_akhaliq) 是一个在 Twitter 上拥有 19 万粉丝的、专注于发布各种 AI 研究论文的账号，在大约发布了 1.7 万条论文推荐信息之后，接下来 AK 将在 Hugging Face 上开启后续的更新，欢迎访问:

开源更新

使用 Token Merging (ToMe) 提高 Stable Diffusion 的推理速度

Token Merging 可以通过在 Transformer 网络的前向传递中逐步合并冗余的 token/patch 来加速推理，通过在A100 和 V100 GPU 设备上对使用 tomesd 和不使用的 StableDiffusionPipeline 进行了基准测试，发现使用 tomesd 可以显著提高推理速度，尤其是对于较大的图像分辨率。以及，使用 tomesd 不会明显降低图像生成的质量。

查看文档了解更多信息:
https://hf.co/docs/diffusers/main/en/optimization/tome

Datasets 库 2.12 版正式发布

Datasets 是一个数据集调用库，你可以轻松调用 Hub 上的以及多种公共数据集，并进行高效的数据预处理。Datasets 库的 2.12 正式版已经正式发布，包括 Spark DataFrame 的支持、流式数据的支持、数据集分片等新功能，也包含了一些 bug 修改和文档改进等。此外，我们欢迎并感谢五位新的贡献者对这个版本的贡献 (@QizhiPei、@bbbxyz、@csris、@eli-osherovich、@maddiedawson)

Accelerate 库迎来了 2 千万次下载!

本月初，Accelerate 迎来了第 2 千万次下载，这见证了社区对这个库的喜爱和信任，快来试试看吧!

https://hf.co/docs/accelerate/

产品更新

宣布与 Spawning.ai 进行合作

在构建商业模型时，使用授权的训练数据至关重要，Spawning.ai 提供了一个 API 来确保你的机器学习项目建立在同意的数据之上。部分符合条件的、在 Hugging Face 上开源托管的数据集也将由 Spawning.ai 提供的 API 来显示数据源的报告。

新的 Space 模版: 构建 Shiny 应用

Shiny 是一个高效且开发者友好的 GUI 框架，你可以根据需求选择使用 R 或 Python 模板。Posit 与 Hugging Face 合作，提供了 R 和 Python Shiny 包的 Space 应用模板，用户可以轻松地将 Shiny 应用程序部署到 Hugging Face 上，并方便地将 Hub 上的模型集成到自己的应用中。

以上就是本期的 Hugging News，祝大家拥有一个愉快的周末！