您现在的位置:首页 >> 环保科技

十亿参数,一键!「基本概念减重」神器让大基本概念狂掉3/4

时间:2024-01-15 12:19:15

。根据使用者定义的 α 范围内和仅有值生成一个 α 数值以下。根据等价的 α 数值重新量度凹凸遗传物质并变动表达式(百分比数值和抑制数值)。对百分比执行每连接线加权与所谓加权 (quantization_dequantization),对回传数值执行每张量 (per-tensor) 加权与所谓加权,以预测与等价 α 数值对应的窗台输出数值。量度相对确实输出数值的仅有方巨大损失,将变动后的表达式恢复去找,并遗留窗台的最佳 α 数值。

本文提出异议的新方法赞同用多个新标准(如最小数值、最大数值和平仅有数值)来明确 Transformer 块的回传层归一转化 (LayerNorm) 配置的 α 数值。

实验室发现,将 α 范围内分设为 [0.3, 0.7],仅有值分设为 0.05,对大多数三维来说都能达致很好的平衡。

这一新方法有两个;还有:一是全自动转化,二是比原始新方法赞同的交融模的单多。

下三幅包括了在 BLOOM-1b7 三维上执行 SmoothQuant α 数值自动调优的样例示例:

△竣工APC SmoothQuant 的样例示例

使用者只需传递一个三维重新命名 (model_name) 和一个信息读取探头。数值得注意的是,三维量化主要依靠的是 Torch JIT。使用者可以在读取 Hugging Face[15]三维时将 torchscript 另分设为 True,或将 return_dict 另分设为 False。

非常多资讯商量参阅时是微® Neural Compressor 文件[15]。

结果

本文提出异议的APC SmoothQuant 的主要占有优势在于更高了生存率。

经过对多种本土转化大母语三维的评估,具备自动调优能力的 INT8 SmoothQuant 终于一个词元 (last-token) 的预测生存率要略高于原始 INT8 SmoothQuant 和 FP32 时间延迟新方法。详见下三幅:

△FP32时间延迟新方法、INT8(竣工和不竣工 SmoothQuant)以及 INT8(竣工本文提出异议的APC SmoothQuant)的生存率对比

从上三幅可以显出,在 OPT-1.3b 和 BLOOM-1b7 三维上,本文提出异议的APC SmoothQuant 的生存率比普通用户的 SmoothQuant 分别高 5.4% 和 1.6%。

加权后的三维也增加到 FP32 三维的四分之一,大大减缓了内存闲置空间,从而有效地大大提高大三维在时是微® 跨平台上的推理性能。

非常全面的结果商量见 GitHub 存储瓦[16]。同时,也欢迎您创建拉取商量求或就 GitHub 疑问[17]发表纽约时报。期待想到您的所谓馈意见和建议。

作者:

时是微公司人工智能资深管理模式师沈海豪、时是微公司人工智能资深插件技术人员程文华、时是微公司人工智能插件技术人员陆崟彤、何欣、郭恒、王畅、王梦妮,他们都在从事三维加权及压缩的研究成果与优转化临时工。

简介文档:

[1]时是微® Neural Compressor:

[2]时是微® Extension for TensorFlow:

[3]时是微® Extension for PyTorch:

[4]时是微® 至强® 可扩大处理事件探头:

[5]时是微® 至强® CPU Max 前传:

[6]时是微® 信息中心 GPU Flex 前传:

[7]时是微® 信息中心 GPU Max 前传:

[8]第四代英特® 至强® 可扩大处理事件探头:

[9]AI 与内存门楼:

[10]SmoothQuant 相关文件:

_quant.md

[11]SPIQ:

[12]Outlier Suppression:

[13]SmoothQuant:

[14]Hugging Face 三维:

[15]时是微® Neural Compressor 文件:

_quant.md

[16]GitHub 存储瓦:

_quant.md

[17]GitHub 疑问:

— 完 —

量子位 QbitAI · 头条号签订合同

科兴创新生物药研发公司
八子补肾胶囊功效及价格
腰痛
止泻吃什么药
新冠肺部感染吃什么药
相关阅读