TensorRT 1. TensorRT 简介TensorRT 是一个前向推理框架。在推理过程中,基于TensorRT 的应用程序的执行速度可以比 CPU 平台速度快 40 倍。 不同的硬件需要匹配不同的 cuda库,然后还需要进行测试, 比如选核等操作 TensorRT 以 NVIDIA 的并行编程模型 CUDA 为基础构建而成。 TensorRT 针对多种深度学习推理应用的生产部署提供 INT8 和 FP 2021-01-12
transformer-for-vision-task transformer 是一种新提出的神经网络组件, 主要利用注意力机制来提取内在特征。本文主要介绍了视觉方向上 transformer 的应用。 2020-12-15 基本方向
quantizing 量化, 也被称为定点化、离散化,是指用低精度整数来近似表示浮点数(权重和偏置)的方法。 在量化之后,可以在特定的硬件平台上使用特定的指令集对其加速, 另外,由于存储位宽的减小,模型的体积也会显著减小。常见的量化方案可以分为二值量化、三值量化、低比特量化(介于2-8bit之间) 和 int8 量化。 1. 二值量化Binary Weight (只对权重进行二值化) 🌟 [Bina 2020-12-12 DL_Deploy
knowledge-distillation 知识蒸馏1. 基本思想 知识蒸馏通过采用预先训练好的教师模型( teacher model) 的输出作为监督信号去训练另外一个轻量化的网络( student model ) 。从而实现将复杂网络(老师模型)的知识迁移到小网络(学生模型) 中, 提高小网络的精度。蒸馏的目的是让学生模型学习到教师模型的泛化能力,而不是去过拟合训练数据。 知识蒸馏首先由 Hinton 2020-11-23
lightweight-cnn-architecture-design 常见的移动端模型:mobilenet 系列和 shufflenet 系列和 GhostNet。对于 MnasNet、PorxylessNas、FBNet 等轻量级搜索架构则不涉及。 2020-11-15 DL_Deploy