JetBrains Research — наука, меняющая мир

Дистилляция знаний

Один из самых простых способов улучшить качество почти любого алгоритма машинного обучения - обучить много моделей на одних данных и усреднить предсказания. Однако, такой способ зачастую требует большого количество ресурсов, особенно если речь идет об ансабле больших нейронных сетей.

Дистилляция знаний - это метод компрессии моделей, в котором нейронная сеть меньшего размера обучается мимикрировать предобученную большую модель. На семинаре мы обсудим этот подход, обсудим самые релевантные статьи на эту тему и посмотрим примеры кода.

Материалы:

Cristian Bucila, Rich Caruana, and Alexandru Niculescu-Mizil. Model Compression.


Geoffrey Hinton, Oriol Vinyals and Jeff Dean. Distilling the Knowledge in a Neural Network.


Antonio Polino, Razvan Pascanu and Dan Alistarh. Model compression via distillation and quantization.


Hokchhay Tann, Soheil Hashemi, Iris Bahar and Sherief Reda. Hardware-Software Codesign of Accurate, Multiplier-free Deep Neural Networks.


Asit Mishra and Debbie Marr. Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy.


Anubhav Ashok, Nicholas Rhinehart, Fares Beainy and Kris M. Kitani. N2N learning: Network to Network Compression via Policy Gradient Reinforcement Learning.


Lucas Theis, Iryna Korshunova, Alykhan Tejani and Ferenc Huszár. Faster gaze prediction with dense networks and Fisher pruning.

Язык доклада: русский.

Дата и время: 13-е марта, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars