JetBrains Research — наука, меняющая мир

Adaptive Sampled Softmax with Kernel Based Sampling

В задачах классификации часто применяется функция Softmax, переводящая выходы модели в вероятности классов. Если количество классов N велико, то узким местом для производительности становится вычисление градиента функции потерь: для классического Softmax оно занимает O(N) времени. Подобная проблема может возникнуть в языковом моделировании или рекомендательных системах.

Поэтому на практике применяются эффективные приближения, например, Sampled Softmax, в котором на каждом шаге используется лишь небольшая выборка классов. Распределение, из которого берется данная выборка, играет огромную роль для качества необходимого приближения. Однако, несмотря на его важность, почти все современные подходы все еще используют весьма простые распределения, такие как равномерное, что ведет либо к потере качества, либо к потере производительности.

На семинаре мы подробнее обсудим вопросы, возникающие при использовании Sampled Softmax, и рассмотрим недавно предложенный красивый метод построения распределения для построения выборки, хорошо решающий эти вопросы.

Докладчик: Егор Щербин.

Язык доклада: русский.

Дата и время: 10-е апреля, 18:30-20:00.

Место: Таймс, аудитория 204.

Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars