Исследовательская группа

Прикладное машинное обучение и глубокое обучение

Оптимизация распределённых потоковых вычислений, заданных языком SQL

March 18

Распределённые потоковые вычисления широко используются для анализа данных в реальном времени. SQL приобретает популярность как способ задания потоковых вычислений, однако возможности по оптимизации потоковых SQL запросов пока ограничены. Изначально при выполнении запроса не известны никакие характеристики данных в потоке, что затрудняет возможности выбора оптимального плана; кроме того, поскольку потоковые запросы выполняются на протяжении длительных промежутков времени, данные могут измениться настолько, что даже если предыдущий план был оптимальным для них, он перестанет быть таковым, и возникает необходимость перестроить граф вычислений прямо во время исполнения, что не реализовано на текущий момент в популярных потоковых системах. Стоит отметить, что в базах данных для некоторых запросов может применяться так называемая адаптивная оптимизация.

В этом докладе будут рассмотрены особенности адаптивной оптимизации в потоковых системах: предсказание статистических свойств потоковых данных, адаптация API для использования статистик при подборе оптимального плана во время исполнения запроса, миграция графа запроса во время исполнения. Необходимость оптимизации в потоковых системах будет продемонстрирована на примере потокового SQL-запроса с использованием модели бенчмарка Nexmark.

Докладчик: Дарья Шаркова.

Язык доклада: русский.

Дата и время: 18-е марта, 19:00-20:30.

Заходите в Zoom: https://clck.ru/Rbv3x

Записи всех прошлых и будущих семинаров будут выкладываться здесь: https://youtube.com/channel/UCKYcMXUhucq50dUym-l3_jA