Лаборатория искусственного интеллекта
Оптимизация распределённых потоковых вычислений, заданных языком SQL
Распределённые потоковые вычисления широко используются для анализа данных в реальном времени. SQL приобретает популярность как способ задания потоковых вычислений, однако возможности по оптимизации потоковых SQL запросов пока ограничены. Изначально при выполнении запроса не известны никакие характеристики данных в потоке, что затрудняет возможности выбора оптимального плана; кроме того, поскольку потоковые запросы выполняются на протяжении длительных промежутков времени, данные могут измениться настолько, что даже если предыдущий план был оптимальным для них, он перестанет быть таковым, и возникает необходимость перестроить граф вычислений прямо во время исполнения, что не реализовано на текущий момент в популярных потоковых системах. Стоит отметить, что в базах данных для некоторых запросов может применяться так называемая адаптивная оптимизация.
В этом докладе будут рассмотрены особенности адаптивной оптимизации в потоковых системах: предсказание статистических свойств потоковых данных, адаптация API для использования статистик при подборе оптимального плана во время исполнения запроса, миграция графа запроса во время исполнения. Необходимость оптимизации в потоковых системах будет продемонстрирована на примере потокового SQL-запроса с использованием модели бенчмарка Nexmark.
Докладчик: Дарья Шаркова.
Язык доклада: русский.
Дата и время: 18-е марта, 19:00-20:30.
Заходите в Zoom: https://clck.ru/Rbv3x
Записи всех прошлых и будущих семинаров будут выкладываться здесь: https://youtube.com/channel/UCKYcMXUhucq50dUym-l3_jA