JetBrains Research — наука, меняющая мир

Гарантии на данные в распределенной потоковой обработке

Гарантии на данные, предоставляемые современными системами потоковой обработки (Storm, Flink, Spark Streaming), определяются в терминах так называемых гарантий доставки - exactly once и at least once. Exactly once - самая строгая гарантия, которая часто требуется на практике, в частности, для решения задач машинного обучения.

Однако, существует ряд проблем, связанных с предоставлением этой гарантии. Механизмы, реализованные в Flink, Spark и MillWheel, приводят к значительному снижению производительности по сравнению с at least once. Кроме того, само понятие «exactly once» является неформальным и не охватывает все свойства, которые обеспечивают системы потоковой обработки, поддерживающие эту гарантию.

В докладе мы введем формальную модель, которая позволит нам определить гарантии потоковой обработки более строго. Мы покажем, что гарантии доставки тесно связаны с понятием согласованности и детерминизмом. Также будет продемонстрировано, как в детерминированной системе можно обеспечить exactly once почти без потерь производительности.

Докладчик: Артем Трофимов.

Язык доклада: русский.

Дата и время: 4-е апреля, 20:00-21:30.

Место: Таймс, аудитория 405.

Видео с семинаров будет доступно по ссылке: http://bit.ly/MLJBSeminars