Исследовательская группа

Лаборатория языковых инструментов

Анализатор вторичной структуры цепочек

Григорьев СемёнАктивный

Использование комбинации формальных грамматик и искусственных нейронных сетей для анализа вторичных структур.

Мы предлагаем способ объединения формальных грамматик и искусственных нейронных сетей для обработки вторичных структур. В нашем подходе формальные грамматики кодируют вторичную структуру последовательности, а нейронные сети занимаются обнаружением паттернов и шума.

Этот подход может применяться для различных типов последовательностей, имеющих богатую вторичную структуру.

В настоящее время мы работаем над применением этого подхода к анализу биологических последовательностей (РНК, белков). В отличие от классического способа, когда вероятностные грамматики используются для моделирования вторичных структур, мы предлагаем использовать произвольные (не вероятностные) грамматики, что упрощает создание грамматики. Вместо моделирования структуры всей последовательности, мы создаем грамматику, которая описывает только особенности вторичной структуры. Затем мы используем матричный синтаксический анализ для извлечения признаков: например, тот факт, что некоторая подстрока может быть получена из некоторого нетерминала, является признаком. После этого мы используем нейронную сеть для обработки признаков

Участники

Лунина Полина
Лунина Полина
Григорьев Семён
Григорьев Семён

Материалы

Публикации

Improved Architecture of Artificial Neural Network for Secondary Structure Analysis

November 2019

Semyon Grigorev and Polina Lunina

Подробнее

The Composition of Dense Neural Networks and Formal Grammars for Secondary Structure Analysis

March 2019

Semyon Grigorev and Polina Lunina

We propose a way to combine formal grammars and artificial neural networks for biological sequences processing. Formal grammars encode the secondary structure of the sequence and neural networks deal with mutations and noise. In contrast to the classical way, when probabilistic grammars are used for secondary structure modeling, we propose to use arbitrary (not probabilistic) grammars which simplifies grammar creation. Instead of modeling the structure of the whole sequence, we create a grammar which only describes features of the secondary structure. Then we use matrix-based parsing to extract features: the fact that some substring can be derived from some nonterminal is a feature. After that, we use a dense neural network to process features.

Подробнее