Исследование эффективности существующих алгоритмов идентификации пептидов
T3N4
Исследование эффективности существующих
алгоритмов идентификации пептидов
С.Е. Певцов
Московский государственный университет им. М.В. Ломоносова,
факультет вычислительной математики и кибернетики, Ленинские горы,
119899 Москва, Россия. E-mail: pevtsov@gmail.com
Поступила в редакцию 04.09.2006 г.; после переработки — 21.09.2006 г.
Для идентификации белков по масс-спектрам используются два метода: поиск по базам данных и de novo секвенирование. Второй метод позволяет идентифицировать пептиды непосредственно по масс-спектрам. В данной работе исследуется производительность пяти алгоритмов de novo секве- нирования: AUDENS, Lutefisk, NovoHMM, PepNovo и PEAKS. Предложенный способ оценки про- изводительности алгоритмов основывается на вычислении относительного пептидного расстояния (relative sequence distance, RSD), чувствительности алгоритмов и качества спектров. Показано, что исследуемые алгоритмы более эффективны при идентификации пептидов по спектрам, полученным на QSTAR масс-спектрометре, по сравнению с LCQ. Для QSTAR данных рассмотренные пять алгоритмов можно расположить в порядке убывания эффективности таким образом: PEAKS > Lutefisk, PepNovo > AUDENS, NovoHMM. Эффективность PEAKS, Lutefisk и PepNovo прямо пропорциональна качеству экспериментальных спектров. Однако качество спектров практически не влияет на качество идентификации AUDENS и NovoHMM. По сравнению с остальными четырьмя алгоритмами PEAKS обладает наивысшей чувствительностью и эффективностью. Для LCQ данных алгоритмы расположились по убыванию эффективности в следующем порядке: NovoHMM > PEAKS, PepNovo > Lutefisk > AUDENS. NovoHMM обладает самой высокой чувствительностью и эффективностью, но в целом не намного опережает PEAKS и PepNovo. Качество идентификации пептидов при помощи программы AUDENS неудовлетворительно как при анализе QSTAR данных, так и для LCQ данных.