Предсказание вторичной структуры белков модифицированным GUHA- методом
В работе предложен новый метод предсказания вторичной структуры белка, основанный на известном в области экспертных систем GUHA-методе. Облучение и предсказание базируются на информации о вторичной структуре 108 белков (около 20 000 аминокислотных остатков) с рентгеноструктурным разрешением менее 0,...
Збережено в:
Дата: | 1993 |
---|---|
Автори: | , , |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут молекулярної біології і генетики НАН України
1993
|
Назва видання: | Биополимеры и клетка |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/156251 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Предсказание вторичной структуры белков модифицированным GUHA- методом / А.В. Братусь, С.З. Мальченко, Н.А. Чащин // Биополимеры и клетка. — 1993. — Т. 9, № 5. — С. 61-66. — Бібліогр.: 3 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-156251 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1562512019-06-19T01:31:38Z Предсказание вторичной структуры белков модифицированным GUHA- методом Братусь, А.В. Мальченко, С.З. Чащин, Н.А. Структура и функции биополимеров В работе предложен новый метод предсказания вторичной структуры белка, основанный на известном в области экспертных систем GUHA-методе. Облучение и предсказание базируются на информации о вторичной структуре 108 белков (около 20 000 аминокислотных остатков) с рентгеноструктурным разрешением менее 0,2 нм. Средняя точность предсказания по использованному в работе банку данных составила для α-спирали – 74 %, β-складки – 67 %, нерегулярной структуры — 71 % и общая – 68 % У роботі запропоновано новий метод передбачення вторинної структури білка, що базується на відомому в галузі експертних систем GUHA-методі. Навчання та передбачення грунтуються на інформації про вторинну структуру 108 білків (біля 20000 амінокислотних залишків) з рентгенострухтурним розділенням менше 0,2 нм. Середня точність передбачення з використаного в роботі банку даних складає для α-спіралі - 74 %, β-складки – 67 %, нерегулярної структури – 71 %; загальна – 68% A new method for protein secondary structure prediction is described in the present article. This method based on GUHA-method has been known in the field X-ray resolution less than 0,2 nm was used for learning and prediction of protein secondary structure. Average accuracy of prediction for α-helix is 74 %, β- strand is 67 %, coil is 71 % and for three states simultaneously is 68 % of successful prediction. 1993 Article Предсказание вторичной структуры белков модифицированным GUHA- методом / А.В. Братусь, С.З. Мальченко, Н.А. Чащин // Биополимеры и клетка. — 1993. — Т. 9, № 5. — С. 61-66. — Бібліогр.: 3 назв. — рос. 0233-7657 DOI: http://dx.doi.org/10.7124/bc.000373 http://dspace.nbuv.gov.ua/handle/123456789/156251 577.112+371.24 ru Биополимеры и клетка Інститут молекулярної біології і генетики НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Структура и функции биополимеров Структура и функции биополимеров |
spellingShingle |
Структура и функции биополимеров Структура и функции биополимеров Братусь, А.В. Мальченко, С.З. Чащин, Н.А. Предсказание вторичной структуры белков модифицированным GUHA- методом Биополимеры и клетка |
description |
В работе предложен новый метод предсказания вторичной структуры белка, основанный на известном в области экспертных систем GUHA-методе. Облучение и предсказание базируются на информации о вторичной структуре 108 белков (около 20 000 аминокислотных остатков) с рентгеноструктурным разрешением менее 0,2 нм. Средняя точность предсказания по использованному в работе банку данных составила для α-спирали – 74 %, β-складки – 67 %, нерегулярной структуры — 71 % и общая – 68 % |
format |
Article |
author |
Братусь, А.В. Мальченко, С.З. Чащин, Н.А. |
author_facet |
Братусь, А.В. Мальченко, С.З. Чащин, Н.А. |
author_sort |
Братусь, А.В. |
title |
Предсказание вторичной структуры белков модифицированным GUHA- методом |
title_short |
Предсказание вторичной структуры белков модифицированным GUHA- методом |
title_full |
Предсказание вторичной структуры белков модифицированным GUHA- методом |
title_fullStr |
Предсказание вторичной структуры белков модифицированным GUHA- методом |
title_full_unstemmed |
Предсказание вторичной структуры белков модифицированным GUHA- методом |
title_sort |
предсказание вторичной структуры белков модифицированным guha- методом |
publisher |
Інститут молекулярної біології і генетики НАН України |
publishDate |
1993 |
topic_facet |
Структура и функции биополимеров |
url |
http://dspace.nbuv.gov.ua/handle/123456789/156251 |
citation_txt |
Предсказание вторичной структуры белков модифицированным GUHA- методом / А.В. Братусь, С.З. Мальченко, Н.А. Чащин // Биополимеры и клетка. — 1993. — Т. 9, № 5. — С. 61-66. — Бібліогр.: 3 назв. — рос. |
series |
Биополимеры и клетка |
work_keys_str_mv |
AT bratusʹav predskazanievtoričnojstrukturybelkovmodificirovannymguhametodom AT malʹčenkosz predskazanievtoričnojstrukturybelkovmodificirovannymguhametodom AT čaŝinna predskazanievtoričnojstrukturybelkovmodificirovannymguhametodom |
first_indexed |
2025-07-14T08:42:38Z |
last_indexed |
2025-07-14T08:42:38Z |
_version_ |
1837611152036593664 |
fulltext |
24. Schroeder C., Hurkscat H., Meisel A. et at. Unusual occurrence of EcoPl and EeoP 15
recognition sites and counterselection of type II rnethylation and restriction sequences
in bacteriophage T7 D N A / / G e n e — 1986 — 45, N 1 .—P. 77—86.
25. Sekulie S., Hacldad P. R. Effect of peak tailing on computer optimization procedu-
res for high-performance liquid chromatography / / J. Chromatogr.— 1988.— 459,
N 1 .—P. 65—77.
26. Sinhalg R. P., Landes / . P. High-performance liquid chromatographic analysis of
DNA composition and DNA modification by chloroacetaldehyde // Ibid.— 1988—458.—
P. 117—128.
Ин-т микробиологии и вирусологии Получено 18.01.93
АН Украины, Киев
ВНИИГенетика, Москва
УДК 577.112+371.24
А. В. Братусь, С. 3. Мальченко, Η. А. Чащин
ПРЕДСКАЗАНИЕ ВТОРИЧНОЙ СТРУКТУРЫ БЕЛКОВ
МОДИФИЦИРОВАННЫМ GUHA- МЕТОДОМ *
В работе предложен новый метод предсказания вторичной структуры белка, основанный
на известном в области экспертных систем GUHA-методе. Облучение и предсказание
базируются на информации о вторичной структуре 108 белков (около 20 000 аминокис-
лотных остатков) с рентгеноструктурным разрешением менее 0,2 нм. Средняя точность
предсказания по использованному в работе банку данных составила для а-спирали —
74 %, ^-складки — 67 %, нерегулярной структуры — 71 % и общая — 68 %.
Введение. Известно, что предсказание вторичной структуры белка с
точностью 75—85 % позволяет составить общее представление о его
пространственной структуре, а увеличение точности—получить доволь-
но близкую к реальной пространственную модель белка [1].
Существующие в настоящее время методы не всегда позволяют до-
стичь необходимой точности, поэтому, несмотря на множество спосо-
бов предсказания вторичной структуры белка, поиск новых подходов в
этом направлении не прекращается.
В предлагаемой работе описывается известный в области эксперт-
ных систем GUHA-метод [2] и его приложение к предсказанию вторич-
ной структуры белков.
Материалы и методы. В работе использовали банк данных, содер-
жащий информацию о вторичной структуре 108 белков (20 000 амино-
кислотных остатков) с рентгеноструктурным разрешением менее 0,2 нм.
Эти данные были получены из Брухевенского банка данных простран-
ственных структур белков. Вторичная структура классифицирована по
трем конформациям: α-спираль (/ι), β-складка (е) и нерегулярная (с).
Таким образом, каждому аминокислотному остатку присваивается одно
из трех состояний вторичной структуры — /і, е или с.
Д л я прогнозирования вторичной структуры белка применен моди-
фицированный GUHA-метод. Суть его состоит в следующем.
Пусть исследуемая предметная область отражается эмпирически-
ми данными в виде таблицы. Формально таблица может быть представ-
лена в таком виде:
ISSN 0233-7657 БИОПОЛИМЕРЫ И КЛЕТКА. 1993. Т. 9. № 5 61
где Mod — множество объектов;
метной области;
есть символ неопределенной информации.
— множество значений отношения;
— унарные отношения, определенные в данной пред-
* Статья представлена членом редколлегии В. И. Даниловым.
© А. В. Братусь, С. 3. Мальченко, Н. А. Чащин, 1993
62 ISSN 0233-7657 БИОПОЛИМЕРЫ И КЛЕТКА. 1993. Т. 9. № 5
К а ж д а я формула описывает конкретное состояние предметной об-
ласти. Пусть даны два состояния предметной области, описываемые
формулами P l и Р2. Исследователя может интересовать, существует ли
связь между этими состояниями? Используя таблицу эмпирических дан-
пых, можно подсчитать число всех наблюдений, содержащих: оба со-
стояния; одно состояние; другое состояние. Обработав полученные час-
тоты по одному из критериев, можно проверить гипотезу о взаимозави-
симости данных состояний. Если формула Pl описывает цель исследо-
вания, а Р2 пробегает множество состояний предметной области, мож-
но получить множество состояний, связанных с целью исследования.
Качество отбираемых гипотез зависит от применяемого критерия.
В данной работе выбран точный критерий проверки на независи-
мость двух признаков, или критерий Фишера. Высказывание «Состоя-
ние, списываемое формулой P l , взаимосвязано с состоянием, описыва-
емым формулой Р2» соответствует формальной записи
где s — конформационное состояние (h, е, с);
(Ts) — ч и с л о остатков в структуре 5 по данным рентгеноструктур-
ного анализа ;
(Ts+) — ч и с л о остатков в структуре s, совпадающих по предсказа-
нию с данными рентгеноструктурного анализа ;
(Ts~) — число остатков, не входящих в структуру s по данным рент-
геноструктурного анализа ;
card — число элементов соответствующего множества.
Точное значение Fish называется критическим уровнем. Критиче
ский уровень равен вероятности ложности данной гипотезы, поэтому
чем меньше критический уровень, тем вероятнее взаимосвязь между со-
стоянием гипотезы. Этот факт будет использован при выборе вторич-
ной структуры. Осуществлена программная реализация GUHA-метода ,
программа написана на языке FORTRAN для IBM PC.
Оценку точности предсказания по отдельным конформационным
состояниям рассчитывали по формуле
Язык описания предметной области состоит из символов:
Fu ... , Fn, кодирующих отношения fi, ... , fn\
а — квантор чмишера.
Элементарное высказывание языка имеет вид (Ki)Fi, где К; входит
в Fi и называется литералом. Литерал оценивается по формуле
- с и м в о л ы логических операции;
объекта о из Mod. Конъюнкция литералов образует формулу языка
вида
(логически ИСТИННО), е с л и Ai в х о д и т B / / { О ) для д а н н о г о
где — квантор Фишера; а — доверительный уровень.
Высказывание Pl и~аР2 оценивается по формуле
(логически истинно) тогда и только тогда, когда
где
уровень принятия гипотез;
Результаты работы GUIiA-мстода на данных по 108 белкам
Наименование белка
Имя
файла в
БД
Результат, %
Qa Qb Qo
Acid P r o t e i n a s e E n d o t h i a p e p s i n 4 Α Ρ Ε Ί Μ 84 80 Ii 76
Aeid ProLeiiiase, Pen ie i l lopcps in ( I I v d r o i a s e
ProLeinase) 2 A P P 1 E 57 68 66 60
Ac t in id in ( H y d r o l a s e : S u l f h y d r y l P r o t e i n a s e ) 2 A C T 1 M 58 58 57 42
Leel in ( A g g l u t i n i n ) W h e a t G e r m 3 W G A 1 M 60 53 59 74
Alpha LyLie P r o t e a s e ( H y d r o l a s e : Se r ine Pro-
t e inase ) 2 A L P 1 E 46 62 64 56
A s p a r t a t e T r a n s e a r b a m y l a s e (E. coli) C h a i n 1 4 A T C I M 79 69 74 72
A s p a r t a t e T r a n s e a r b a m y l a s e (E. coli) C h a i n 2 4 A T C 2 M 85 64 81 80
Aziir in LleeLron T r a n s p o r t P r o t e i n I A Z A l E 68 65 73 62
C a i e i u m - B i n d i n g P a r v a l b u m i n b (Ca lc ium Bin-
d i n g P r o t e i n s ) I C P U l H 76 71 74 71
C a l e i u m BiiKiing P r o t e i n Bov ine I n t e s t i n e Vi-
t a m i n D D e p e n d e n t 3 I C B 1 H 92 + 92 92
C a r b o n i c A n i i y d r a s e F o r m B H u m a n Ery th ro -
cy tes 2 C A B 1 E 87 72 76 73
C a r b o x v p e p t i d a s e A (C-Te rmina l A m i n o Acid
H y d r o l a s e ) 5 C P A 1 M 69 54 64 58
C a t a l a s e Beei Liver SCAT I M 71 61 66 63
Alpl ia ChymoLryps in A (Bos T a u r u s ) C h a i n 1 5 C H A 1 E — 77 80 74
A i p l n C h y n i o l r y p s i n A (Bos T a u r u s ) C h a i n 2 1 5 C H A 2 M 73 77 80 71
CitraLe SynLiiasc P i g H e a r t 2 C T S 1 H 72 62 69 62
Cramhi i i ( P l a n t Seed P r o t e i n ) I C R N l M 50 64 60 47
G a m n i a - C r v s l a l I i n Calf Lye Lens I G C R l E 47 58 61 55
C y t o c h r o m e C (Oxid ized) (E lec t ron T r a n s p o r t ) 3CYT1H 72 — 66 66
C y t o c h r o m e C Rice E m b r y o s I C C R l M 89 — 84 85
C y t o c h r o m e C P r i m e ( R i i o d o s p i r i l l u m molis-
cifiuiium) 2CCY1H 83 + 83 79
C y t o c h r o m e C P e r o x i d a s e ( B a k e r ' s Yeas t ) 2 C Y P 1 H 63 57 62 56
67 Le r r i cy toch rome C2 (E lec t ron T r a n s p o r t ) 3 C 2 C 1 H 69 — 70
56
67
C y t o c h r o m e C3 ( D i s u l f o v i b r i o vulgaris) 2 C D U 1 M 70 59 62 64
CyLochrome C551 (Oxid ized) (E lec t ron T r a n -
s p o r t ) 351C1H 87 + 87 87
Dil iydroiolaLe Reduc t a se ( O x i d o r e d u c t a s e :
53 53 N A D P H / D O N R ) 3 D F R 1 M 71 53 58 53
E l a s t a s e Po rc ine P a n c r e a s 2 E S T 1 E 70 74 71 70
ErabuLoxin Sea S n a k e V e n o m 2 E B X 1 E + 63 63 67
ITernoglobin ( E r y t h r o c r u o r i n , Deoxy) ( O x y g e n
66 68 52 T r a n s p o r t ) I E C D l H 66 — 68 52
F e r r e d o x i n (E lec t ron T r a n s p o r t ) I F D X l M 50 66 52 72
F c r r e d o x i n (E lec t ron T r a n s p o r t ) 3 F X C 1 M 98 76 82 90
F l a v o d o x i n (Oxid ized) (E lec t ron T r a n s p o r t ) 3 F X N 1 M 68 66 60 57
F e r r e d o x i n A z o b a c t e r 2 F D I 1 M 73 70 71 77
G l u t a t h i o n e R e d u c t a s e Bov ine E r y t h r o c y t e s I G P I l M 67 53 55 57
H e m e r y t h r i n (Met) S ipuncu l id W o r m I H M Q l H 65 — 59 53
H e m o g l o b i n (LIuman, Deoxy) C h a i n 1 2 H H B 1 H 75 — 76 64
H e m o g l o b i n ( H u m a n , Deoxy) C h a i n 2
H e m o g l o b i n V (Cvano , Me t ) Sea L a m p r e y
2 H H B 2 H 82 — 84 77 H e m o g l o b i n ( H u m a n , Deoxy) C h a i n 2
H e m o g l o b i n V (Cvano , Me t ) Sea L a m p r e y 2 L H B 1 H 71 — 78 63
Oxidized H i g h P o t e n t i a l I ron P r o t e i n (Hip ip ) I H I P l M 85 82 80 70
I m m u n o g l o b u l i n F a b I g g ( M o u s e ) C h a i n 1 I M P C l E 49' 66
68
65 64
I m m u n o g l o b u l i n F a b I g g (Mouse ) C h a i n 2 1 M P C 2 E —
66
68 71 67
I m m u n o g l o b u l i n F a b ( H u m a n M y e l o m a )
Cha in 2 1FB42E 59 57 57
B e n c e - J o n e s I m m u n o g l o b u l i n V a r i a b l e P o r t i o n
( R E I ) I R E I l E + 84 84 85
B e n c e - J o n e s P r o t e i n L a m b d a V a r i a b l e D o m a i n
( H u m a n ) 2 R H E 1 E 77 73 73
Kal l ik re in A ( P o r c i n e P a n c r e a s e ) C h a i n 1 2 P K A 1 E + 72 72 7 5
Kal l ik re in A ( P o r c i n e P a n c r e a s e ) C h a i n 2 2 P K A 2 M 99 69 75 76
L a c t a t e D e h y d r o g e n a s e , Apo E n z y m e M 4 4 L D H 1 M 66 68 64 65
L e g h e m o g l o b i n (Aceta te , Me t ) ( O x y g e n T r a n -
69 s p o r t ) I L H I l H 68 — 70 69
L y s o z y m e ( B a c t e r i o p h a g e T4) 2 L Z M 1 M 80 52 74 67
L y s o z y m e ( H u m a n ) I L Z I l M 76 78 72 71
M y o g l o b i n ( O x y g e n S t o r a g e ) (Fe r r i c I r o n —
M e t m y o g l o b i n ) I M B N l H 70' — 69 68
Me l i t t i n ( H e m o l y t i c P o l y p e p t i d e ) I M L T l H 84 + 84 73
S c o r p i o n N e u r o t o x i n 1SN31M 9 9 70 81 87
ISSN 0233-7657 БИОПОЛИМЕРЫ И КЛЕТКА. 1993. Т. 9. № 5 63
Окончание таблиц
Наименование белка
Имя
файла
в Б Д
Результат, %
Qa Gb Qo Q
Ovomucoid Third Domain (Proteinase Inhibi-
tor, Kazal)
Papain Sulfhydryl Proteinase (Papaya Fruit
Latex)
Phospholipase A2 (Phosphatide Acyl-Hydro-
lase)
Plastocyanin (Electron Transport, Copper
Binding)
Prealbumin (Thyroxin, Retinol Transport)
Proteinase A (SGPA) (Hydrolase: Serine Pro-
teinase)
Serine Proteinase (Rat Mast Cell Protease)
Ribonuclease A (Bovine Pancrease)
Rubredoxin Iron-Sulfur Protein (Clostridium)
Staphylococcal Nuclease
Subtilysin BPN 7 (Hydrolase: Serine Proteina-
nase)
Cu, Zn Superoxide Dismutase (Oxidoreducta-
se: Superoxide)
Thermolysin (Hydrolase: Neutral Metallo-Pro'-
teinase)
Beta Trypsin (Bovine) Orthorornbic
Trypsin Inhibitor (Proteinase Inhibitor)
Coat Protein of Satellite Tobacco Necrosis Vi-
rus
Southern Bean Mosaic Virus Coat Protein
Hydrolase (Aspartic Proteinase)
Calcium Binding Protein
Hydrolase (Serine Proteinase and Zymogen)
Hydrolase (Serine Proteinase and Zymogen)
Serine Proteinase
Complex (Serine Proteinase-Inhibitor)
Complex (Serine Proteinase-Inhibitor)
Transferase (Phosphotransferase)
Proteinase Inhibitor (Chymotrypsin)
Oxidoreductase (Oxygenase)
Oxidoreductase (Mavoenzyme)
Transferase (Phosphotransferase)
Photosynthetic Reaction Center
Photosynthetic Reaction Center
Photosynthetic Reaction Center
Photosynthetic Reaction Center
Electron Transfer (Cuproprotein)
Contractile System Proteins
DNA Binding Regulatory Protein
Chromosomal Protein
DNA Binding Regulatory Protein
Glycosidase Inhibitor
Periplasmic Binding Protein
Steroid Binding
Hydrolase (Acid Proteinase)
Hydrolase (Endoribonuclease)
Ligase (Synthetase) Chain 1
Ligase (Synthetase) Chain 2
Lyase (Carbon — Oxygen) Chain 2
Lyase (Carbon — Oxygen) Chain 3
Lyase (Carbon — Oxygen) Chain 4
Lyase (Carbon — Oxygen) Chain 5
Oxidoreductase
Oxidoreductase (Aldehyde ( D ) - N A D ( A ) )
Oxidoreductase ( N A D ( A ) - C H O H ( D ) )
Oxidoreductase (NAD(A) — C H O H ( D ) )
Oxidoreductase (Oxyfen(A) ) Chain 1
Oxidoreductase ( O x y g e n ( A ) ) Chain 2
Усредненный показатель
IOVOlM 66 51 67 57
I P P D l M 70 63 65 64
1ΒΡ2ΊΜ 59 46 55 52
IPCYlE 44 77 64 64
2РАВ1Е 89 65 74 64
2SGA1E 76 64 62 57
3RP21E 88 75 75 75
1RN31M 77 68 71 65
4RXN1M + 79 79' 83
2 S1N1SIM 86 56 73 66
I S B T l M 90 77 84 82
2 S 0 D 1 E 69 68 68
3TLN1M 77 66 66 63
I T P O l E 88 75 78 77
4PTI1M 64 77 70 65
2STU1E 77 60 56 54
4SBV1E 59 48 52 48
2APR 86 73 74 71
3CLN 82 74 79 75
I P S G l 69 75 65 63
1PSG2 75 63 60 58
2PRK 75 62 65 64
2SEC1 92 82 83 83
2SEC2 86 66 70 71
3ADK 77 66 71 63
2CI2 66 80 74 70
2СРР 77 69 74 70
3GRS 80 66 72 67
3PFK 71 77 70 63
IPRCl 75 46 75 74
1PRC2 71 57 71 62
1PRC3 73 54 71 64
1PRC4 65 64 66 66
2PAZ 76 76 74 73
5TNC 90 59 86 83
2WRP 71 + 71 70
IUBG 80 73 74 72
ILRD 79 — 73 74
IHOE + 72 72 72
2LBP 79 70 78 71
2UTG 79 + 79 71
3 H U P — 67 78 66
IRNT 88 64 65 66
2TS1 81 67 78 73
2TS2 80 99 78 79
IWSY 80 85 79 80
IWSY 71 77 70 63
IWSY 66 80 74 70
IWSY 80 66 72 67
1IPHH 69 75 65 63
IGDl 77 68 71 65
8ADH 67 60 66 62
4MDH 76 76 74 73
IGOX 90 59 86 83
IGOX 71 57 71 62
74 67 71 68
П р и м е ч а н и е . Если прогнозируемый белок, по данным рентгеноструктурного ана-
лиза, не содержал остатков в конформационном состоянии s, то в случае корректного
прогнозирования этот факт отмечается в таблице знаком плюс, иначе ставится знак
минус.
ISSN 0233-7657 БИОПОЛИМЕРЫ И КЛЕТКА. 1993. Т. 9. № 5 64
где N — общее число остатков.
Результаты и обсуждение. Пусть задан участок белка из т остат-
ков и надо определить, в какую структуру встраивается і-й остаток
данного участка. Д л я этого из банка данных извлекаются все последо-
вательности длиной /п, содержащие на ι-м месте заданный аминокис-
лотный остаток. Далее в і-е место каждой последовательности вместо
остатка заносится значение вторичной структуры этого остатка.
Полученные последовательности, записанные одна за одной, образуют
таблицу эмпирических данных, і-й столбец которой состоит из
значений вторичной структуры определяемого остатка. Остальные
столбцы составляют соответствующие остатки (всего в таблице
т столбцов).
Если в качестве целевого состояния Pl задать состояние (Ii) Fі, то
GUHA-метод выдаст все комбинации контекстных остатков, связанные
с встраиванием г'-го остатка в α-спираль. Аналогично получаются ре-
зультаты для других значений вторичной структуры. В итоге формиру-
ется множество гипотез встраивания данного остатка во вторичную
структуру.
Критерии выбора следующий: прогнозируемое значение вторичной
структуры то, которое дает наименьшее значение критического уровня
во всех полученных гипотезах.
Прогнозирование для белка произвольной длины осуществляется
последовательным прогнозированием каждого остатка в контексте
(m l ) соответствующих остатков.
Для практического осуществления метода необходимо определить
параметρы:
m — длину последовательности остатков;
і — расположение прогнозируемого остатка.
Опытным путем установлены оптимальные значения:
т =5; і = 1.
Схема предсказания вторичной структуры была следующая:
107 белков составляли обучающее множество, т. е. множество, па кото-
ром GIJHA-метод формировал гипотезы об окружении аминокислот.
108-її белок брали в качестве тестируемого и предсказывали его вто-
ричную структуру. Такая циклическая процедура проделана для каж-
дого из 108 белков используемой базы данных. Результаты предсказа-
ния для каждого белка представлены в таблице. Средняя точность
предсказания по всем белкам для всех трех состояний составила
68 % корректного предсказания, что на настоящий момент является
одним из лучших результатов по предсказанию вторичной структуры
белкX [3].
Р е з ю м е . У роботі з а п р о п о н о в а н о новий метод передбачення вторинної структури біл-
ка, щ о базується на в ідомому в галуз і експертних систем G U H A - м е т о д і . Н а в ч а н н я та
передбачення грунтуються на інформац і ї про вторинну с т р у к т у р у 108 білків (біля
2 0 0 0 0 амінокислотних з а л и ш к і в ) з рентгенострухтурним розд іленням менше 0,2 нм. Се-
редня точність передбачення з використаного в роботі банку д а н и х с к л а д а є д л я а -сп і -
ралі - 74 %, β - с к л а д к и — 67 %, нерегулярно ї структури — 71 %; з а г а л ь н а — 6 8 % .
S u i n m n r y . A new m e t h o d for p ro te in s e c o n d a r y s t r u c t u r e p red ic t ion is descr ibed
in the n . e s c n t ar t ic le . This me thod based on G U H A - m e t h o d h a s been k n o w n in the field
o; e X "}·: ї і svsh'vr̂ I P 'nrrn M і inn trsr <· «· *
(Ts~+) —число остатков, не входящих в структуру s и совпадаю-
щих по предсказанию с данными рентгеноструктурного анализа.
Общую достоверность оценивали по формуле
X-ray resolution less than 0,2 nm w a s used for learning and prediction of protein secon-
dary structure. Average accuracy of prediction for helix is 74 %, strand is 67 %, coil is
71 % and for three states simultaneously is 68 % of successful prediction.
СПИСОК ЛИТЕРАТУРЫ
1. Sternberg Μ. J. E., Islam S. A. Local protein sequence similarity does not implpy a
structural relationship / /Prot . Engen.— 1990.—4, N 2 . — P . 125—131.
2. Гаек П., Гавранек Т. Автоматическое образование гипотез / Пер. с англ.— М. : Нау-
ка, 1984.
3. Мальченко С. 3., Чащин Н. А. Предсказание вторичной структуры белков/ /Биополи-
меры и клетка,— 1992.— 8, № 5.— С. 21—31.
Ин-т молекуляр. биологии и генетики Получено 26.04.93
АН Украины, Киев
УДК 547.963.3+577.323
Λ. И. Егоренков, В. В. Король
ПАКЕТ ПРИКЛАДНЫХ ПРОГРАММ
ДЛЯ ГРАФИЧЕСКОГО ИЗУЧЕНИЯ ТОПОЛОГИИ ПОВЕРХНОСТИ
ПОТЕНЦИАЛЬНОЙ ЭНЕРГИИ, СООТВЕТСТВУЮЩЕЙ
КОНФОРМАЦИОННОЙ ДИНАМИКЕ МОЛЕКУЛЫ ДНК
В работе описан пакет прикладных программ, предназначенный для визуального (гра-
фического) изучения топологии поверхности потенциальной энергии, соответствующей
внутренним движениям двойной спирали ДНК. Пакет применен для анализа данных
аналитического моделирования торсионной динамики ДНК, описывающей процесс ло-
кального раскрытия пар азотистых оснований. Обсуждаются возможности программ для
решения задач численного моделирования динамики ДНК методами атом-агомных по-
тенциалов.
Программы имеют удобный пользовательский интерфейс и современные алгорит-
мы работы с трехмерной графикой (построение карт поверхностей и изополос, динами-
ческое картирование). Программы реализованы для персонального компьютера IBM PC
AT IXT в стандартной конфигурации с видеоадаптером CG А/V G А, язык програм-
мирования С.
Введение. Молекула Д Н К как сложная биологическая система обла-
дает большим разнообразием внутренних движений и их сложной
иерархией. При изучении механизмов биологического функционирова-
ния Д Н К необходимо учитывать динамические возможности молекулы.
Классификация разных движений Д Н К позволяет выделить следующие
их типы, различающиеся по характерным временам и энергиям [1, 2] :
малые колебания атомов около положения равновесия; ограниченные
движения Сахаров, фосфатов, азотистых оснований около положения
равновесия; малоамплитудные торсионные и изгибные движения двой-
ной спирали Д Н К ; движения, связанные с A ^B ^Z-переходами; дви-
жения большой амплитуды, зависящие от изменения суперспиральиого
состояния Д Н К ; локальное расплетание двойной спирали. Один из воз-
можных типов внутримолекулярных движений, а именно: локальное
раскрытие пар оснований попадает в две сильно отличающиеся по ха-
рактерным временам группы движений: IO - 7 —Ю - 5 с для раскрытия от-
дельной пары оснований и 10~4—Ю -2 с для раскрытия пар оснований,
связанного с расплетанием двойной спирали Д Н К . Данный тип кон-
формационной подвижности важен для понимания предполагаемых ме-
ханизмов белково-нуклеинового взаимодействия и возможен при взаи-
модействии Д Н К с лигандами разной природы [3], при флуктуацион-
ном локальном раскрытии пар азотистых оснований [4], при резопан-
© А. И. Егоренков, В. В. Король, 1993
66 ISSN 0233-7657 БИОПОЛИМЕРЫ И КЛЕТКА. 1993. Т. 9. № 5 66
|