Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК
Проведен детальный анализ встречаемости потенциальных сайтов образования H-формы (Н-палиндромов) и других локальных гомопурин-гомопиримидиновых зеркальных повторов в различных функциональных областях природных ДНК. Получены распределения встречаемости таких сочетаний нуклеотидов относительно точек и...
Gespeichert in:
Datum: | 1989 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | Russian |
Veröffentlicht: |
Інститут молекулярної біології і генетики НАН України
1989
|
Schriftenreihe: | Биополимеры и клетка |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/154976 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК / Г.М. Субоч, Ю.А. Спрнжицкий, А.А. Александров // Биополимеры и клетка. — 1989. — Т. 5, № 4. — С. 24-30. — Бібліогр.: 11 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-154976 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1549762019-06-17T01:31:58Z Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК Субоч, Г.М. Сприжицкий, Ю.А. Александров, А.А. Структура и функции биополимеров Проведен детальный анализ встречаемости потенциальных сайтов образования H-формы (Н-палиндромов) и других локальных гомопурин-гомопиримидиновых зеркальных повторов в различных функциональных областях природных ДНК. Получены распределения встречаемости таких сочетаний нуклеотидов относительно точек инициации и терминации трансляции. Проведено детальний аналіз зустрічальності потенційних сайтів утворення H-форми (Н-паліндромів) та інших локальних гомопурин-гомопіримідинових дзеркальних повторів у різних функціональних областях природних ДНК. Отримано розподіли зустрічальності таких поєднань нуклеотидів щодо точок ініціації і термінації трансляції. Occurrence of the potential sites of the H-form (H-palindromes) formation in different functional regions of natural DNAs has been statistically analyzed in detail. Statistical significance of the results is estimated using model sequences and the Monte-Cario method. It is shown that the unique frequencies of H-palindromes in all the samples, with the exception of the vertebrate introns, can be explained by the effect of the nonrandom distribution of the nucleotide runs in natural DNAs. The values of frequencies of the H-palindromes occurrence are compared with frequencies of occurrence of all the homo-purine and homopyrimidine mirror repeats with length of not less than 4 bp. and at a distance from 3 to 12 bp. It is shown that sites of picks' localization in distributions for H-palindromes and purine repeats do not correlate between themselves. 1989 Article Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК / Г.М. Субоч, Ю.А. Спрнжицкий, А.А. Александров // Биополимеры и клетка. — 1989. — Т. 5, № 4. — С. 24-30. — Бібліогр.: 11 назв. — рос. 0233-7657 DOI: http://dx.doi.org/10.7124/bc.0000CF http://dspace.nbuv.gov.ua/handle/123456789/154976 576.315.42 ru Биополимеры и клетка Інститут молекулярної біології і генетики НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Структура и функции биополимеров Структура и функции биополимеров |
spellingShingle |
Структура и функции биополимеров Структура и функции биополимеров Субоч, Г.М. Сприжицкий, Ю.А. Александров, А.А. Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК Биополимеры и клетка |
description |
Проведен детальный анализ встречаемости потенциальных сайтов образования H-формы (Н-палиндромов) и других локальных гомопурин-гомопиримидиновых зеркальных повторов в различных функциональных областях природных ДНК. Получены распределения встречаемости таких сочетаний нуклеотидов относительно точек инициации и терминации трансляции. |
format |
Article |
author |
Субоч, Г.М. Сприжицкий, Ю.А. Александров, А.А. |
author_facet |
Субоч, Г.М. Сприжицкий, Ю.А. Александров, А.А. |
author_sort |
Субоч, Г.М. |
title |
Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК |
title_short |
Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК |
title_full |
Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК |
title_fullStr |
Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК |
title_full_unstemmed |
Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК |
title_sort |
встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных днк |
publisher |
Інститут молекулярної біології і генетики НАН України |
publishDate |
1989 |
topic_facet |
Структура и функции биополимеров |
url |
http://dspace.nbuv.gov.ua/handle/123456789/154976 |
citation_txt |
Встречаемость гомопурин-гомопиримидиновых зеркальных повторов в природных ДНК / Г.М. Субоч, Ю.А. Спрнжицкий, А.А. Александров // Биополимеры и клетка. — 1989. — Т. 5, № 4. — С. 24-30. — Бібліогр.: 11 назв. — рос. |
series |
Биополимеры и клетка |
work_keys_str_mv |
AT subočgm vstrečaemostʹgomopuringomopirimidinovyhzerkalʹnyhpovtorovvprirodnyhdnk AT sprižickijûa vstrečaemostʹgomopuringomopirimidinovyhzerkalʹnyhpovtorovvprirodnyhdnk AT aleksandrovaa vstrečaemostʹgomopuringomopirimidinovyhzerkalʹnyhpovtorovvprirodnyhdnk |
first_indexed |
2025-07-14T07:00:44Z |
last_indexed |
2025-07-14T07:00:44Z |
_version_ |
1837604740885643264 |
fulltext |
Структура
и функция
биополимеров
У Д К 576.315.42
Г. М. Субоч, Ю. А. Спрнжицкий, А. А. Александров
ВСТРЕЧАЕМОСТЬ ГОМОПУРИН-ГОМОПИРИМИДИНОВЫХ
ЗЕРКАЛЬНЫХ ПОВТОРОВ В ПРИРОДНЫХ ДНК
Проведен детальный анализ встречаемости потенциальных сайтов образования H-фор-
мы (Н-палиндромов) и других локальных гомопурин-гомопиримидиновых зеркальных
повторов в различных функциональных областях природных ДИК. Получены распре-
деления встречаемости таких сочетаний нуклеотидов относительно точек инициации и
терминации трансляции.
Введение. Задача поиска возможной биологической роли неканониче-
ских структур, таких как кресты, Z-форма или Н-форма [1, 3], явля-
ется весьма актуальной. Одним из подходов к решению этой задачи
может быть статистический анализ встречаемости в природных Д Н К
такого рода структур и определение районов с повышенной вероятно-
стью их локализации относительно различных функциональных
зон ДНК.
Недавно в гомопурин-гомопиримидиновых участках сверхспираль-
ной Д Н К был обнаружен рН-зависимый конформационный переход
[2]. Наиболее вероятная структура, формирующаяся при этом, содер-
жит трехнитчатую шпильку, образованную двумя гомопиримидиновыми
и одной гомопуриновой нитью [2, 3]. Такая структура, названная
Η-формой, может образовываться лишь в области зеркального гомо-
пурин-гомопиримидинового повтора типа 5/-..AGAGG....GGAGA..-3/ или
5'-..TCTCC....CCTCT..-3' по комплементарной нити. Назовем участок по-
следовательности в промежутке между повторами петлей, а сочетание
нуклеотидов, соответствующее самому повтору,— стеблем. Следует под-
черкнуть, что энергетические требования образования Η-формы накла-
дывают определенные ограничения на нуклеотидпый состав и на длины
петли и стебля. Будем исходить из следующего критерия причисления
зеркального гомопурин-гомопиримидипового повтора к потенциальному
сайту образования Н-формы: GC-содержание повтора должно быть не
меньше 7 5 % , а GC-содержание петли — меньше 5 0 % , причем длина
стебля должна превышать три пары оснований, а длина петли должна
лежать в пределах от 3 до 12 нуклеотидов. Структуры такого типа бу-
дем называть Η-палиндромами, естественно, понимая при этом, что без
участия белков такой участок перейти в Η-форму не может.
В данной работе проведен детальный статистический анализ встре-
чаемости Η-палиндромов в различных функциональных областях при-
родных ДНК. Используя модельные последовательности, методом Мон-
те-Карло сделаны оценки статистической значимости результатов. Зна-
чения частот встречаемости Η-палиндромов соотносятся с таковыми
всех гомопурин-гомопиримидиновых зеркальных повторов с длиной
стебля не меньше 4 нуклеотидов и длиной петли от 3 до 12 нуклеоти-
дов. Получены распределения встречаемости таких сочетаний нуклеоти-
дов относительно точек инициации и терминации трансляции.
24 ISSN 0233-7657. Б И О П О Л И М Е Р Ы II КЛЕТКА 1989. Т. 5. λ·> 4
Программы и методы. Д л я анализа встречаемости исследуемых структур нами
был написан комплекс программ, позволяющих осуществить поиск локальных инверти-
рованных и зеркальных несовершенных повторов, рассчитать их частоты встречаемости
в различных областях генома, построить распределения локализации различных сайтов
относительно точек инициации и терминации трансляции. Перекрывающиеся повторы,
а т а к ж е повторы, образованные многократно тандемно повторенными моно- или ди-
нуклеотидами, при расчете не учитывались. Все программы написаны на языке T U R B O
PASCAL и реализованы на персональном компьютере IBM PC.
Д л я решения вопроса, чем определяются наблюдаемые частоты встречаемости
зеркальных повторов, мы генерировали и исследовали случайные последовательности
трех видов: с заданным пуклеотидным составом, с заданными частотами тринуклеоти-
дов и с заданным распределением блоков нуклеотидов различного типа по длинам. Вы-
бор третьей модели обусловлен обнаруженными ранее [6] значительными отклонения-
ми частот встречаемости блоков разной длины в природных последовательностях
Д Н К от ожидаемых для случайных последовательностей того ж е пуклеотидного со-
става. Преимущества этой модели продемонстрированы в [7]. Мы разработали алго-
ритм генерации случайной последовательности, для которой математическое ожидание
числа блоков различной длины для нуклеотидов шести типов (пурины, пиримидины,
А, Т, G, С) равнялось бы заранее заданным величинам. Эти величины выбирались в
соответствии с реально наблюдаемыми частотами блоков в кодирующих и некодирую-
щих последовательностях Д Н К из геномов различных организмов. Д л я к а ж д о г о такого
специфического набора параметров сблоченности генерировали случайную последова-
тельность. Ранее было показано, что частоты блоков являются консервативными в
пределах довольно больших таксономических групп [6], и отмечалась близость этих
характеристик для регуляторных участков и интронов. Поэтому для оценки ожидаемо-
го числа встречаемости повторов -в нитронах и в 5', З ' -нетранслируемых участках пос-
ледовательностей Д Н К из организмов, принадлежащих одной таксономической группе,
использовали одни и те ж е модельные последовательности. Алгоритм генерации опи-
сан в [7].
Мы генерировали для к а ж д о г о типа областей модельные последовательности дли-
ной по 100000 нуклеотидов. Д л я оценки разброса частот повторов, обусловленного
статистически случайным характером генерации последовательности, применяли про-
цедуру типа бутстреп [8, 9] . Методика определения средних значений частот (т. е.
ожидаемых частот) и доверительного интервала отклонения от средних приво-
дится в [7].
Выборки последовательностей получены из базы данных нуклеотидных последова-
тельностей GenBank, содержащей около 8,5 млн нуклеотидов [10]. Длины выборок
функциональных областей представлены в таблице. Следует подчеркнуть, что мы ис-
Размеры выборок функциональных участков ДНК из различных организмов
The sizes of the sets of DNA functional regions from the different species
Организм Белок-кодирующие
области Интроны и З ' -нетранслиру-
емые у ч а с т к и
Человек (а) 276,942 174,761 337,233
Грызуны (б) 321,807 150,253 291,800
Позвоночные без человека и
грызунов (в) 118,825 62,150 113,290
Беспозвоночные (г) 117,855 15,035 117,034
Д р о ж ж и (д) 131,826 — 127,034
Прокариоты (е) 549,988 — 292,021
П р и м е ч а н и е . Буквы в скобках соответствуют аналогично обозначенным выборкам,
приведенным на рис. 2.
ключили из рассмотрения последовательности, описания которых не содержат функ-
циональных участков. Мы т а к ж е не приводим результатов расчетов для областей, ко-
дирующих т Р Н К , р Р Н К и м я Р Н К , из-за малой длины этих выборок, следствием чего
является низкая статистическая значимость результатов.
25 ISSN 0233-7657. Б И О П О Л И М Е Р Ы II КЛЕТКА 1989. Т. 5. λ·> 4
Результаты и обсуждение. Мы рассчитали частоты встречаемости
Η-палиндромов в выборках последовательностей ДНК, указанных в
таблице. Почти для всех выборок наблюдаемые частоты существенно
отличаются от частоты, полученной на модельной последовательности
с равновероятным случайным распределением нуклеотидов. Очевидно,
что столь простая модель не может нас удовлетворить при оценке ожи-
даемых частот таких специфических структур, как гомопурин-гомопири-
мидиновые зеркальные повторы, поскольку, как уже отмечалось, сбло-
ченность нуклеотидов может оказывать существенное влияние па эти
оценки [7]. На рис. 1 представлены распределения бутстрепа для мо-
дельных последовательностей и средние частоты встречаемости Н-па-
линдромов для выборок Д Н К человека. Видно, что учет сблоченности
нуклеотидов приводит к значительному смещению ожидаемых значе-
26 ISSN 0233-7657. Б И О П О Л И М Е Р Ы II КЛЕТКА 1989. Т. 5. λ·> 4
Рис. 1. Плотности распределения частот встречаемости Η-палиндромов в модельных
последовательностях с равновероятным случайным распределением оснований ( / ) и в
последовательностях, сгенерированных с учетом параметров сблоченности нуклеотидов
в различных функциональных областях Д Н К млекопитающих: в белок-кодирующих об-
ластях (2); в некодирующих участках (3). П о оси абсцисс отложено число Н-палинд-
ромов в последовательности длиной 100000 нуклеотидов; по оси ординат — относитель-
ная доля последовательностей, содержащих данное число Н-палипдромов ( f i ) . Распре-
деления получены путем применения процедуры бутстрепа к первоначально сгенериро-
ванным случайным последовательностям [7] и стандартной процедуры сглаживания
экспериментальных данных с окном семь точек. Вертикальные линии отмечают на оси
абсцисс средние значения частот Η-палиндромов в интронах (I), кодирующих (С) и
5', З ' -нетранслируемых (N) последовательностях Д Н К человека. Горизонтальные от-
резки демонстрируют разброс средних значений в подвыборках, полученных случайной
разбивкой основной выборки на две части
Fig. 1. Dis t r ibut ion densi t ies of the H-pa l ind romes occurrence f requencies in model se-
quences with r a n d o m dis t r ibut ion of nucleot ides (1) and in sequences, genera ted by
m e a n s of u s ing f requencies of nucleot ide runs in d i f ferent func t iona l reg ions of m a m m a -
lian DNAs: in pro te in-coding a reas (2), in noncod ing reg ions (3). Abscissa: occurrence
n u m b e r s of H-pa l ind romes N; ordinate : the pe rcen tage counts of sequences, which con-
ta in the given number of H-pa l ind romes / ь The d is t r ibut ions are derived by m e a n s of
appl icat ion of boo ts t rap method to the model sequence and u s ing s t a n d a r d smoo th ing
procedure to the exper imenta l points . The vert ical l ines correspond to the mean va lues
of f requencies of H-pa l ind romes in in t rons ( / ) , cod ing a reas (C) and in r egu la to ry re-
g ions (N) of h u m a n DNA
Рис. 2. Частоты встречаемости Н-палипдромов на 100000 пар нуклеотидов Nn в вы-
борках последовательностей различных групп организмов (характеристики выборок
а — е приведены в таблице) : С — к о д и р у ю щ и е области; N — 5'- и З ' -нетранслируемые
участки; / — интроны. Штрих-пунктирной линией показан уровень, соответствующий
ожидаемой частоте Η-палиндромов в последовательности со случайным равновероят-
ным распределением нуклеотидов. Отрезками штриховой линии отмечены средние час-
тоты Η-палиндромов в модельных последовательностях, сгенерированных с учетом па-
раметров сблоченности, характеризующих данную выборку природных последователь-
ностей. Стрелками обозначены доверительные интервалы для этих средних с 5 %-ным
уровнем значимости, рассчитанные из распределений, полученных методом бутстрепа
(см. рис. 1)
Fig . 2. The f requencies of occurrence of H-pa l ind romes Nn in na tu ra l sequences f rom
va r ious g roups of o r g a n i s m s (a-e character is t ics , see tab. 1): C — c o d i n g areas ; N — 5'~
and З ' -noncod ing regions; / — introns . The dashed-do t s line cor responds to the level of
expected f requency of H-pa l ind romes in sequence with a r andom dis t r ibut ion of bases .
The dashed line represents the mean frequencies of H-pa l indromes in model sequences
genera ted us ing the nucleot ide runs frequencies . The a r rows limit a conf idence in terva ls
for these mean va lues with 5 % s igni f icance level
Рис. 3. Частоты встречаемости Н-палиндромов в последовательностях Д Н К человека
при различных значениях максимальной длины петли (см. т а к ж е подпись к рис. 2)
Fig. 3. The f requencies of occurrence of H-pa l ind romes in the h u m a n DNA sequences
ve r sus maximal length wlmiiK of gap (see legend to F ig . 2)
Рис. 4. Частоты встречаемости пуриновых повторов в различных функциональных об-
ластях разных организмов (см. подпись к рис. 2)
Fig. 4. Frequencies of occurrence of pur ine repeats in d i f ferent func t iona l reg ions of
DNA of var ious o r g a n i s m s (see legend to Fig. 2)
тропов грызунов и человека. В остальных случаях различия результа-
тов для выборок последовательностей разных групп могут объясняться
специфическим набором параметров сблоченности. Однако существует
устойчивая тенденция превышения встречаемости Η-палиндромов в ни-
тронах над 5', З'-нетранслируемыми областями (для последовательнос-
тей позвоночных) и в некодирующих областях над белок-кодирующими.
На рис. 3 представлены частоты встречаемости Η-палиндромов в
Д Н К человека в зависимости от максимальной длины петли wl. Видно,
что результаты, полученные для wlmах=12, качественно не меняются
при уменьшении этой величины. К такому же выводу мы пришли, про-
анализировав аналогичным образом другие выборки последователь-
ностей.
Анализ последовательностей, составляющих Η-палиндромы, пока-
зал, что наиболее распространенными являются повторы, имеющие
структуру типа 5'-..CCCC — CCCC..-3'. Они составляют 34 % общего
числа Η-палиндромов. Другие типы Η-палиндромов встречаются в сле-
дующих пропорциях: ..CTCC — 22, . .CCTC—18, . .TCCC—17 и
. . C C C T — 11 % .
Как отмечалось выше, Н-палиндромы — частный случай локальных
зеркальных гомопурин-гомопиримидиновых повторов (для краткости
будем называть последние просто пуриновыми повторами). Рис. 4 де-
монстрирует распределение встречаемости таких структур в различных
выборках. В отличие от результатов, представленных на рис. 2 для
Η-палиндромов, в данном случае можно отметить значительное превы-
шение средних значений наблюдаемых частот над ожидаемыми для всех
ISSN 023Э-7С57. Б И О П О Л И М Е Р Ы И КЛЕТКА 1989. Т. 5. № 4 27
пий, и что статистически достоверное превышение встречаемости Н-па-
линдромов в природных последовательностях над встречаемостью таких
структур в модельных последовательностях наблюдается лишь для ни-
тронов, причем это превышение незначительно.
На рис. 2 приведены данные о частотах встречаемости Н-палинд-
ромов в различных функциональных областях Д Н К из геномов разных
организмов. В каждом случае указывается ожидаемое число Н-палинд-
ромов и доверительный интервал с 5 %-ным уровнем значимости дву-
стороннего критерия принятия нулевой гипотезы (о равенстве паблю-
даемых и ожидаемых значений этих
частот). Приведенные результаты
показывают, что наиболее значи-1
тельное превышение числа Н-па-
лиидромов над ожидаемым значе-
нием наблюдается для выборок ип-
без исключения выборок последовательностей, причем для млекопита-
ющих встречаемость таких структур в интронах выше, чем в 5'- и 3'-
нетранслируемых областях, а в тех в свою очередь выше, чем в белок-
кодирующих. Д л я Д Н К из организмов остальных таксономических
групп также число повторов в некодирующих участках больше, чем в
белок-кодирующих. Следует отметить, что наибольшая насыщенность
пуриновыми повторами присуща Д Н К млекопитающих, а наимень-
ш а я — Д Н К прокариот.
Анализ процентного содержания Η-палиндромов среди всех пури-
нових повторов показал, что эта величина в модельных последова-
тельностях выше, чем в природных. Данное свойство может объяснять-
Рис. 5. Распределение нормированных
частот встречаемости зеркальных повто-
ров относительно точки инициации тран-
сляции в последовательностях Д Н К
позвоночных: Η-палиндромов (а) и пу-
риновых повторов (б). П о оси абсцисс
отложено расстояние от инициирующего
кодона в нуклеотидах; по оси ординат —
нормированное число повторов в интер-
валах длиной 100 нуклеотидов, располо-
женных на данном расстоянии от ини-
циирующего кодона — f . Нормировку
производили на суммарную длину про-
анализированных для данного расстоя-
ния интервалов. Кривая получена по-
средством стандартной процедуры сгла-
живания экспериментальных данных с
окном семь точек
Fig. 5. Distr ibut ion of the normal ized f requencies of occurrence of mi r ror repeats і aro-
und t r ans la t ion init iat ion point in the sequences of ver tebra te DNAs: H-pa l ind romes (a ) ;
pur ine repeats (6) . Abscissa: the d is tance f rom ini t iat ion codon; ord ina te : the normal ized
number of repeats located in r a n g e of 100 bp. at a given dis tance f rom considered
poin ts
ся наличием в W- и З'-нетранслируемых областях и нитронах длинных
АТ-богатых участков [6]. Однако только этим обстоятельством нельзя
объяснить наблюдаемые отклонения, так как повышенная встречае-
мость пуриновых повторов наблюдается и в кодирующих областях. Био-
логическая роль зеркальных повторов пока неясна, однако, как отмеча-
ется в [11], высокая их встречаемость может быть выгодной из-за чрез-
вычайно низкой вероятности формирования вторичной структуры мРНК
в области таких повторов.
Поскольку альтернативные структуры ДНК, в том числе и Н-фор-
ма, могут участвовать в регуляции генетических процессов, естествен-
ным является предположение о повышенной их встречаемости в конк-
ретных местах, находящихся на определенном расстоянии от функцио-
нальных сайтов. Мы построили модель распределения встречаемости
Η-палиндромов и всех гомопурин-гомопиримидиновых зеркальных по-
второв относительно точек инициации и терминации трансляции в по-
следовательностях Д Н К позвоночных. Известно, что исследуемая струк-
тура Η-формы может обусловливать гиперчувствительность к действию
Sl нуклеазы [4, 5], которая часто наблюдается вблизи точек инициа-
ции транскрипции. Замена точек отсчета в данной работе вызвана недо-
статочной информацией в банке данных о точках инициации транскрип-
ции и частично обоснована относительно небольшим разбросом расстоя-
ний между точками инициации транскрипции и трансляции в генах
позвоночных.
На рис. 5, а, представлено распределение частот встречаемости
вдоль Д Н К центров Η-палиндромов в окне размером 100 нуклеотидов
в зависимости от расстояния до инициирующего кодона. Сканирование
последовательностей проводили с шагом 50 нуклеотидов. Видно, что
распределение более гетерогенно в некодирующих областях, чем в бе-
28 ISSN 0233-7657. Б И О П О Л И М Е Р Ы II КЛЕТКА 1989. Т. 5. λ·> 4
лок-кодирующих. Эта же тенденция характерна для распределения от-
носительно точки терминации трансляции. Нормированные частоты име-
ют в рассмотренных участках следующие средние значения: 15,9...
... [ATQ 7,5 ... кодирующая область ... 7,9 TGA] ... 9,7, т. е. в б'-иетранс-
лируемых областях Η-палиндромы встречаются чаще, чем в З'-нетранс-
лируемых. Рис. 5,6, демонстрирует аналогичные распределения для пу-
риповых повторов. Средние значения частот в данном случае распределе-
ны следующим образом: 148,2... [ATG 94,8... кодирующая область...
... 95,4 TGA] ... 100,7. Интересно, что места расположения пиков в рас-
пределениях для Η-палиндромов и пурииовых повторов не коррелиру-
ют друг с другом. Это свидетельствует о том, что распределение Н-па-
линдромов пе является простым следствием распределения пуриновых
повторов, а указывает па возможность существования мест с повышен-
ной вероятностью локализации Н-палиндромов.
Авторы глубоко признательны М. Д. Франк-Каменецкому,
С. М. Миркипу, В. И. Лямичеву за предложение темы данной работы
и множество полезных обсуждений в процессе се выполнения.
С П И С О К Л И Т Е Р А Т У Р Ы
1. Лазуркин Ю. С. Д Н К : сверхсиирализация и образование неканонических струк-
тур / / Биополимеры и клетка.— 1986.—2, № 6 .—С. 283—292.
2. Лямичев В. И., Маркин С. M., Франк-Каменецкий М. Д. рН-зависимый структурный
переход в гомопурин-гомопиримидиновом блоке в сверхспиральпой Д Н К / / Там
же — № 3 , — С . Γΐ5—124.
3. Lyaniichev V. L, Mirkiti S. M., Frank-Kcnnetietskii М. D. S t ruc tu res of l iomopurine-
homopyrimidii ie t ract in superhelical D N A / / J . Biomol. Struct , and Dyn.— 1986.—3,
N 4,— P. 667—699.
4. DAM II form requires a homopur ine-homopyr imid ine mir ror r e p e a t / S . M. Mirkin,
V. I. Lyamichcv, K. N. Drush lyak et a l . / / N a t u r e . — 1 9 8 7 , — 3 3 0 , N 6 1 4 7 , — P . 495—
497.
5. Chemical p rob ing of homopur ine-homopyr imid ine mir ror repeats is supercoiled DNA /
O. N. Voloshin, S. M. Mirkin, V. I. Lvamichev et a l . / / I b i d . — 1988,—333, N 6172.—
P. 475—476.
6. Закономерности сблоченности нуклеотидов в кодирующих и пекодирующих после-
довательностях Д Н К из различных организмов / Ю. А. Сприжицкий, Ю. Д . Нечи-
пуренко, А. А. Александров, М. В. В о л ь к е н ш т е й н / / М о л е к у л я р . биология,— 1988.—
22, «Ν« 2,— С. 338—356.
7. Субоч F. M., Сприжицкий Ю. А. Статистическая значимость встречаемости неко-
торых сложных сочетаний нуклеотидов: сравнение моделей Д Н К / / Биополимеры и
клетка.— 1-989—5, № 4 . — С / 3 0 — 3 7 .
<s. Ejroti В. Boo t s t r ap methods : another look at the j a c k n i f e / / A n n . Sta t i s t .— 1979.—Ί,
N 1 . — P . 1—26.
9. Диаконис П., Эфрон Б. Статистические методы с интенсивным использованием
ЭВМ / / В мире науки,— 1983.— № 7 .—С. 60—73.
К). GetiBatik (1986). Genetic sequence da ta bank, R. 44.0. BBN laborator ies , USA.
11. Becknuin J. SBretidel VTrijonov E. N. I n t e rvan ing sequences exibit dist inct vo-
c a b u l a r y / / J . Biomol. Struct , and Dyn.— 1986.—4, N 3 . — P . 391—490.
Ili i-r молекуляр. генетики АН СССР, Москва Получено 06.07.88
O C C U R R E N C E O F H O M O P U R I N E - H O M O P Y R I M I D I N E M I R R O R R E P E A T S
IN NATURAL DNAs
G. M. Suboch, Yu. A. Sprizhitsky, A. A. Alexandrov
Ins t i tu te of Molecular Genetics, Academy of Sciences of the USSR, Moscow
S u in т а г у
Occurrence of the potent ia l sites of the Η- fo rm (H-pa l indromes) fo rmat ion in d i f ferent
funct ional reg ions of na tu ra l DNAs has been s ta t is t ical ly ana lyzed in detail. S ta t i s t ica l
s ignif icance of the resul ts is es t imated us ing model sequences and the Monte -Car lo
method. It is shown tha t the unique f requencies of H-pa l indromes in all the samples , wi th
the exception of the ver tebra te introns, can be explained by the effect of the n o n r a n d o m
ISSN 023Э-7657. Б И О П О Л И М Е Р Ы И КЛЕТКА 1989. Т. 5. № 4 29
dis t r ibut ion of the nucleot ide runs in na tu ra l DNAs. The va lues of f requencies of the
H-pa l ind romes occurrence are compared with frequencies of occurrence of all the homo-
pur ine and homopyr imid ine mir ror repeats with length of not less t han 4 bp. and at a
d is tance f rom 3 to 12 bp. It is shown tha t si tes of picks' local izat ion in d is t r ibut ions for
H-pa l ind romes and pur ine repeats do not correla te between themselves .
УДК 576.315.42
Γ. Μ. Субоч, 10. А. Сприжицкий
СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ ВСТРЕЧАЕМОСТИ
НЕКОТОРЫХ СЛОЖНЫХ СОЧЕТАНИЙ НУКЛЕОТИДОВ:
СРАВНЕНИЕ МОДЕЛЕЙ ДНК
Предложена схема моделирования цепочки ДНК как последовательности блоков нук-
леотидов. Показано, что такая модель более адекватно описывает наблюдаемые час-
тоты встречаемости локальных зеркальных гомопурин-гомопиримидиновых повторов,
нежели марковская однородная модель второго порядка. Описывается методика оцен-
ки статистической значимости встречаемости в ДНК некоторых сложных сочетаний
нуклеотидов.
Введение. Изучению встречаемости различных типов повторов в Д Н К
посвящено значительное число работ. В литературе описан ряд мето-
дов и компьютерных программ для поиска и оценки статистической зна-
чимости такого рода структур. Большинство исследователей сравнива-
ют наблюдаемые значения частот встречаемости с ожидаемыми, рас-
считанными аналитически па основе вектора частот олигопуклеотидов
(такой подход приводится, например, в [1, 2] ) . Однако, учитывая не-
случайный характер организации нуклеотидов в природных ДНК, ко-
торый до конца не изучен, и то, что «словарь» Д Н К нам известен лишь
частично, закономерен вопрос об оптимальной в смысле набора и числа
параметров модели цепочки ДНК, используя которую либо аналитиче-
ски, либо методом Монте-Карло, можно получить оценки ожидаемых
частот.
При анализе встречаемости в природных Д Н К локальных г о м о п у -
рин-гомопиримидиновых зеркальных повторов как потенциальных сай-
тов образования Н-формы [3] возникла необходимость оценки ожидае-
мого числа таких структур. Ранее было показано [4], что в природных
Д Н К наблюдаемые частоты блоков типа поли (R), поли (Y), поли (А),
поли(G) и т. д. значительно отличаются от ожидаемых, рассчитанных
па основе нуклеотидного состава. Ясно, что учет этого эффекта может
оказывать существенное влияние на оценку ожидаемого числа встреча-
емости таких специфических структур, как гомопурин-гомопиримидипо-
вые повторы. Поэтому для получения подобных оценок мы генерирова-
ли случайные последовательности, в которых величины математическо-
го ожидания встречаемости блоков различных типов разной длины были
равны полученным в [4] значениям для природных ДНК.
В данной работе описан алгоритм генерации такой последователь-
ности. Показано, что моделирование цепочки Д Н К как последователь-
ности блоков нуклеотидов более адекватно описывает наблюдаемые
частоты встречаемости локальных зеркальных гомопурин-гомопирими-
диновых повторов, нежели марковская однородная модель второго по-
рядка. Предложена методика оценки статистической значимости встре-
чаемости в Д Н К некоторых сложных сочетаний нуклеотидов (таких,
например, как локальные гомопурии-гомопиримидиновые повторы) ме-
тодом Монте-Карло, использующая процедуру бутстрепа и требующая
сравнительно небольшого объема вычислений. Обсуждаются преимуще-
ства такого подхода и границы его применения.
30 ISSN 0233-7657. Б И О П О Л И М Е Р Ы II КЛЕТКА 1989. Т. 5. λ·> 4
|