Біоінформатика в світі РНК-структур

  1. Вторинна структура РНК
  2. РНК-структуроміка
  3. Природний відбір має значення
  4. всюдисуща термодинаміка
  5. У гру вступає паралельне секвенування
  6. Найбільша РНК-лабораторія в світі
Стаття на конкурс « біо / мовляв / текст »:

Амбітний проект« Геном людини », що завершився в 2003 році, був покликаний розшифрувати всю ДНК, що міститься в людському геномі. Вважалося, що проект допоможе зрозуміти, як функціонують гени, яким чином вони визначають стан клітини і організму людини в цілому, а також дасть поштовх розвитку медицини і біологічних наук. Однак дослідження показали, що вся складність клітини як цілісної системи не зводиться до одного лише геному. Функціонування і роль молекули РНК в регуляції клітинних процесів багато в чому залежать від її просторової організації, вивчення якої - складне завдання, впоратися з якою під силу тільки біоінформатики.

Вторинна структура РНК

Проект «Геном людини» [1, 2] показав, що послідовність ДНК - це ще не все. РНК, як і ДНК, має величезне значення для життя. Усередині клітин існує цілий «зоопарк» РНК [3] . Наприклад, матрична РНК (мРНК) є важливим посередником між ДНК і білками. Вона синтезується на основі ДНК, після чого в еукаріотичної клітці відправляється з ядра в цитоплазму, де використовується як шаблон для синтезу білків на рибосомі *. Хвороби (рРНК) представляють собою основний компонент рибосом, зокрема, рРНК великої субодиниці виконує синтез поліпептидного ланцюга, рРНК малої - прочитання мРНК відповідно до генетичним кодом . Транспортні РНК (тРНК) переносять до амінокислоти до рибосом, де відбувається синтез білків. Інші види РНК, такі як мікроРНК або интерферирующие РНК, довгі некодуючі РНК, РНК-губки і циклічні РНК, беруть участь в клітинної регуляції. Все розмаїття функцій, які виконуються РНК, не можна пояснити тільки на підставі даних про послідовності нуклеотидів. Очевидно, в РНК є щось ще.

Справа в тому, що РНК, подібно білкових молекул [4] , Не існує у вигляді простої ланцюжка. Нуклеотиди РНК взаємодіють один з одним, об'єднуючись в пари за принципом комплементарності, в результаті чого молекула нуклеїнової кислоти набуває химерну конфігурацію: виникають петлі, шпильки, псевдовузли і інші форми (рис. 1). Якщо первинна структура - це просто послідовність нуклеотидів, то подібні освіти відносяться до вторинної структурі. І цей рівень організації молекули також несе інформацію, яка використовується в регуляції таких процесів, як транскрипція ДНК, сплайсинг РНК, зміна активності генів за допомогою мікроРНК, а також транспорт транскриптов в певні області клітини [5] .

Малюнок 1. Різноманітність вторинних структур РНК: (а) шпилька з внутрішньої петлею, (б) дуплекс з двома виступами, (c) псевдоузел, (d) молотовідний Рибозим (hammerhead ribozyme) PDB: 1NYI , (E) тРНК PDB: 1J1U , (F) РНК з білок-РНКовго комплексу, узнающего і здійснює доставку на мембрану синтезованих на рибосомі мембранних білків (SRP RNA) PDB: 1Z43 . Праворуч від кожної структури показана її 3D-модель: передбачені за допомогою обчислювальних методів (синій колір) і отримані експериментально (жовтий колір).

Вторинна структура також впливає на взаємодію РНК з молекулами, наприклад, зі специфічними білками RBP (RNA binding proteins). Вони зв'язуються з РНК з утворенням рібонуклеопротеінових комплексів і регулюють сплайсинг, трансляцію і інші процеси. Якщо ділянку зв'язування «закритий» петлею, білок не зможе провзаємодіяти з молекулою [6] . Роль вторинної структури можна також проілюструвати впливом мутацій. В роботі Метью Халворсена (Matthew Halvorsen), опублікованій в журналі PLoS Genetics в 2010 році, вивчалися мутації, пов'язані із захворюваннями людини і знаходяться в регуляторних ділянках РНК, які називаються 5'і 3'-нетрансльовані областями. Ці області відповідають за регуляцію процесу трансляції, деградацію РНК, беруть участь в РНК-інтерференції і при цьому сильно структуровані. Мутації можуть викликати серйозні структурні перебудови, що стає причиною таких захворювань, як спадковий синдром гіперферрітінеміі-катаракти, ретинобластома або гіпертензія [7] .

Малюнок 2. Вторинна структура РНК великий рибосомальної субодиниці Escherichia coli. [Клікабельно]

При наявності певних факторів конфігурація РНК може змінюватися, що, в свою чергу, впливає на регуляцію генів. Один з кращих прикладів специфічності і динамічності вторинної структури - РНК-перемикачі (riboswitch), наявні в клітинах бактерій, дріжджів, водоростей і вищих рослин. Це ділянки мРНК, які здатні отримувати інформацію про внутрішньоклітинних умовах, зв'язуючись з лігандами. Зазвичай РНК-перемикачі складаються з двох доменів - аптамерами, який взаємодіє з лігандами, і домена експресії. Як тільки ліганд (амінокислота, нуклеотиди, іони металів) зв'язується з аптамерами, відбуваються зміни у вторинній структурі примикає до аптамерами домену експресії, що має значення для подальшої долі мРНК. Наприклад, виникнення шпильок може перешкодити транскрипції або синтезу білка в рибосомах [5] . Структура аптамерами, подібно пристрою дверного замка, підходить тільки певним ліганду, який грає роль ключа

РНК-структуроміка

Весь клітинний набір вторинних РНК-структур називається «РНК-струтурóмом» (за аналогією з генóмом або транскріптóмом) [2] . Дослідження структурома дозволяє вченим зрозуміти, як певні різновиди (мотиви) укладання молекул РНК пов'язані з участю в різних клітинних процесах, таких як транскрипція, сплайсинг, локалізація в клітині, трансляція і регуляція транскриптов. Тут вчені стикаються з певними проблемами. Недостатньо висока ефективність методів вивчення структури РНК і складність отримання довгих фрагментів РНК - істотні перешкоди на шляху до інформації про продукт структурома. Однак буквально за останні роки технології секвенування зробили величезний стрибок у розвитку. З'явилися інструменти секвенування нового покоління, які дозволяють з високою точністю і відносно швидко визначити послідовності ДНК і РНК. Дуже важливо також використання обчислювальних методів, які сильно просунулися в своїй здатності точно прогнозувати структуру РНК. При цьому все ж золотим стандартом визначення структури РНК був і залишається експеримент [5] .

Дослідження з використанням комп'ютерних методів привели до багатьох відкриттів. Наприклад, транспортні РНК володіють структурними особливостями, які відповідають їх функцій. Для пошуку тРНК існують різні інструменти, наприклад, програма tRNAscan-SE , Написана на популярному серед біоінформатики мовою Perl. Вона займається пошуком «підозрілих» ділянок в геномі, які можуть кодувати тРНК. Після ретельного «просіювання» цих ділянок, залишаються гени, які є істинними тРНК з ймовірністю в 99-100%. Програма орієнтується не тільки на послідовність нуклеотидів, яка може відрізнятися у різних тРНК, але також на вторинну структуру, яка є загальною для всіх тРНК і нагадує лист конюшини. Крім цього, tRNAscan-SE порівнює гени-кандидатів з послідовністю, структура якої відома. Якщо гени-кандидати формують таку ж структуру, значить вони з високою ймовірністю є тРНК [8] .

Природний відбір має значення

Структури РНК, як і гени, в процесі еволюції можуть піддаватися потужному відсікає відбору, іншими словами, велика частина змін відбраковують. Коваріаційний метод передбачення структури заснований на тому простому факті, що безліч відомих структур РНК консервативні, тобто зберігаються в процесі еволюції, оскільки будь-яке відхилення від цієї структури може спричинити за собою серйозні порушення і смерть організму. Всі тРНК мають вигляд листа конюшини, оскільки це важливо для їх участі в процесі синтезу білка. У ковариационную методі проводиться пошук консервативних пар нуклеотидів серед гомологічних генів (еволюціонували від загального предкового гена).

Як дізнатися, що на даній послідовності утворюється структура? Для цього потрібно, щоб заміна нуклеотиду на одній ділянці послідовності обов'язково супроводжувалася компенсаторною заміною нуклеотиду на іншій ділянці послідовності [9] . Це означає, що обидва нуклеотиду беруть участь у формуванні структури, наприклад, утворюючи пару G-C або A-U. Структура збережеться, якщо пара G-C заміниться на пару A-U або навпаки. Коли в розпорядженні є достатня кількість гомологів, то, виходячи з розташування багатьох консервативних пар, можна вивести вторинну структуру РНК (рис. 3).

Малюнок 3. Консервативність пар основ в гомологічних послідовностей є основою для передбачення вторинної структури. Стрілочками вказані взаємодіють один з одним нуклеотиди, які можуть бути різними в ряду послідовностей, проте зберігають конфігурацію молекули (праворуч).

всюдисуща термодинаміка

Коли в розпорядженні дослідника є не низка гомологів, а тільки одна послідовність, має сенс скористатися термодинамічним моделюванням. Передбачається, що молекула РНК правильної структури знаходиться в стані термодинамічної рівноваги [10] . На основі енергетичних параметрів даної молекули, отриманих експериментально, будуються всілякі конфігурації вторинної структури. Серед них шукають найбільш стійку, яка і буде правильним рішенням. Для коротких ланцюжків, довжиною менш 700 пар основ, даний метод коректно визначає структуру для 70% пар. Однак якщо ланцюжок довший, точність падає аж до 20%. Альтернативний підхід - використання алгоритмів, заснованих на імовірнісному моделюванні, - на жаль, сильно поступається термодинамічних методів. Інша можлива стратегія - об'єднання термодинамічної моделювання і машинного навчання [11] . Також за допомогою PARS-методу можна з'ясувати, які нуклеотиди є непарними, щоб виключити їх з алгоритму і поліпшити точність передбачення.

У методах передбачення вторинної структури існують суттєві обмеження. Конформаційні зміни РНК-перемикачів в результаті взаємодії з лігандом настільки складно змоделювати, що існуючі алгоритми виявляються марними. Також великі труднощі викликає пророкування псевдовузлів, що складаються з двох суміщених особливим чином шпильок (рис. 1). Псевдовузли зустрічаються в рРНК, тРНК, а також в геномах вірусних РНК, де вони беруть участь у процесах трансляції [12] . Для їх пошуку розробляють спеціальні методи, які орієнтовані на окремі типи псевдовузлів. Однак зі збільшенням довжини послідовності експоненціально зростає час, що витрачається алгоритмом на рішення даної задачі. У цих умовах експеримент стає необхідний, дозволяючи вченим поліпшити існуючі алгоритми і розробити нові стратегії пошуку.

У гру вступає паралельне секвенування

У паралельному аналізі структури РНК (або PARS-методі) застосовуються інструменти секвенування нового покоління, які дозволяють отримати мільйони розшифрованих послідовностей за один єдиний експеримент. Спочатку зразкам РНК дозволяють згорнутися з утворенням вторинної структури, потім їх піддають дії рибонуклеаз - ферментів, які каталізують розщеплення зв'язку між нуклеотидами. У PARS-методі використовують два типи рибонуклеаз - V1 і S1. Перша розщеплює спарені ділянки, друга - просту ланцюг. Отримані фрагменти конвертують в ДНК і секвеніруют. Ті фрагменти, які були оброблені V1, в більшості випадків обриваються на те нуклеотиде, який брав участь в утворенні вторинної структури. Порівняння великого числа копій однієї РНК, дозволяє судити про інтенсивність розщеплення на певних ділянках молекули і визначити, чи формується на цій ділянці вторинна структура [5] .

За допомогою PARS в 2010 році Кертес і його колеги вивчили вторинну структуру транскріптома дріжджів, проаналізувавши приблизно 4.2 мільйона нуклеотидів в 3 тисячах транскриптов. Ними були виявлені регуляторні мотиви, наприклад, ділянку внутрішньої посадки рибосоми URE2, який дозволяє почати синтез білка ні з одного з кінців мРНК, а з середини молекули. Це дослідження, опубліковане в журналі Nature [13] , Показало, що PARS-метод * здатний пролити світло на глобальну структурну організацію мРНК. Було відкрито переважне розташування вторинних структур в кодують ділянках в порівнянні з нетрансльовані областями, а також їх роль в регуляції процесу трансляції, який протікає тим активніше, ніж менш структурований сайт ініціації трансляції. Об'єднання паралельного аналізу з програмними засобами передбачення конфігурації, а також термодинамічних моделюванням, дає в руки вчених потужний інструмент для більш глибокого розуміння світу РНК-структур, що сприяє появі нових гіпотез і відкриттів, що стосуються регулювання клітинних процесів.

Найбільша РНК-лабораторія в світі

Моделювання вторинної структури РНК, незважаючи на велику кількість методів, до сих пір залишається складним завданням. Не всі принципи відомі, а експериментальні дані настільки великі, що на аналіз, який проводять невеликі групи вчених, йде багато праці і часу. Щоб вирішити цю проблему, в університеті Карнегі-Меллон і Стенфордському університеті розробили краудсорсінговий проект EteRNA .

EteRNA об'єднує 37 тисяч інтернет-користувачів, які займаються створенням бібліотеки РНК-структур в режимі онлайн-ігри *. Більшість ентузіастів не володіють ніякими спеціальними біологічними знаннями. Учасники проекту, в число яких може потрапити будь-хто, підбирають послідовність нуклеотидів РНК, намагаючись отримати шукану структуру. Кращі рішення перевіряються експериментально і публікуються на сайті проекту для остаточної перевірки. Якщо результати будуть визнані задовільними, то вони стають основою для нових термодинамічних правил побудови конфігурації молекул, що використовуються в алгоритмі EteRNABot. До 2014 року накопичилося понад 100 тисяч рішень, і більшість з них раніше не застосовувалися в моделюванні вторинної структури. За весь час проекту EteRNABot став більш точним, ніж інші алгоритми передбачення. У найближчому майбутньому, як сподіваються автори проекту, їх «Велика Відкрита Лабораторія» (Massive Open Laboratory) буде здатна вирішити широкий спектр практичних завдань, починаючи від моделювання псевдовузлів і розробки синтетичних РНК-перемикачів і закінчуючи моделюванням РНК-наномашин.

Минуло близько 10 років з закінчення проекту «Геном людини». З тих пір було зроблено багато відкриттів. Порівняно недавно стало відомо, що транскрибується 95% людського генома [15] *. Це означає, що велика частина мутацій переходить в транскриптом, впливаючи на вторинну структуру молекул, яка регулює багато клітинні процеси. Раніше вислизає від уваги РНК-структур став об'єктом інтенсивного вивчення не тільки окремих груп біоінформатики, але і «цивільних вчених» з числа звичайних людей. Щороку публікується кілька сотень статей, присвячених дослідженням структури РНК, удосконалюються методи, розробляються нові алгоритми. Ми проникаємо все глибше в світ інформації, організованої у вигляді біологічних макромолекул, осягаємо основні принципи і закони, щоб коли-небудь скористатися ними на благо всіх нас.

  1. Геном людини: як це було і як це буде ;
  2. «Будиночок» - епоха великий біології ;
  3. Про всі РНК на світлі, великих і малих ;
  4. Торжество комп'ютерних методів: передбачення будови білків ;
  5. Wan Y., Kertesz M., Spitale RC, Segal E., Chang HY (2011). Understanding the Transcriptome Through RNA Structure . Nat. Rev. Genet. 12, 641-655 ;;
  6. Li X., Quon G., Lipshitz HD, Morris Q. (2010). Predicting in vivo binding sites of RNA-binding proteins using mRNA secondary structure . RNA 16, 1096-1107 ;;
  7. Halvorsen M., Martin JS, Broadaway S., Laederach A. (2010). Disease-associated mutations that alter the RNA structural ensemble . PLoS Genet. 6, e1001074;
  8. Lowe TM, Eddy SR (1997). tRNAscan-SE: A Program for Improved Detection of Transfer RNA Genes in Genomic Sequence . Nucl. Acid Res. 25, 955-964 ;;
  9. Eddy SR, Durbin R. (1994). RNA sequence analysis using covariance models . Nucl. Acids Res. 22, 2079-2088 ;;
  10. Zuker M., Stiegler P. (1981). Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information . Nucl. Acids Res. 9, 133-148 ;;
  11. Do CB, Woods DA, Batzoglou S. (2006). CONTRAfold: RNA secondary structure prediction without physics-based models . Bioinformatics 22, e90-98;
  12. van Batenburg FH, Gultyaev AP, Pleij CW (2001). PseudoBase: structural information on RNA pseudoknots . Nucl. Acids Res. 29, 194-195 ;;
  13. Kertesz M., et al. (2010). Genome-wide measurement of RNA secondary structure in yeast . Nature 467, 103-107 ;;
  14. Тетріс XXI століття ;
  15. Morton NE (2008). Into the post-HapMap era . Adv. Gene 60, 727-742 ;;
  16. Скільки сміття в нашій ДНК .
Як дізнатися, що на даній послідовності утворюється структура?