PHƯƠNG PHÁP SIXFRAME

Similar documents
Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập Nguyễn Thái Nghe 1, Paul Janecek 2, Peter Haddawy 3

TRƯỜNG ĐẠI HỌC XÂY DỰNG KHOA CÔNG NGHỆ THÔNG TIN GIÁO TRÌNH PHẦN III NGÔN NGỮ LẬP TRÌNH PASCAL -2

Higher Education Accreditation in Vietnam and the U.S.: In Pursuit of Quality

HIGHER EDUCATION IN VIETNAM UPDATE MAY 2004

Developing Autonomy in an East Asian Classroom: from Policy to Practice

Double Master Degrees in International Economics and Development

Curriculum Vitae. Jonathan D. London. Assistant Professor of Sociology, City University of Hong Kong, January 2008-

Building a Semantic Role Labelling System for Vietnamese

Jack Jilly can play. 1. Can Jack play? 2. Can Jilly play? 3. Jack can play. 4. Jilly can play. 5. Play, Jack, play! 6. Play, Jilly, play!

OF CHILDREN WITH DISABILITIES

CATALOG. Educating Tomorrow s Missionaries. A Roman Catholic College Seminary owned and operated by the Society of the Divine Word

Theme 5. THEME 5: Let s Count!

GRAMMATICAL MORPHEME ACQUISITION: AN ANALYSIS OF AN EFL LEARNER S LANGUAGE SAMPLES *

TOEIC LC 1000: A? (Korean Edition)

Using a Native Language Reference Grammar as a Language Learning Tool

Why Is the Chinese Curriculum Difficult for Immigrants Children from Southeast Asia

Exposé for a Master s Thesis

Task-Based Language Teaching: An Insight into Teacher Practice

ABSTRACT. A major goal of human genetics is the discovery and validation of genetic polymorphisms

MARY MCLEOD BETHUNE. A Dedicated Teacher

ARTICULATION AGREEMENT

NAME OF ASSESSMENT: Reading Informational Texts and Argument Writing Performance Assessment

Heredity In Plants For 2nd Grade

Statewide Framework Document for:

Lesson Plan. Preliminary Planning

Study Abroad Application Vietnam and Cambodia Summer 2017

ASTEN Fellowship report Priscilla Gaff Program Coordinator Life Science

Studies on Key Skills for Jobs that On-Site. Professionals from Construction Industry Demand

International Research Attachment Programmes (i-rap) Presented by Valerie Wan

been each get other TASK #1 Fry Words TASK #2 Fry Words Write the following words in ABC order: Write the following words in ABC order:

Bachelor of Science (Hons) in Banking and Finance Awarded by Bangor University, UK No. Module Lecturer Highest

Prerequisite: General Biology 107 (UE) and 107L (UE) with a grade of C- or better. Chemistry 118 (UE) and 118L (UE) or permission of instructor.

UNIT IX. Don t Tell. Are there some things that grown-ups don t let you do? Read about what this child feels.

Management and monitoring of SSHE in Tamil Nadu, India P. Amudha, UNICEF-India

Cultural Diversity in English Language Teaching: Learners Voices

CAVE LANGUAGES KS2 SCHEME OF WORK LANGUAGE OVERVIEW. YEAR 3 Stage 1 Lessons 1-30

Language acquisition: acquiring some aspects of syntax.

Msu Celp C2 Answers Betsis

Detecting English-French Cognates Using Orthographic Edit Distance

Wenguang Sun CAREER Award. National Science Foundation

Ideas for Intercultural Education

SUMMARY ON JEE (ADVANCED) [KANPUR ZONE] P Gupta & R N Sen Gupta

The city Light Rail Transit (LRT) network connects the College to all suburban areas of KL.

CHAPTER V IMPLEMENTATION OF A LEARNING CONTRACT AND THE MODIFICATIONS TO THE ACTIVITIES Instructional Space The atmosphere created by the interaction

Guide Decentralised selection procedure for the Bachelor s degree programme in Architecture, Urbanism and Building Sciences

2015 SUMMER SKILLS CAMPS

Program Alignment Worksheet High School

The Joys of Dictation! By Sarah Sahr

Story Problems with. Missing Parts. s e s s i o n 1. 8 A. Story Problems with. More Story Problems with. Missing Parts

Progress Monitoring Assessment Tools

The Program. Hands-on Workshop in Computational Biophysics. Prof. Klaus Schulten. Prof. Emad Tajkhorshid

1. Share the following information with your partner. Spell each name to your partner. Change roles. One object in the classroom:

RANKING AND UNRANKING LEFT SZILARD LANGUAGES. Erkki Mäkinen DEPARTMENT OF COMPUTER SCIENCE UNIVERSITY OF TAMPERE REPORT A ER E P S I M S

Contents. Foreword... 5

Term Two Week 1 Wednesday 26th April 2017

J j W w. Write. Name. Max Takes the Train. Handwriting Letters Jj, Ww: Words with j, w 321

Xinyu Tang. Education. Research Interests. Honors and Awards. Professional Experience

What Teachers Are Saying

English Comprehension Question For Grade 7

TENNESSEE S ECONOMY: Implications for Economic Development

Developmental coordination disorder DCD. Overview. Gross & fine motor skill. Elisabeth Hill The importance of motor development

M-Tech Degree Course PROSPECTUS

The Roaring 20s. History. igcse Examination Technique. Paper 2. International Organisations. September 2015 onwards

2 months: Social and Emotional Begins to smile at people Can briefly calm self (may bring hands to mouth and suck on hand) Tries to look at parent

Don t Let Me Fall inspired by James McBride's memoir, The Color of Water

WASHINGTON Does your school know where you are? In class? On the bus? Paying for lunch in the cafeteria?

LIVE MUSIC RETAIL EST atlanta dairies CREATIVE OFFICE RESTAURANTS 777 MEMORIAL DR.

Context Free Grammars. Many slides from Michael Collins

Data Modeling and Databases II Entity-Relationship (ER) Model. Gustavo Alonso, Ce Zhang Systems Group Department of Computer Science ETH Zürich

LogiGear MAGAZINE THE EXPLORATORY TESTING ISSUE

Developing Grammar in Context

Product Feature-based Ratings foropinionsummarization of E-Commerce Feedback Comments

*In Ancient Greek: *In English: micro = small macro = large economia = management of the household or family

Jon N. Kerr, PhD, CPA August 2017

Fruitvale Station Shopping Center > Retail

The Effect of Explicit Vocabulary Application (EVA) on Students Achievement and Acceptance in Learning Explicit English Vocabulary

Pockets are an award to recognise student achievement and quality participation in a range of school endeavours.

Background Information. Instructions. Problem Statement. HOMEWORK INSTRUCTIONS Homework #3 Higher Education Salary Problem

Class Schedule

5.7 Country case study: Vietnam

Washington Group - Extended Question Set on Functioning (WG ES-F)

ST. PAUL'S LUTHERAN WRESTLING BASIC INFORMATION

September 8, 2017 Asia Pacific Health Promotion Capacity Building Forum

Main Category. S/No. Name School Medal

Building International Partnerships: In quest of a more creative exchange of students

WELCOME! Of Social Competency. Using Social Thinking and. Social Thinking and. the UCLA PEERS Program 5/1/2017. My Background/ Who Am I?

Answers To Gradpoint Review Test

CHEMISTRY 400 Senior Seminar in Chemistry Spring 2013

A Guide for Teachers

Participatory Appraisal of Pro- Poor Income Potentials (Pro-Poor PACA)

How to get the most out of EuroSTAR 2013

Machine Learning from Garden Path Sentences: The Application of Computational Linguistics

APPLICATION PROCEDURES

President WSC Vice-President WSC President CAC Honorary General Secretary CAC President Sports Club Vice-President Sports Club

Medium Term Plan English Year

Birmingham City University BA (Hons) Interior Design

Measurement and statistical modeling of the urban heat island of the city of Utrecht (the Netherlands)

ABOUT THIS COURSE. Discuss and make arguments (both orally and in writing) about literary works with your peers and instructor

Vidya Vihar Residential School Parora, Purnea

Transcription:

TIN SINH HỌC ĐẠI CƯƠNG (Introduction to Bioinformatics) PGS.TS. Trần Văn Lăng Email: langtv@vast.vn Chương 4: PHÂN TÍCH TRÌNH TỰ DNA Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2 Chuyển đổi trình tự DNA Dự đoán gene, tìm motif PHƯƠNG PHÁP SIXFRAME Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 3 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 4 1

DNA động thực vật được cấu thành chủ yếu từ 4 base cơ bản là A, T, G, C Chúng có khả năng tạo nên 64 codon (mỗi codon gồm 3 base), Được gói gọn thành 20 amino acid. Các amino acid này lại góp phần hình thành nên các protein đặc trưng. Tuy nhiên, các sinh vật không giống nhau nên sự hình thành amino acid cũng không giống nhau. Có những loài với codon này thì tạo nên amino acid này nhưng đối với loài khác thì lại là một acid amin khác. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6 Chẳng hạn Dịch mã sang Protein Bộ ba (codon) CTT ở động vật có xương sống hình thành nên Leucine thì ở nấm men là Threonine. Do đó, có nhiều bảng dịch mã khác nhau cho từng loài, từng trường hợp khác nhau Tiến trình chuyển đổi DNA sang protein cũng có sự khác biệt. Bởi không thể biết chính xác trình tự DNA đưa vào có base bắt đầu chính là base đầu tiên trong một codon hay không Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 7 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 8 2

Six-Frame Translation Dùng phương pháp Six-Frame với 3 dịch chuyển, ký hiệu +1, +2 và +3. Ngoài ra, DNA tồn tại dạng chuỗi xoắn kép theo từng cặp A-T, C-G. Hơn nữa, đầu 3 của DNA không rõ là phía nào. Nên có 6 trường hợp cho cả 2 trình tự xoắn với nhau. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10 Ví dụ Translation in forward direction Với chuỗi xoắn kép của DNA 3 GGTCTAT 5 5 CCAGATA 3 Khi đó có các trường hợp xãy ra như sau: Theo hướng: 3 GGTCTAT 5 frame +1, có 2 codon: GGT CTA: GlyLeu frame +2 có 2 codon: GTC TAT: ValTyr frame +3 có 1 codon: TCT: Ser Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12 3

Sử dụng phần mềm Theo hướng 3 ATAGACC 5 frame -1, có 2 codon: ATA GAC: IleAsp frame -2, có 2 codon: TAG ACC: Am*Thr frame -3, có 1 codon: AGA: Arg Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16 4

TÌM MOTIF Motif là một đoạn trình tự nucleotide hay amino acid phổ biến và có (hoặc cho là có) một chức năng sinh học nào đó Đối với protein, motif được phân thành 2 loại: Motif trình tự Motif cấu trúc Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18 Motif trình tự: sequence motif, motif, pattern, conserved pattern, consensus pattern, signature, fingerprint, block, feature. Là một vùng trình tự bảo tồn hay là một đoạn trình tự đặc trưng được tìm thấy ở 2 hay nhiều trình tự. Bản thân nó đại diện cho chức năng, cấu trúc hoặc thành viên trong họ. Các motif có thể được tìm thấy ở DNA, RNA, và Protein. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20 5

Motif cấu trúc (structural motif) là một nhóm cấu trúc gần kề nhau kết hợp lại tạo thành một cấu trúc 3D chuyên biệt Lưu ý, với protein, motif trình tự (sequence motif) và mô tif cấu trúc là khác nhau hoàn toàn. Ví dụ: xoắn vòng - xoắn Còn được gọi là siêu cấu trúc bậc 2 (supersecondary structure) Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22 Có một mẫu trình tự nucleotide ngẫu nhiên atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg Ứng dụng, chẳng hạn Ghép mẫu motif vào trong trình tự. Sau đó tìm nợi đã cấy ghép acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24 6

Ghép motif trình tự AAAAAAAAGGGGGGG vào Vấn đề đặt ra là motif được ghép nằm ở đâu atgaccgggatactgataaaaaaaagggggggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataaaaaaaaaggggggga tgagtatccctgggatgacttaaaaaaaagggggggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaaaaaaaagggggggtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaataaaaaaaagggggggcttatag gtcaatcatgttcttgtgaatggatttaaaaaaaaggggggggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtaaaaaaaagggggggcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaaaagggggggctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcataaaaaaaagggggggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttaaaaaaaaggggggga atgaccgggatactgataaaaaaaagggggggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataaaaaaaaaggggggga tgagtatccctgggatgacttaaaaaaaagggggggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaaaaaaaagggggggtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaataaaaaaaagggggggcttatag gtcaatcatgttcttgtgaatggatttaaaaaaaaggggggggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtaaaaaaaagggggggcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaaaagggggggctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcataaaaaaaagggggggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttaaaaaaaaggggggga Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26 Và rồi, giả sử có 4 đột biến trong motif đã cấy ghép AAAAAAAAGGGGGGG. atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga Motif ở đâu trong trình tự này atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28 7

Biểu tượng motif (motif logo) Tại sao tìm motif (15,4) này lại khó atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga Motif có thể đột biến trên những base không quan trọng. Năm motif trong 5 gen khác nhau có đột biến ở vị trí thứ 3 và 5 như hình. Motif logo minh họa vùng bảo tồn và vùng thay đổi của một motif TGGGGGA TGAGAGA TGGGGGA TGAGAGA TGAGGGA AgAAgAAAGGttGGG....... caataaaacggcggg 29 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32 8

Việc định danh motif Sự phức tạp trong việc định danh motif Ta biết gen được bật tắt bởi protein điều chỉnh (regulator protein) Các protein điều chỉnh này liên kết với trình tự DNA ngắn gọi là motif Vì vậy việc tìm các motif tương tự nhau trong nhiều vùng điều chỉnh gen cho ra một quan hệ điều chỉnh trong số những gen này. Không biết được trình tự motif Không biết nó nằm ở đâu so với gen bắt đầu Các motif có thể khác nhau đôi chút từ gen này đến gen kế tiếp, vì vậy làm sao có thể phân biệt được nó từ các motif ngẫu nhiên Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34 Bài toán tìm motif (Motif Finding Problem) tương tự như bài toán được đặt ra bởi Edgar Allan Poe (1809 1849) trong quyển truyện Gold Bug Edgar Allan Poe là một tác giả người Mỹ, được xem như người đã tạo ra thể loại văn học trinh thám. Bản thảo tìm thấy trong chai (Ms. Found in a Bottle) Những câu chuyện nghịch dị và kỳ lạ (Tales of the Grotesque and Arabesque) Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36 9

Sự sụp đổ của ngôi nhà dòng họ Usher (The Fall of the House of Usher) Nàng Legiea (Legiea), Mặt nạ tử thần đỏ (The Masque of the Red Death) Tụt xuống xoáy nước Maelstrom (A Descent into the Maelstrom) Bọ rầy vàng óng ánh (The Gold Bug), Lá thư bị đánh cắp (The Purloined Letter), Án mạng trên phố Morgue (Murders in the Rue Morgue) Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38 Truyện Gold Bug Điều bí ẩn về Marie Rogers (The Mystery of Marie Rogers) Trái tim vạch tội (Tell-tale Heart) Người đàn ông được phẫu thuật triệt để (The Man that Was Used Up) Sự thật về trường hợp của Valderma (The Facts of M. Valdermar s Case) "Gold Bug" là câu chuyện về một người đàn ông tên là William Legrand, người dường như bị điên sau khi bị cắn bởi một con bọ được làm bằng vàng nguyên chất. Legrand nói người bạn thân nhất của mình, đến thăm tại nhà của ông trên đảo Sullivan ở South Carolina. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40 10

Hai người bắt tay vào tìm kiếm kho báu bị mất cùng với một người hầu tên là Jupiter. Người bạn nghi ngờ tính đúng đắn trong câu chuyện của Legrand. Tuy nhiên, sau khi làm theo vài manh mối, họ tìm thấy một kho báu bị chôn vùi bởi cướp biển khét tiếng tên là Captain Kidd Kho báo ước tính trị giá khoảng 14.000.000 USD. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42 The Gold Bug Problem Trong số các manh mối đó, có thông điệp bí mật như sau: Thông điệp bí mật 53++!305))6*;4826)4+.)4+);806*;48!8`60))85;]8*:+*8!8 3(88)5*!; 46(;88*96*?;8)*+(;485);5*!2:*+(;4956*2(5*-4)8`8*; 4069285);)6!8)4++;1(+9;48081;8:8+1;48!85;4)485!528806*81(+9;48; (88;4(+?3 4;48)4+;161;:188;+?; Hãy giải mã thông điệp được mã hóa này Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44 11

Cách giải quyết Các gợi ý như sau: Thông điệp được mã hóa bằng tiếng Anh Mỗi ký hiệu tương ứng với một chữ cái trong bảng chữ cái tiếng Anh Không có dấu chấm câu được mã hóa Đếm tần số xuất hiện của mỗi ký hiệu trong thông điệp được mã hóa Tìm tần số của mỗi ký tự trong bảng chữ cái của văn bản tiếng Anh Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46 So sánh các tần số của các bước trước đó, cố gắng tìm một mối tương quan và ánh xạ các ký hiệu với một ký tự trong bảng chữ cái Tần số theo thông điệp của Gold Bug Symbol 8 ; 4 ) + * 5 6 (! 1 0 2 9 3 :? ` - ]. Frequency 34 25 19 16 15 14 12 11 9 8 7 6 5 5 4 4 3 2 1 1 1 Tần số theo bảng chữ cái tiếng Anh e t a o i n s r h l d c u m f p g w y b v k x j q z Tần số cao tần số thấp Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48 12

Bằng cách ánh xạ đơn giản các ký hiệu có tần số cao nhất đến các ký tự có tần số cao nhất tương ứng trong bảng chữ cái. Giải mã 4 mãnh trong thông điệp bí mật sfiilfcsoorntaeuroaikoaiotecrntaeleyr cooestvenpinelefheeosnlt arhteenmrnwteonihtaesotsnlupnihtamsrn uhsnbaoeyentacrmuesotorl eoaiitdhimtaecedtepeidtaelestaoaeslsu eecrnedhimtaetheetahiwfa taeoaitdrdtpdeetiwt Kết quả không có ý nghĩa gì cả Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50 Cách tiếp cận tốt hơn Đánh giá tần số của l-tuples như tổ hợo của 2 ký hiệu, 3 ký hiệu, v.v Chẳng hạn, The là 3-tupe có tần số cao nhất trong tiếng Anh; ;48 là 3-tuple có tần số cao nhất trong thông điệp mã hóa Suy ra tương tự cho các ký hiệu chưa biết trong văn bản mã hóa dựa trên tần số của các l-tuple. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52 13

Ánh xạ the đến ;48 và thay thế tất cả các ký hiệu xuất hiện: 53++!305))6*the26)h+.)h+)te06*the!e`60))e5t] e*:+*e!e3(ee)5*!t h6(tee*96*?te)*+(the5)t5*!2:*+(th956*2(5*h)e `e*th0692e5)t)6!e )h++t1(+9the0e1te:e+1the!e5th)he5!52ee06*e1( +9thet(eeth(+?3ht he)h+t161t:1eet+?t Suy đoán 53++!305))6*the26)h+.)h+)te06*the!e`60))e5t] e*:+*e!e3(ee)5*!t h6(tee*96*?te)*+(the5)t5*!2:*+(th956*2(5*h)e `e*th0692e5)t)6!e )h++t1(+9the0e1te:e+1the!e5th)he5!52ee06*e1( +9thet(eeth(+?3ht he)h+t161t:1eet+?t thet(ee most likely means the tree Suy ra Infer ( = r Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54 Khi đó, th(+?3h trở thành thr+?3h Sau đó có thể đề xuất +,? được mã hóa ra sao. Sau khi tìm ra tất cả các ánh xạ, thông điệp có thể giải mã như sau: AGOODGLASSINTHEBISHOPSHOSTELINTHEDEVILSSEATWEN YONEDEGREESANDTHIRTEENMINUTESNORTHEASTANDBYNOR THMAINBRANCHSEVENTHLIMBEASTSIDESHOOTFROMTHELEF TEYEOFTHEDEATHSHEADABEELINEFROMTHETREETHROUGHT HESHOTFIFTYFEETOUT Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56 14

Giải bài toán Gold Bug Sử dụng dấu chấm câu, thông điệp có thể là: A GOOD GLASS IN THE BISHOP S HOSTEL IN THE DEVIL S SEA, TWENY ONE DEGREES AND THIRTEEN MINUTES NORTHEAST AND BY NORTH, MAIN BRANCH SEVENTH LIMB, EAST SIDE, SHOOT FROM THE LEFT EYE OF THE DEATH S HEAD A BEE LINE FROM THE TREE THROUGH THE SHOT, FIFTY FEET OUT. Những điều kiện tiên quyết để giải bài toán: Cần phải biết tần số tương đối của các chữ cái, và sự kết hợp của hai và ba chữ cái trong tiếng Anh Kiến thức về tất cả các từ trong từ điển tiếng Anh là mong muốn cao để có những kết luận chính xác Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58 Sự tương tự giữa 2 bài toán Những nucleotide trong một motif mã hóa là ngôn ngữ của di truyền, tương tự như ký hiệu mã hóa trong The Gold Bug của một thông điệp (message) bằng tiếng Anh Để giải mã, cần phân tích tần số của các mẫu thông điệp DNA/Gold Bug Kiến thức của các motif điều chỉnh được thiết lập làm cơ sở cho việc tìm motif; cũng như kiến thức về các từ trong từ điển Tiếng Anh làm cơ sở cho việc giải bài táon Gold Bug Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60 15

Bài toán Motif Finding: Phân tích tần suất xuất hiện các mẫu (pattern) trong những trình tự nucleotide Bài toán Gold Bug Problem Phân tích tần suất xuất hiện các mẫu trong văn bản được viết bằng Tiếng Anh Motif Finding: Kiến thức về các motif được thiết lập làm giảm độ phức tạp của bài toán Gold Bug Problem: Kiến thức về các từ trong từ điển Tiếng Anh là hết sức mong đợi Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62 Minh họa bài toán Motif Finding Bài toán Motif Finding khó hơn bài toán Gold Bug: Không có từ điển đầy đủ về motif Ngôn ngữ di truyền học không có văn phạm chuẩn Chỉ một phần nhỏ trình tự nucleotide mã hóa cho motif, trong khi đó kích thước dữ liệu lại rất lớn Cho một mẫu ngẫu nhiên các trình tự DNA cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc Tìm mẫu được ghép vào mỗi trình tự riêng, gọi là motif Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64 16

Thông tin thêm: Mỗi trình tự che dấu có chiều dài 8 Các mẫu không hoàn toàn giống nhau bởi điểm đột biến là ngẫu nhiên xẩy ra trong các trình tự Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65 Các mẫu cho thấy không có đột biến cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc acgtacgt Chuỗi liên ứng (Consensus String) Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66 Mẫu với 2 đột biến: cctgatagacgctatctggctatccaggtacttaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatccatacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgttagtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtccatataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaccgtacggc Liệu có thể tìm được motif với 2 đột biến aggtactt CcAtacgt acgttagt acgtccat CcgtacgG Mẫu với 2 đột biến acgtacgt Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68 17

Phân loại bài toán tìm motif Có 2 dạng bài toán tìm motif: Không đột biến: Cho trước t trình tự, hãy xác định các đoạn trình tự có chiều dài l (l-mer) trên mỗi trình tự sao cho đoạn này bắt cặp giống nhau. Dạng đột biến: Cho trước trình tự, hãy xác định các đoạn trình tự có chiều dài l sao cho các đoạn này gần giống nhau trên các trình tự cho phép đột biến (sai lệch) d vị trí Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70 Định nghĩa Motif Profiles và Consensus Để định nghĩa một motif, cần biết vị trí bắt đầu của motif trong trình tự. Vị trí này có thể biểu diễn bởi s = (s 1,s 2,s 3,,s t ) Alignment a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G A 3 0 1 0 3 1 1 0 Profile C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Sắp hàng các mẫu theo vị trí bắt đầu của nó s = (s 1, s 2,, s t ) Xây dựng ma trận profile với tần suất xuất hiện của mỗi nucleotide theo cột Consensus A C G T A C G T Consensus nucleotide là nucleotide có điểm cao nhất trong cột Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72 18

Consensus Khoảng cách giữa các trình tự Consensus (trình tự liên ứng) ở đây được hiểu như là một motif tổ tiên mà từ đó các motif đột biến xuất hiện Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74 Đánh giá motif Ví dụ về các tham số Trước hết, ta có các tham số t - số mẫu trình tự DNA n - chiều dài mỗi trình tự DNA DNA mẫu DNA (mảng t x n) l - chiều dài của motif (l-mer) s i - vị trí bắt đầu của motif trong trình tự i s=(s 1, s 2, s t ) - mảng chứa các vị trí bắt đầu của motif s l = 8 DNA cctgatagacgctatctggctatccaggtacttaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatccatacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgttagtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtccatataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaccgtacggc n = 69 s 1 = 26 s 2 = 21 s 3 = 3 s 4 = 56 s 5 = 60 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76 19

Tính điểm để đánh giá Cho s = (s 1, s t ) và DNA: score(s, DNA) = l max count(k,i) i=1 k {A,T,C,G} Với count(k,i) là số nucleotide thứ k ở vị trí thứ i của l-motif Consensus a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G A 3 0 1 0 3 1 1 0 C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 a c g t a c g t Score 3+4+4+5+3+4+3+4=30 l t Nếu các vị trí bằt đầu s=(s 1, s 2, s t ) cho trước, việc tìm consensus dễ dàng ngay cả khi có đột biến trong các trình tự. Bởi khi đó ta có thể xây dựng ma trận profile, từ đó tìm motif (consensus) Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78 Bài toán Nhưng, khi s không cho trước, làm thế nào để tìm ma trận profile tốt nhất. Bài toán đặt ra: Mục tiêu: Cho mẫu DNA, tìm tập l-mers từ các trình tự sao cho điểm consensus là cực đại Nhập: A t x n mảng các mẫu DNA, và chiều lài l của pattern muốn tìm Xuất: Mảng t vị trí s = (s 1, s 2, s t ) mà Score(s,DNA) đạt cực đại Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 79 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 80 20

Thuật toán Brute Force Tính score của một tổ hợp với vị trí bắt đầu s Điểm tốt nhất được xác định bởi profile tốt nhất. Tìm Score(s,DNA) lớn nhất bằng cách thay đổi vị trí bắt đầu s i, với i từ 1 đến n-l+1 BruteForceMotifSearch(DNA, t, n, l) bestscoe ß 0 for s=(s 1,s 2,..., s t ) from (1,1... 1) to (n-l+1,..., n-l+1) if (Score(s,DNA) > bestscore) bestscore ß score(s, DNA) bestmotif ß (s 1,s 2,..., s t ) return bestmotif Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82 Nhận xét Bài toán Median String Thay đổi (n - l + 1) vị trí trong trình tự, cần (n - l + 1) t tập hợp các vị trí bắt đầu Đối với mỗi tập hợp vị trí bắt đầu, score được tính dựa trên l phép toán, vì vậy độ phức tạp tính toán là l x (n l + 1) t = O(ln t ) Với t = 8, n = 1000, l = 10 phải thực hiện xấp xỉ 10 32 tính toán. Với lý do trên, nên vấn đề đặt ra là tìm một thuật toán nhanh hơn để giải quyết. Bài toán Motif Finding được đưa về bài toán Median String (chuỗi trung bình) Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 83 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 84 21

Khoảng cách Hamming Bài toán Median String: Cho mẫu t trình tự DNA tìm pattern xuất hiện trong tất cả t trình tự với số đột biến ít nhất Pattern này chính là motif Khoảng cách Hamming: d H (v,w) là số cặp nucleotide mismatch (do not match) khi sắp hàng v và w. Chẳng hạn d H (AAAAAA,ACAAAC) = 2 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 85 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86 Ví dụ Cho v = acgtacgt và mẫu DNA d H (v, x) = 0 acgtacgt cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat d H (v, x) = 0 acgtacgt agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc acgtacgt d H (v, x) = 0 aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt acgtacgt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca acgtacgt ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc d H (v, x) = 0 d H (v, x) = 0 TotalDistance(v,DNA) = 0 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 87 Ví dụ Cho v = acgtacgt và mẫu DNA d H (v, x) = 1 acgtacgt cctgatagacgctatctggctatccacgtacataggtcctctgtgcgaatctatgcgtttccaaccat d H (v, x) = 0 acgtacgt agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc acgtacgt d H (v, x) = 0 aaaagtccgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt acgtacgt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca acgtacgt ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtaggtc d H (v, x) = 2 d H (v, x) = 1 TotalDistance(v,DNA) = 1 + 0 + 2 + 0 + 1 = 4 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 88 22

Thuật toán Với trình tự DNA thứ i, tính tất cả d H (v, x), ở đó x là l-mer với vị trí bắt đầu s i (1 < s i < n l + 1) Tìm cực tiểu d H (v, x) của tất cả các l-mers trong trình tự i TotalDistance(v,DNA) tổng của các khoảng cách Hamming tối thiểu cho trình tự DNA thứ i TotalDistance(v,DNA) = min s d H (v, s), ở đó s là tập hợp các vị trí bắt đầu s 1, s 2, s t Mục tiêu: cho mẫu các trình tự DNA, tìm chuỗi trung bình Nhập: Ma trận DNA t x n, chiều dài l của mẫu cần tìm. Xuất: chuỗi v gồm l nucleotides mà TotalDistance(v,DNA) đạt cực tiểu đối với tất cả các chuỗi có cùng chiều dài. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 89 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 90 MedianStringSearch (DNA, t, n, l) bestword ß AAA A bestdistance ß for each l-mer s from AAA A to TTT T if TotalDistance(s,DNA) < bestdistance bestdistanceßtotaldistance(s,dna) bestword ß s return bestword Motif Finding Problem == Median String Problem Motif Finding là bài toán cực đại, trong khi Median String là bài toán cực tiểu Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 91 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 92 23

Sự giống nhau Alignment a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G Ta có: Score i + TotalDistance i = t với các cột Tuy nhiên, đây là 2 bài toán tương đương TotalDistance đạt cực tiểu tương đương Score đạt cực đại A 3 0 1 0 3 1 1 0 Profile C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Consensus a c g t a c g t Score 3+4+4+5+3+4+3+4 TotalDistance 2+2+2+2+2 = 10 = 2+1+1+0+2+1+2+1 Sum 5 5 5 5 5 5 5 5 Suy ra: l x (Score j + TotalDistance j )= l x t Hay Score = l x t TotalDistance Mà l x t là hằng, nên vế phải đạt cực tiểu tương đương vế trái đạt cực đại Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 93 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 94 Các bước tìm motif Tại sao lại quan tâm đến chuyện thay bài toán Motif Finding bằng Median String Motif Finding Problem cần tính toán với tất cả các tổ hợp của s. Đó là (n - l + 1) t tổ hợp. Median String Problem cần tính toán 4 l tổ hợp của v. Con số này tương đối nhỏ hơn. Cho một trình tự v có chiều dài l (gọi là l-mer) Và cho trình tự có chiều dài n Tính các khoảng cách Hamming d H (v,x), trong đó x là l-mer có vị trí bắt đầu lần lượt từ 1 đến n-l+1 trong trình tự thứ i Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 95 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 96 24

Từ đây suy ra d H (v,x i ) là khoảng cách cực tiển trong các khoảng cách này của trình tự i. Tính TotalDistance là tổng các d H (v,x i ) với i từ 1 đến t. Khi đó các x i là các motif tìm được trên cơ sở trình tự v cho trước. Nhận xét: Trong trường hợp v chưa biết trước, số lượng motif x i cần tìm là quá ít so với tập hợp tìm kiếm. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 97 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 98 Ký hiệu protein motif KÝ HIỆU PROTEIN MOTIF x: được dùng để chỉ vị trí mà bất cứ amino acide nào cũng được chấp nhận []: tại vị trí này có thể là một trong các amino acide được liệt kê {}: tại vị trí này có thế bất kỳ amino acide nào ngoại trừ phân tử được liệt kê Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 99 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 100 25

Ví dụ: [AC]xVx(2){GV} Là motif gồm: Alanine hoặc Cysteine - amino acide Valine - amino acide -amino acide -Ngoại trừ Glutamate và Valine x(2): có 2 amino acide bất kỳ x(0,3): có từ 0 đến 3 amino acide bất kỳ <: cho biết motif nằm ở đầu trình tự protein >: cho biết motif nằm ở cuối trình tự protein Ví dụ: < Ax[ST](2)x(0,1)V Motif nằm ở đầu trình tự gồm: Alanine amino acide - Serine hoặc Threonine - Serine hoặc Threonine có amino acide hoặc không Valine Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 101 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 102 Ví dụ: Với l = 10, n = 1000, t = 8 Số mẫu l-mer cần tìm trong mổi trình tự là 1000-10+1 = 991 Trong t trình tự có 8 x 991 = 7928 mẫu Như vậy: chỉ tìm 8 mẫu (8 motif) trong 7928 mẫu Motif Trình tự sinh học Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 103 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 104 26