Sequence alignment (original) (raw)
Alignment (někdy ekvivalentně sekvenční alignment) je základní bioinformatický nástroj, spočívající v seřazení dvou i více sekvencí DNA, RNA nebo proteinu pod sebe tak, aby odpovídající si nukleotidové báze či aminokyselinové zbytky ležely pod sebou. Pro krátké a/nebo velmi podobné sekvence je možné vytvořit alignment ručně, alignment delších a méně podobných sekvencí je obvykle vytvářen počítačem za použití specializovaných algoritmů. Cílem alignmentu je nalézt ve srovnávaných sekvencích podobné úseky, které mohou poukazovat na jejich sekvenční, strukturní či funkční příbuznost.
Property | Value | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
dbo:abstract | تراصف السلاسل Sequence Alignment في المعلوماتية الحيوية، تعتبر طريقة التراصف التسلسلي إحدى طرق ترتيب السلاسل البدئية primary sequence للدنا والرنا أو حتى البروتينات لتمييز المناطق ذات التشابه المرشحة لتكون نتيجة علاقة وظيفية أو بنيوية أو تطورية بين هذه السلاسل. السلاسل النيكليوتيدية المتراصفة أو سلاسل الحموض الأمينية المتراصفة تمثل غالبا بصفوف ضمن مصفوفة. كما يتم إدخال فجوات بين الوحدات بحيث تكون الوحدات المتطابقة أو المتشابهة متراصفة في أعمدة متعاقبة. إذا كان لدينا سلسلتين في تراصف ما يتشاركان نفس الأصل (السلف)، فإن التباينات mismatches يمكن أن تفسر على أنها طفرات نقطية point mutation وثغرات مثل وهي طفرات إدخال أو إلغاء يتم إدخالها في سلالة أو سلالتين بوقت واحد.في التراصف التسلسلي للبروتين، يمكن تفسير درجة التشابه بين الحموض الأمينية التي تحتل موقعا معينا في تسلسل ما على أنها مقياس تقريبي لكيفية انحفاظ منطقة معينة أو sequence motif بين السلالات. غياب الاستبدال أو وجود استبدالات منحفظة جدا فقط (كما في استبدال حموض أمينية لسلاسل جانبية لها خاصيات كيميائية حيوية متشابهة) ضمن منطقة معينة من التسلسل، كل هذا يقترح أن هذه المنطقة لها أهمية وظيفية أو بنيوية. ومع ان نيكليوتيدات الدنا والرنا متشابهة مع بعضها البعض جدا أكثر من الحموض الأمينية، فإن انحفاظ ازواج الأسس يمكن أن يشير إلى دور بنيوي أو وظيفي أيضاً. التراصف التسلسلي يمكن أن يستخدم أيضا لأجل السلاسل اللاحيوية، مثل السلاسل الموجودة في اللغات الطبيعية أو في البينات الاقتصادية. 2- طرق التراصف: يمكن إجراء التراصف يدوياً فيما لو كانت السلاسل قصيرة جداً أو متشابهة كثيراً. لكن مسائل التراصف الأكثر أهمية تتطلب العمل على سلاسل طويلة، متباينة بشكل كبير ومتعددة والتي لا يمكن تحقيق التراصف فيها بمجرد جهد بشري. عوضاً عن ذلك، يمكن استخدام المعرفة البشرية في بناء الخوارزميات لتوليد التراصف بجودة عالية، وأحياناً في ضبط النتائج النهائية التي تعكس الأنماط الموجودة والتي من الصعب تمثيلها خوارزمياً (خاصة في حالة سلاسل النكليوتيدات). تقسم الطرق الحاسوبية لتراصف السلاسل إلى نوعين رئيسيين: التراصف الإجمالي (Global) والتراصف الموضعي(local). إن حساب التراصف الإجمالي هو شكل من أشكال الأمثَلَة (التحسين) الإجمالية التي تجعل التراصف يمتد على كامل السلاسل المطلوب معرفتها. من ناحية أخرى، فإن التراصف الموضعي يحدد مناطق المتشابهة ضمن السلاسل الطويلة المتباينة بشكل كبير. عادةً ما يكون التراصف الموضعي هو المفضل إلا أن حسابه أكثر صعوبة بسبب التحدي الإضافي في تحديد مناطق التشابه. هناك العديد من الخوارزميات الحسابية التي طبقت في مسائل تراصف السلاسل، حيث تتضمن طرقاً بطيئة لكن صحيحة مثل البرمجة الديناميكية وتتضمن أيضاً طرق الخوارزميات الاستكشافية أو الطرق الاحتمالية والمصممة لمعالجة البيانات كبيرة الحجم. 3- تمثيل تراصف السلاسل: يمثل تراصف السلاسل عادةً بشكل رسومي أو بصيغ نصية. في غالبية تمثيلات التراصف يتم كتابة السلاسل ضمن صفوف بحيث أن الأسس (bases) المتراصفة تظهر في أعمدة متتالية. في الصيغ النصية يُشار إلى الأعمدة المتراصفة الحاوية على أحرف متشابهة أو متطابقة بنظام رموز معروفة للتماثل. كما في الصورة أعلاه فقد تم استخدام رمز النجمة لتمثيل التطابق بين الأعمدة. يوجد العديد من برامج إظهار السلاسل التي تستخدم الألوان لإظهار المعلومات عن خواص الإفرادية لعناصر سلاسل الدنا والرنا بحيث يخصص لكل نيكليوتيد لوناً خاصاً به. في تراصف البروتينات تستخدم الألوان للإشارة إلى خواص حمض أميني للمساعدة في الحكم على الحفاظ على الاستبدال لحمض أميني معطى. يمكن تخزين تراصف السلاسل بمجموعة واسعة من صيغ الملفات النصية حيث تم تطوير العديد منها أصلاً بالترابط مع برنامج تراصف محدد. تسمح الأدوات المعتمدة على الشبكة (الويب) باستخدام عدد محدود من صيغ المداخل والمخارج مثل صيغ (FASTA وGenBank) وتكون المخارج صعبة التحرير. وهناك العديد من برامج التحويل التي تحوي على بيئة رسومية مع أو بدون واجهة أوامر مكتوبة مثل(REDSEQ, EMBOSS, BioPerl, BioRuby). 4- التراصف الإجمالي والتراصف الموضعي: تعتبر التراصفات الإجمالية، والتي تسعى إلى تراصف كل أساس في كل سلسلة، الأكثر فائدةً عندما تكون السلاسل المطلوبة متشابهة ومن أطوال متساوية. ومن تقنيات التراصف الإجمالي هي خوارزمية Needlman-Wunsch والمعتمدة على البرمجة الديناميكية. تعتبر التراصفات الموضعية أكثر فائدةً عندما تكون السلاسل متباينة ومن المحتمل أنها تحتوي على مناطق فيها تشابه ضمن المحتوى الكبير للسلسلة، ومن الخوارزميات المستخدمة في التراصف الموضعي هي خوارزمية Smith-Watlman وهي خوارزمية معتمدة على البرمجة الديناميكية. 5- تراصف الأزواج: تستخدم لإيجاد أفضل تطابق بين قطع السلاسل (موضعي) أو تراصف إجمالي لسلسلتين ويمكن استخدامها فقط بين سلسلتين بنفس الوقت وهي فعالة في الحساب وتستخدم طرق لا تتطلب دقة عالية (مثل البحث في قواعد البيانات عن سلاسل بتشابه عالي)، هناك ثلاث طرق رئيسية لتوليد هذا النوع من التراصف كما يلي:5-1) طريقة المصفوفة النقطية: لرسم مخطط المصفوفة النقطية تتم كتابة السلسلتين على طول الصف الأعلى والعمود في أقصى اليسار لمصفوفة ثنائية البعد. ويتم وضع النقاط على تقاطع الأحرف مع الأعمدة التي تحقق التطابق. وهذا الشكل الأساسي للمخطط التكراري. بعض البرامج تغير من حجم وشدة النقاط بالاعتماد على درجة التشابه للحرفين. يمكن استخدام المخططات النقطية لتقييم التكرارية في سلسلة مفردة. حيث يتم رسم المخطط النقطي للسلسة ونفسها والمناطق التي تتشابه ستظهر كخطوط على جانبي القطر الرئيسي. يظهر هذا الأثر أيضاً عندما يتكون البروتين من بنى متشابهة ومتعددة. 5-2) البرمجة الديناميكية: يمكن تطبيق تقنية البرمجة الديناميكية لتوليد التراصفات الإجمالية عن طريق خوارزمية Needleman-Wunsch والتراصفات الموضعية عن طريق خوارزمية Smith-Waterman. في الاستخدام الاعتيادي تستخدم تراصفات البروتين مصفوفة الاستبدال لتحديد مجموع نقاط (Score) للتطابقات في الحموض الأمينية أو عدم التطابق أو غرامة الفراغ (الفجوات gaps) من أجل تحقيق ربط بين حمض أميني في سلسلة بفجوة في السلسلة الأخرى. تضمن طريقة البرمجة الديناميكية إيجاد حل مثالي من خلال دالة تسجيل نقاط خاصة، لكن تحديد الدالة بشكل صحيح يبقى تجريبي أكثر من كونه طريقة نظرية. على الرغم من أن البرمجة الديناميكية يمكن مدَّها على أكثر من سلسلتين إلا أنها بطيئة في حال الأعداد الكبيرة من السلاسل أو السلاسل الطويلة جداً. 6- تراصف السلاسل المتعددة: وهو امتداد لتراصف الأزواج ليضم أكثر من سلسلتين اثنتين بنفس الوقت. يقوم تراصف السلاسل المتعددة برصف كل السلاسل الموجودة ضمن مجموعة محددة. يُستخدم هذا النوع من التراصف لتحديد مناطق السلاسل المحفوظة (المتشابهة) عبر مجموعة من السلاسل المفترض أمها مترابطة من ناحية تطورها. إن مثل هذه الأجزاء المتكررة من السلاسل والمحفوظة يمكن استخدامها بالترابط مع المعلومات البنيوية أو الميكانيكية لتموضع الأجزاء المنشطة والمحفزة للتفاعلات ضمن الأنزيمات. 6-1) البرمجة الديناميكية: إن تقنيات البرمجة الديناميكية قابلة للتطبيق على أي عدد من السلاسل، ولكن بسبب ارتفاع التكلفة في كل من الوقت والذاكرة المطلوبة، فإنه من النادر استخدامها لأكثر من ثلاث أو أربع سلاسل ضمن الشكل الأساسي لهذه الطريقة. تتطلب هذه الطريقة بناء مصفوفة بأبعاد n مكافئة للسلسلة والمتكونة من سلسلتين، حيث n هو عدد السلاسل المطلوبة. على الرغم من أن هذه التقنية مكلفة حسابياً فإنها تتضمن حلاً مثالياً إجمالياً مستخدماً في حالات التي يكون فيها عدد قليل من السلاسل مراد إيجاد تراصفها بدقة. 6-2) البرمجة التقدمية: تولد الطرق التقدمية أو الشجرية تراصفاً للسلاسل المتعددة بدايةً بإيجاد تراصف السلاسل الأكثر تشابهاً ومن إضافة السلاسل أو المجموعات الأقل ترابطاً للارتصاف حتى ضم كل السلاسل المطلوبة إلى الحل. إن معظم طرق تراصف السلاسل لمتعددة التقدمية تقوم بوضع أوزان في المجموعة المطلوبة من السلاسل تبعاً لمدى ترابطها، والذي يقلل من احتمالية أخذ الخيار غير الموفق للسلاسل الابتدائية وتطوير صحة ودقة التراصف. 7- التراصف البنيوي: يُستخدم التراصف البنيوي، والذي عادةً يكون مخصصاً للبروتينات وسلاسل الرنا، المعلومات عن البنية الثانوية والثالثية للبروتين أو جزيئة الرنا للمساعدة في تراصف السلاسل. يمكن بهذه الطرق أن تُستخدم من أجل سلسلتين أو أكثر وعادةً تولد التراصفات الموضعية، لكن بسبب اعتمادها على المتاح من المعلومات البنيوية، فإنها يمكن ان تُستخدم فقط من أجل السلاسل ذات البنى المعروفة (عادةً من خلال التحليل الطيفي بالرنين النووي المغناطيسي أو التصوير الإشعاعي للبلوريات). 8- تحليل تطور السلالات الحية: إن دراسة تطور السلالات الحية وعلة تراصف السلاسل هما علمان مترابطان بشكل كبير بسبب التقييم المشترك لتطور السلاسل وعلاقاتها ببعض. يقوم علم دراسة تطور السلالات بالاستخدام الموسع لتراصف السلاسل في بناء وتفسير أشجار السلالات للأصناف الحية، والتي تستخدم لتصنيف العلاقات المتطورة بين الجينات المتماثلة للأصناف الحية المتخالفة. (ar) Un alineament de seqüències en bioinformàtica és una forma de representar i comparar dues o més seqüències o cadenes d'ADN, ARN, o estructures primàries proteiques per ressaltar les seves zones de similitud, que podrien indicar relacions funcionals o evolutives entre els gens o proteïnes consultades. Les seqüències alineades s'escriuen amb les lletres (representant aminoàcids o nucleòtids) en files d'una matriu en què, si cal, s'insereixen espais perquè les zones amb idèntica o similar estructura s'alineïn. Si dues seqüències en un alineament comparteixen un avantpassat comú, les no coincidències poden interpretar-se com mutacions puntuals (substitucions), i els forats com (mutacions d'inserció o deleció) introduïdes en un o dos llinatges en el temps que va transcórrer des que divergí. En l'alineament de seqüències proteiques, el grau de similitud entre els aminoàcids que ocupen una posició concreta en la seqüència es pot interpretar com una mesura aproximada de la conservació en una regió particular o motius de seqüència entre llinatges. L'absència de substitucions, o la presència de substitucions molt conservades (la substitució d'aminoàcids la cadena lateral té propietats químiques similars) en una regió particular de la seqüència indica que aquesta zona té importància estructural o funcional. Tot i que les bases nucleotídiques de l'ADN i ARN són més semblants entre si que amb els aminoàcids, la conservació de l'aparellat de bases podria indicar papers funcionals o estructurals similars. L'alineament de seqüències es pot utilitzar amb seqüències no biològiques, com en la identificació de similituds en sèries de lletres i paraules del llenguatge humà o en anàlisi de dades financeres. Seqüències molt curtes o molt similars es poden alinear manualment. Tot i així, els problemes més interessants necessiten alinear seqüències llargues, molt variables i extremadament nombroses que no poden ser alineades per humans. El coneixement humà s'aplica principalment en la construcció d'algorismes que produeixin alineaments d'alta qualitat, i ocasionalment ajustant el resultat final per a representar patrons que són difícils d'introduir en algorismes (especialment en el cas de seqüències de nucleòtids). Les aproximacions computacionals a l'alineament de seqüències es divideixen en dues categories: alineament global i alineament local. Calcular un alineament global és una forma d'optimització global que "força" a l'alineament a ocupar la longitud total de totes les seqüències introduïdes (seqüències problema). Comparativament, els alineaments locals identifiquen regions similars dins de llargues seqüències que normalment són molt divergents entre si. Sovint es prefereixen els alineaments locals, però poden ser més difícils de calcular perquè s'hi afegeix el desafiament d'identificar les regions de major similitud. S'apliquen gran varietat d'algorismes computacionals al problema d'alineament de seqüències, com a mètodes lents, però d'optimització, de programació dinàmica, i eficients mètodes heurístics o probabilístics dissenyats per a cerca a gran escala en bases de dades. (ca) Alignment (někdy ekvivalentně sekvenční alignment) je základní bioinformatický nástroj, spočívající v seřazení dvou i více sekvencí DNA, RNA nebo proteinu pod sebe tak, aby odpovídající si nukleotidové báze či aminokyselinové zbytky ležely pod sebou. Pro krátké a/nebo velmi podobné sekvence je možné vytvořit alignment ručně, alignment delších a méně podobných sekvencí je obvykle vytvářen počítačem za použití specializovaných algoritmů. Cílem alignmentu je nalézt ve srovnávaných sekvencích podobné úseky, které mohou poukazovat na jejich sekvenční, strukturní či funkční příbuznost. (cs) Η στοίχιση ακολουθιών (sequence alignment), είναι μια διαδικασία κατά την οποία δύο ακολουθίες ή αλλιώς συμβολοσειρές τοποθετούνται η μία κάτω από την άλλη, με τέτοιον τρόπο που τα κοινά τους σύμβολα να είναι τοποθετημένοι στην ίδια θέση. Σκοπός είναι να βρεθεί η «βέλτιστη στοίχιση», δηλαδή η στοίχιση στην οποία οι δύο ακολουθίες ταιριάζουν περισσότερο μεταξύ τους. Η διαδικασία αυτή χρησιμοποιείται ιδιαίτερα στη βιοπληροφορική (bioinformatics), όπου ως ακολουθίες χρησιμοποιούνται τμήματα DNA, RNA ή πρωτεΐνών. Η διαδικασία της στοίχισης, όταν συμβαίνει σε συμβολοσειρές μεγάλου μήκους (όπως αυτές που προκύπτουν από τα βιολογικά δεδομένα) είναι μια σχετικά δύσκολη διαδικασία. Στην πράξη χρησιμοποιείται πληθώρα αλγορίθμων, οι περισσότεροι από τους οποίους χρησιμοποιούν την φιλοσοφία του δυναμικού προγραμματισμού (dynamic programming). (el) Sequenzalignment (von lateinisch sequentia, „Aufeinanderfolge“ und englisch alignment, „Abgleich, Anordnung, Ausrichtung“) bezeichnet den methodischen Vergleich zweier oder mehrerer Nukleotid- oder Aminosäuresequenzen in linearer Abfolge. Sequenzalignment ist ein Teilgebiet des Pattern Matching. Es wird in der verwendet, um die funktionelle oder evolutionäre Verwandtschaft (Homologie) von Nukleotidsequenzen oder Aminosäuresequenzen zu untersuchen. In der Fachsprache werden anstelle des Anglizismus „alignment“ auch die eingedeutschten Begriffe Alignierung oder Alinierung benutzt. (de) Sekuentzien lerrokatzea bioinformatikako arloan bi edo gehiago diren DNA, RNA edo egitura proteiko primarioen sekuentziak elkarren artean konparatzeko edo irudikatzeko era bat da. Helburua da sekuentzia hauetan komunak diren zatiak nabarmentzea, erlazio funtzional edo ebolutiboak adieraz dezaketenak. Sekuentzia hauek matrize baten lerroetan irudikatzen dira hizkien bitartez (aminoazidoak edo nukleotidoak irudikatuz). Beharrezkoa bada, zuriuneak gehitzen dira estruktura berdina duten sekuentziak lerroka daitezen. Nahiz eta DNA eta RNAko oinarri nukleotidokoak elkarrekiko berdintsuagoak izan aminoazidoekin baino, oinarrien parekatzeen mantentzeak rol funtzional edo estruktura berdintsuak adierazi lezake. Sekuentzien lerrokatzeak biologikoak ez diren sekuentziekin erabili daitezke, hala nola hizki-serie eta gizakien hitzen identifikazioan edo datu finantzarioen analisian. Proteinen estruktura primarioak konparatzeko hainbat algoritmo aurki ditzakegu, baina nabarmengarrienak Needleman-Wunch algoritmoa, Smith-Waterman algoritmoa, BLAST eta FASTA dira. Oso motzak edo oso berdintsuak diren sekuentziak eskuz lerrokatu daitezke. Bestalde, problema interesgarrienak eskuz lerrokatu ezin daitezken sekuentzia oso luze, aldagarriak eta oso ugariak erabiltzera behartzen dute. Gizakien adimena kalitatezko lerrokatzeak sortuko dituzten algoritmoak sortzeko erabiltzen da, eta batzuetan azkeneko emaitza estutzeko, algoritmoetan sartzeko oso zailak diren patroiak errepresentatzeko. Hurbilpen konputazionalak bi kategorietan banatzen dira: lerrokatze globala eta lerrokatze lokala. Lerrokatze globala kalkulatzea, optimizazio global mota bat da, lerrokatzeari sartutako sekuentzien luzera osoa okupatzera behartzen diona. Konparatiboki, lerrokatze lokalak sekuentzia luzeetako sekzio berdintsuak identifikatzen dituzte, sekuentzia hauek askotan dibergenteak dira haien artean. Askotan lerrokatze lokalak gehiago aukeratzen dira, baina zailagoak izan daitezke berdintasun erregio hauen identifikazioa gehitu behar zaielako. Sekuentzien lerrokatzeari hainbat algoritmo konputazional aplikatzen dira, hala nola metodo motelak, baina optimizatzeko erabiliak, programazio dinamikoa eta metodo heuristiko edo probabilistiko eraginkorrak, datu-base handietan bilatzeko pentsatuak daudenak. (eu) Un alineamiento de secuencias en bioinformática es una forma de representar y comparar dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. Las secuencias alineadas se escriben con las letras (representando aminoácidos o nucleótidos) en filas de una matriz en las que, si es necesario, se insertan espacios para que las zonas con idéntica o similar estructura se alineen. Aunque las bases nucleotídicas del ADN y ARN son más similares entre sí que con los aminoácidos, la conservación del emparejado de bases podría indicar papeles funcionales o estructurales similares. El alineamiento de secuencias puede utilizarse con secuencias no biológicas, como en la identificación de similitudes en series de letras y palabras del lenguaje humano o en análisis de datos financieros. Entre los algoritmos más populares basados en la comparación de estructuras primarias de proteínas, se deben destacar el algoritmo Needleman-Wunsch, el algoritmo Smith-Waterman, BLAST y FASTA Secuencias muy cortas o muy similares pueden alinearse manualmente. Aun así, los problemas más interesantes necesitan alinear secuencias largas, muy variables y extremadamente numerosas que no pueden ser alineadas por humanos. El conocimiento humano se aplica principalmente en la construcción de algoritmos que produzcan alineamientos de alta calidad, y ocasionalmente ajustando el resultado final para representar patrones que son difíciles de introducir en algoritmos (especialmente en el caso de secuencias de nucleótidos). Las aproximaciones computacionales al alineamiento de secuencias se dividen en dos categorías: alineamiento global y alineamiento local. Calcular un alineamiento global es una forma de optimización global que "fuerza" al alineamiento a ocupar la longitud total de todas las secuencias introducidas (secuencias problema). Comparativamente, los alineamientos locales identifican regiones similares dentro de largas secuencias que normalmente son muy divergentes entre sí. A menudo se prefieren los alineamientos locales, pero pueden ser más difíciles de calcular porque se añade el desafío de identificar las regiones de mayor similitud. Se aplican gran variedad de algoritmos computacionales al problema de alineamiento de secuencias, como métodos lentos, pero de optimización, como la programación dinámica, y métodos heurísticos o probabilísticos eficientes, pero no exhautivos, diseñados para búsqueda a gran escala en bases de datos. (es) In bioinformatics, a sequence alignment is a way of arranging the sequences of DNA, RNA, or protein to identify regions of similarity that may be a consequence of functional, structural, or evolutionary relationships between the sequences. Aligned sequences of nucleotide or amino acid residues are typically represented as rows within a matrix. Gaps are inserted between the residues so that identical or similar characters are aligned in successive columns.Sequence alignments are also used for non-biological sequences, such as calculating the distance cost between strings in a natural language or in financial data. (en) En bio-informatique, l'alignement de séquences (ou alignement séquentiel) est une manière de représenter deux ou plusieurs séquences de macromolécules biologiques (ADN, ARN ou protéines) les unes sous les autres, de manière à en faire ressortir les régions homologues ou similaires. L'objectif de l'alignement est de disposer les composants (nucléotides ou acides aminés) pour identifier les zones de concordance. Ces alignements sont réalisés par des programmes informatiques dont l'objectif est de maximiser le nombre de coïncidences entre nucléotides ou acides aminés dans les différentes séquences. Ceci nécessite en général l'introduction de « trous » à certaines positions dans les séquences, de manière à aligner les caractères communs sur des colonnes successives. Ces trous correspondent à des insertions ou des délétions (appelés indel) de nucléotides ou d'acides aminés dans les séquences biologiques. Le résultat final est traditionnellement représenté comme des lignes d'une matrice. L'interprétation des alignements des séquences biologiques repose sur la théorie darwinienne de l'évolution. En général les séquences alignées correspondant à des molécules remplissant des fonctions similaires, il peut s'agir par exemple de la même enzyme chez différentes espèces, dont on suppose qu'elles dérivent d'un même ancêtre commun. Les divergences entre les séquences sont interprétées comme résultant de mutations. Les régions contenant des nucléotides ou des acides aminés conservés sont supposées correspondre à des zones où s'exerce une pression de sélection pour maintenir la fonction de la macromolécule. L'alignement a plusieurs utilisations importantes en bioinformatique car il permet un certain nombre de prédictions. Il permet notamment d'identifier des sites fonctionnels (site catalytique, zone d'interaction...) qui correspondent en général aux régions les plus conservées, car ce sont elles sur lesquelles la pression de sélection est la plus grande. On peut aussi utiliser l'alignement de séquence pour prédire la ou les fonctions d'une protéine, si on détecte une homologie avec une protéine de fonction connue. Si la structure secondaire ou tertiaire de cette protéine de fonction homologue est connue, l'alignement peut être utilisé pour prédire la structure d'une protéine. Enfin, en cas d'alignements multiples au sein d'une famille de protéines, ceux-ci peuvent permettre d'établir une phylogénie entre elles. (fr) Sequentiealignering (Engels: sequence alignment) is het bij elkaar zetten van twee of meer biologische sequenties op zo'n manier dat gelijkenissen en verschillen tussen de sequenties duidelijk worden. Dit soort alignering wordt binnen de biologie meestal aan computers overgelaten en vormt zo een bekend concept binnen de bio-informatica. De sequenties, sequenties van DNA of eiwitten, worden hierbij gewoonlijk onder elkaar geplaatst. Gelijke onderdelen, respectievelijk nucleotiden en aminozuren, worden daarbij met verticale streepjes aan elkaar gelinkt. Een voorbeeld voor de uitlijning van twee nucleotidensequenties: tcctctgcctctgccatcat---caaccccaaagt| | |||||||||
dbo:thumbnail | wiki-commons:Special:FilePath/Histone_Alignment.png?width=300 | |||||||||
dbo:wikiPageExternalLink | https://www.ncbi.nlm.nih.gov/BLAST/ http://edamontology.org/operation_0292 https://web.archive.org/web/19981203071023/http:/cl.sdsc.edu/ https://web.archive.org/web/20071024223546/http:/bioweb.pasteur.fr/seqanal/interfaces/readseq.html https://web.archive.org/web/20090301064750/http:/ekhidna.biocenter.helsinki.fi/dali_server/start https://www.ebi.ac.uk/about/vertebrate-genomics/software/exonerate https://bio.tools/%3Fpage=1&function=%22Sequence%20alignment%22&sort=score http://www.ebi.ac.uk/Tools/psa/genewise/ http://www.ebi.ac.uk/fasta33/ https://onlinelibrary.wiley.com/doi/abs/10.1002/jbio.201900227 https://www.ncbi.nlm.nih.gov/CBBresearch/Schaffer/msa.html http://www.cathdb.info/ https://web.archive.org/web/20051125045348/http:/ekhidna.biocenter.helsinki.fi/dali/start | |||||||||
dbo:wikiPageID | 149289 (xsd:integer) | |||||||||
dbo:wikiPageLength | 57123 (xsd:nonNegativeInteger) | |||||||||
dbo:wikiPageRevisionID | 1107099037 (xsd:integer) | |||||||||
dbo:wikiPageWikiLink | dbr:BLAST dbr:Pseudocount dbr:MUMmer dbr:Natural_language_processing dbr:Nucleotide dbr:Benchmark_(computing) dbr:BioPerl dbr:BioRuby dbr:Bowtie_(sequence_analysis) dbr:Alignment-free_sequence_analysis dbr:DNA dbr:DNA_repair dbr:CATH dbr:Dot_plot_(bioinformatics) dbr:EMBOSS dbr:Indel dbr:Information_content dbr:Inverted_repeat dbr:Protein_structure_prediction dbr:NMR_spectroscopy dbr:Matrix_(mathematics) dbr:Maximal_unique_match dbr:Genome dbr:Natural_selection dbr:Silent_mutation dbr:Optimization_(mathematics) dbr:Clustal dbr:Enzyme dbr:GenBank dbr:Gene dbr:Genetic_algorithm dbr:Molecular_clock dbr:Most_recent_common_ancestor dbr:NP-complete dbr:NP-hard dbr:Consensus_sequence dbr:Conserved_sequence dbr:Contig dbr:Convergent_evolution dbc:Sequence_alignment_algorithms dbr:PatternHunter dbr:Structural_biology dbr:Optical_computing dbr:Optimal_matching dbr:Objective_function dbr:Simulated_annealing dbr:String_searching_algorithm dbr:Computational_biology dbr:Computer_memory dbr:Coalescence_(genetics) dbr:Point_accepted_mutation dbr:Point_mutation dbr:Protein_Data_Bank dbr:Main_diagonal dbr:Active_site dbr:UGENE dbr:Data_set dbr:Gap_penalty dbr:Codon dbr:Families_of_structurally_similar_proteins dbr:Linguistics dbr:Amino_acid dbr:DNASTAR dbr:Dynamic_programming dbr:Alternative_splicing dbr:Evolution dbr:FASTA_format dbr:FM-index dbr:BioPython dbr:Global_optimization dbr:Comparative_method_(linguistics) dbr:Probability dbr:RNA dbr:Read_(biology) dbr:Recurrence_plot dbr:Residue_(chemistry) dbc:Computational_phylogenetics dbr:Bioinformatics dbr:T-Coffee dbr:Edit_distance dbr:Heuristic dbr:Hidden_Markov_model dbr:Tertiary_structure dbr:Needleman–Wunsch_algorithm dbr:Smith-Waterman_algorithm dbr:Distance_matrix dbr:BLOSUM dbc:Algorithms_on_strings dbc:Bioinformatics_algorithms dbr:Burrows–Wheeler_transform dbc:Evolutionary_developmental_biology dbr:Phylogenetic_tree dbr:Phylogenetics dbr:Conservative_mutation dbr:Hydrophobic dbr:Open-source_software dbr:Sequence_motif dbr:X-ray_crystallography dbr:Sequence_homology dbr:Genomes dbr:Multiple_sequence_alignment dbr:Reaction_mechanism dbr:SAM_(file_format) dbr:Smith–Waterman_algorithm dbr:FASTA dbr:Natural_language dbr:Sequence_logo dbr:Substitution_matrix dbr:Geneious dbr:RNA_editing dbr:Side_chain dbr:Segregating_site dbr:Needleman-Wunsch_algorithm dbr:Base_stacking dbr:Frameshift dbr:Secondary_structure dbr:Conservation_(genetics) dbr:Heuristic_algorithm dbr:Single_nucleotide_polymorphism dbr:Genome_assembly dbr:Sequence_alignment_software dbr:Sequence_mining dbr:Expressed_sequence_tags dbr:Margaret_Dayhoff dbr:Root_mean_square_deviation_(bioinformatics) dbr:Structural_domain dbr:File:Histone_Alignment.png dbr:File:Hemagglutinin-alignments.png dbr:File:Zinc-finger-dot-plot.png dbr:File:A_profile_HMM_modelling_a_multiple_sequence_alignment.png dbr:File:Mup_locus_showing_DNA_repeats.jpg | |||||||||
dbp:wikiPageUsesTemplate | dbt:Authority_control dbt:Commons_category-inline dbt:Dead_link dbt:Main dbt:More_citations_needed dbt:Reflist dbt:Short_description dbt:Spoken_Wikipedia dbt:Use_dmy_dates dbt:Wikiversity dbt:Bioinformatics dbt:Strings | |||||||||
dct:subject | dbc:Sequence_alignment_algorithms dbc:Computational_phylogenetics dbc:Algorithms_on_strings dbc:Bioinformatics_algorithms dbc:Evolutionary_developmental_biology | |||||||||
gold:hypernym | dbr:Way | |||||||||
rdf:type | owl:Thing yago:WikicatSequenceAlignmentAlgorithms yago:Abstraction100002137 yago:Act100030358 yago:Activity100407535 yago:Algorithm105847438 yago:Event100029378 yago:Procedure101023820 yago:PsychologicalFeature100023100 yago:YagoPermanentlyLocatedEntity yago:Rule105846932 yago:WikicatAlgorithmsOnStrings | |||||||||
rdfs:comment | Alignment (někdy ekvivalentně sekvenční alignment) je základní bioinformatický nástroj, spočívající v seřazení dvou i více sekvencí DNA, RNA nebo proteinu pod sebe tak, aby odpovídající si nukleotidové báze či aminokyselinové zbytky ležely pod sebou. Pro krátké a/nebo velmi podobné sekvence je možné vytvořit alignment ručně, alignment delších a méně podobných sekvencí je obvykle vytvářen počítačem za použití specializovaných algoritmů. Cílem alignmentu je nalézt ve srovnávaných sekvencích podobné úseky, které mohou poukazovat na jejich sekvenční, strukturní či funkční příbuznost. (cs) Sequenzalignment (von lateinisch sequentia, „Aufeinanderfolge“ und englisch alignment, „Abgleich, Anordnung, Ausrichtung“) bezeichnet den methodischen Vergleich zweier oder mehrerer Nukleotid- oder Aminosäuresequenzen in linearer Abfolge. Sequenzalignment ist ein Teilgebiet des Pattern Matching. Es wird in der verwendet, um die funktionelle oder evolutionäre Verwandtschaft (Homologie) von Nukleotidsequenzen oder Aminosäuresequenzen zu untersuchen. In der Fachsprache werden anstelle des Anglizismus „alignment“ auch die eingedeutschten Begriffe Alignierung oder Alinierung benutzt. (de) In bioinformatics, a sequence alignment is a way of arranging the sequences of DNA, RNA, or protein to identify regions of similarity that may be a consequence of functional, structural, or evolutionary relationships between the sequences. Aligned sequences of nucleotide or amino acid residues are typically represented as rows within a matrix. Gaps are inserted between the residues so that identical or similar characters are aligned in successive columns.Sequence alignments are also used for non-biological sequences, such as calculating the distance cost between strings in a natural language or in financial data. (en) 서열정렬은 유전자나 단백질의 서열을 다이내믹 프로그래밍 기반의 컴퓨터 스트링 정렬 알고리즘을 이용하여 배열하는 것을 말한다. 주로 생물정보학에서 많이 쓰인다. 서열정렬은 (pairwise sequence alignment)와 다중서열정렬(Multiple sequence alignment)로 나뉘고, 복서열정열은 클러서틀계열의 프로그램으로 정렬을 한다. (ko) バイオインフォマティクスにおいて、シーケンスアラインメントとは、DNAやRNA、タンパク質の配列(一次構造)の類似した領域を特定できるように並べたもので、機能的、構造的、あるいは進化的な配列の関係性を知る手がかりを与える。 アラインメントされたヌクレオチド残基やアミノ酸残基の配列は、典型的には行列の行として表現され、同一あるいは類似性質の配列が同じ列に並ぶようギャップが挿入される。 アラインメントの二配列が祖先を共有する場合、分岐後の一方または両方の系統において、不一致部分は点変異が、ギャップ部分はインデル(indel=挿入欠失; 挿入変異または欠失変異)が生じたものと解釈される。タンパク質の配列アラインメントでは、特定位置におけるアミノ酸の類似度は特定領域、あるいは配列モチーフが系統間でどのくらい保存されているかを示す大まかな目安と解釈できる。置換がないか、保守的置換(類似の生化学的特性を持った側鎖との置換)しかないとき、その領域は構造的、あるいは機能的に重要であると示唆される。DNAとRNAの塩基は、アミノ酸の場合よりも互いに類似しているものの、塩基対の保存は、構造的、機能的重要性を示唆している。シーケンスアラインメントは、自然言語や金融データなどの非生物配列にも用いられる。 (ja) 序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線“-”表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是氨基酸殘基的單字母表示)排列在同一列上。 tcctctgcctctgccatcat---caaccccaaagt | | |||||||||
rdfs:label | Sequence alignment (en) تراصف تسلسلي (ar) Alineament de seqüències (ca) Alignment (biologie) (cs) Sequenzalignment (de) Στοίχιση ακολουθιών (el) Alineamiento de secuencias (es) Sekuentzien lerrokatze (eu) Alignement de séquences (fr) Allineamento di sequenze (it) 서열 정렬 (ko) シーケンスアラインメント (ja) Sequentiealignering (nl) Dopasowanie sekwencji (pl) Выравнивание последовательностей (ru) Alinhamento de sequências (pt) Вирівнювання послідовностей (uk) Linjering (sv) 序列比對 (zh) | |||||||||
owl:sameAs | freebase:Sequence alignment yago-res:Sequence alignment wikidata:Sequence alignment dbpedia-ar:Sequence alignment http://ast.dbpedia.org/resource/Alliniadura_de_secuencies http://bs.dbpedia.org/resource/Poravnanje_sekvenci dbpedia-ca:Sequence alignment dbpedia-cs:Sequence alignment dbpedia-de:Sequence alignment dbpedia-el:Sequence alignment dbpedia-es:Sequence alignment dbpedia-eu:Sequence alignment dbpedia-fa:Sequence alignment dbpedia-fr:Sequence alignment dbpedia-gl:Sequence alignment dbpedia-he:Sequence alignment dbpedia-it:Sequence alignment dbpedia-ja:Sequence alignment dbpedia-ko:Sequence alignment dbpedia-mk:Sequence alignment dbpedia-nl:Sequence alignment dbpedia-no:Sequence alignment dbpedia-oc:Sequence alignment dbpedia-pl:Sequence alignment dbpedia-pt:Sequence alignment dbpedia-ru:Sequence alignment dbpedia-sh:Sequence alignment dbpedia-sr:Sequence alignment dbpedia-sv:Sequence alignment dbpedia-tr:Sequence alignment dbpedia-uk:Sequence alignment dbpedia-vi:Sequence alignment dbpedia-zh:Sequence alignment https://global.dbpedia.org/id/4ywbv | |||||||||
prov:wasDerivedFrom | wikipedia-en:Sequence_alignment?oldid=1107099037&ns=0 | |||||||||
foaf:depiction | wiki-commons:Special:FilePath/Histone_Alignment.png wiki-commons:Special:FilePath/A_profile_HMM_modelling_a_multiple_sequence_alignment.png wiki-commons:Special:FilePath/Hemagglutinin-alignments.png wiki-commons:Special:FilePath/Mup_locus_showing_DNA_repeats.jpg wiki-commons:Special:FilePath/Zinc-finger-dot-plot.png | |||||||||
foaf:isPrimaryTopicOf | wikipedia-en:Sequence_alignment | |||||||||
is dbo:academicDiscipline of | dbr:Desmond_G._Higgins dbr:Toby_Gibson | |||||||||
is dbo:knownFor of | dbr:David_Sankoff | |||||||||
is dbo:wikiPageDisambiguates of | dbr:Alignment | |||||||||
is dbo:wikiPageRedirects of | dbr:CIGAR_string dbr:DNA_Alignment dbr:Protein_sequence_alignment dbr:Aligning_sequences dbr:Bioinformatics_sequence_alignment dbr:Sequence_identity dbr:Sequence_similarity_search | |||||||||
is dbo:wikiPageWikiLink of | dbr:Ensembl_Genomes dbr:List_of_algorithms dbr:List_of_formal_language_and_literal_string_topics dbr:MUMmer dbr:MIQE dbr:MNase-seq dbr:MaMF dbr:MacVector dbr:Method_of_Four_Russians dbr:Bayesian_network dbr:Ben_Langmead dbr:BioJava dbr:BioPerl dbr:BioRuby dbr:Biochemistry dbr:Biopython dbr:Bowtie_(sequence_analysis) dbr:David_Sankoff dbr:Desmond_G._Higgins dbr:Alignment-free_sequence_analysis dbr:Peptidase_1_(mite) dbr:Phage_P22_tailspike_protein dbr:Cyclodeaminase_domain dbr:DNA dbr:DNADynamo dbr:DNA_sequencing_theory dbr:UTOPIA_(bioinformatics_tools) dbr:Velvet_assembler dbr:De_novo_sequence_assemblers dbr:Delannoy_number dbr:Dot_matrix dbr:Dot_plot_(bioinformatics) dbr:Duplex_sequencing dbr:Dynamic_time_warping dbr:EMBOSS dbr:Inferring_horizontal_gene_transfer dbr:Integrated_Genome_Browser dbr:J._Craig_Venter_Institute dbr:JAligner dbr:Structural_alignment dbr:Levenshtein_distance dbr:List_of_named_matrices dbr:List_of_sequence_alignment_software dbr:Protein_structure_prediction dbr:Pseudogene dbr:1000_Plant_Genomes_Project dbr:16S_ribosomal_RNA dbr:Computational_genomics dbr:Coronavirus_frameshifting_stimulation_element dbr:Ancestral_reconstruction dbr:Maximal_unique_match dbr:SAMtools dbr:Genome_skimming dbr:Genomic_phylostratigraphy dbr:Outgroup_(cladistics) dbr:RNF227 dbr:Christophe_Dessimoz dbr:Clustal dbr:Emily_Balskus dbr:Gene dbr:General_feature_format dbr:Genomics dbr:Molecular_phylogenetics dbr:MonetDB dbr:Consensus_sequence dbr:Conservative_replacement dbr:Conserved_sequence dbr:Contact_order dbr:Critical_Assessment_of_protein_Structure_Prediction dbr:Cross-entropy_method dbr:LSm dbr:LacED dbr:UCK2 dbr:PatternHunter dbr:Optimal_matching dbr:Ornithology dbr:Angelo_Dalli dbr:MODELLER dbr:MUSCLE_(alignment_software) dbr:Magnesium_transporter_E dbr:Calponin_1 dbr:Sirius_visualization_software dbr:Comparative_genomics dbr:Compressed_suffix_array dbr:Computational_biology dbr:Computational_immunology dbr:Computational_phylogenetics dbr:Dock4 dbr:Sequence_assembly dbr:PANDIT_(database) dbr:PANTHER dbr:Point_accepted_mutation dbr:Protein_superfamily dbr:Superfamily_database dbr:Transposable_element dbr:Michael_Gribskov dbr:XPG_N_terminus dbr:Richard_Arratia dbr:BLAST_(biotechnology) dbr:Three-finger_toxin dbr:Transfer-messenger_RNA dbr:Treefinder dbr:Trie dbr:UCSF_Chimera dbr:UGENE dbr:Drosophila_roX_RNA dbr:GRAph_ALigner_(GRAAL) dbr:Harvard_John_A._Paulson_School_of_Engineering_and_Applied_Sciences dbr:John_G._Cleary dbr:K-mer dbr:Lanosterol_14_alpha-demethylase dbr:RNA-Seq dbr:Stemloc dbr:AlphaFold dbr:28S_ribosomal_RNA dbr:Dynamic_programming dbr:Eugene_Lawler dbr:Evolution_of_the_wolf dbr:Ewan_Birney dbr:FASTA_format dbr:FM-index dbr:Numbers_(season_2) dbr:PAS_domain dbr:Pandemic_prevention dbr:Carbohydrate-binding_module dbr:Direct_coupling_analysis dbr:Hirschberg's_algorithm dbr:Dot_matrix_(disambiguation) dbr:Ka/Ks_ratio dbr:CIGAR_string dbr:List_of_MeSH_codes_(E05) dbr:Multiple_EM_for_Motif_Elicitation dbr:Protein_family dbr:Protein dbr:Protein_Structure_Initiative dbr:AK3L1 dbr:ARMH3 dbr:Jaro–Winkler_distance dbr:Covarion dbr:Temple_F._Smith dbr:Terri_Attwood dbr:Sequential_pattern_mining dbr:Archelosauria dbr:Binning_(metagenomics) dbr:BioWall dbr:Bioinformatics dbr:Biological_data_visualization dbr:Biophysics dbr:Birnaviridae dbr:TIM_barrel dbr:Coding_region dbr:CodonCode_Aligner dbr:Edit_distance dbr:Hidden_Markov_model dbr:Homology_(biology) dbr:Homology_modeling dbr:Needleman–Wunsch_algorithm dbr:Distance_matrix dbr:BLAT_(bioinformatics) dbr:BLOSUM dbr:Margaret_Oakley_Dayhoff dbr:Burrows–Wheeler_transform dbr:C16orf78 dbr:CRAM_(file_format) dbr:Phyloscan dbr:Phyre dbr:Time-resolved_RNA_sequencing dbr:DNA_Alignment dbr:Infection dbr:Alignment dbr:Michael_Waterman dbr:RAPTOR_(software) dbr:Sepp_Hochreiter dbr:SequenceBase dbr:Sequence_homology dbr:Loop_modeling dbr:Multiple_sequence_alignment dbr:Rosalind_(education_platform) dbr:SAM_(file_format) dbr:Statistical_coupling_analysis dbr:Sequence_analysis dbr:Short_Oligonucleotide_Analysis_Package dbr:Sim4 dbr:Similarity_measure dbr:Smith–Waterman_algorithm dbr:Tetrameric_protein dbr:Toby_Gibson dbr:European_Nucleotide_Archive dbr:FASTA dbr:Importin dbr:Low_copy_repeats dbr:Sequence_logo dbr:Substitution_matrix dbr:PlasMapper dbr:Y_Y_Y dbr:RpYN06 dbr:Ruzzo–Tompa_algorithm dbr:Evidence_of_common_descent dbr:Molecular_ecology dbr:Molecular_evolution dbr:Stochastic_grammar dbr:WNK4 dbr:Phylogenetic_inference_using_transcriptomic_data dbr:Phylogenomics dbr:Sequence_clustering dbr:Segregating_site dbr:Sequence_analysis_in_social_sciences dbr:Sequence_profiling_tool dbr:Swiss-model dbr:UPGMA dbr:SMAWK_algorithm dbr:Owen_White dbr:PREDITOR dbr:SplitsTree dbr:Viral_Bioinformatics_Resource_Center dbr:Sequerome dbr:TimeLogic dbr:Xrate dbr:Spaced_seed dbr:Transcriptomics_technologies dbr:SuperPose dbr:String-searching_algorithm dbr:Protein_sequence_alignment dbr:Aligning_sequences dbr:Bioinformatics_sequence_alignment dbr:Sequence_identity dbr:Sequence_similarity_search | |||||||||
is dbp:class of | dbr:Needleman–Wunsch_algorithm dbr:Smith–Waterman_algorithm | |||||||||
is dbp:fields of | dbr:Toby_Gibson | |||||||||
is rdfs:seeAlso of | dbr:Conserved_sequence | |||||||||
is foaf:primaryTopic of | wikipedia-en:Sequence_alignment |