Sequence assembly (original) (raw)

En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes. Le problème de l'assemblage peut être comparé à celui de la reconstruction du texte d'un livre à partir de plusieurs copies de celui-ci, préalablement déchiquetées en petits morceaux.

Property	Value
dbo:abstract	En bioinformàtica, l'assemblatge de seqüències es refereix a alinear i fusionar fragments curts d'una seqüència d'ADN per tal de reconstruir la seqüència original més llarga. Aquest procés és necessari donat que la tecnologia actual de seqüenciació d'ADN no pot llegir genomes sencers, sinó que llegeix peces petites d'entre 20 i 30000 bases, depenent de la tecnologia. Típicament els fragments curts, anomenats lectures (de l'anglés "reads"), provenen d'un procés de seqüenciació massiva o de l'obtenció de fragments més curts mitjançant la tecnologia EST (de l'anglés Expressed Sequence Tags) El problema de l'assemblatge de seqüències pot ser comparat a agafar moltes còpies d'un llibre, passar cadascuna d'aquestes a través d'una trituradora i intentar reconstruir el llibre original a partir de les paraules resultants. A més de la dificultat òbvia d'aquesta tasca, hi ha alguns assumptes pràctics extres: l'original pot tenir molts paràgrafs repetits, i determinats fragments poden ser modificats durant el triturat i contenir, per tant, errors. A més, en el procés de triturat també poden afegir-se fragments d'un altre llibre donant lloc a un contingut completament irreconeixible. (ca) En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes. Le problème de l'assemblage peut être comparé à celui de la reconstruction du texte d'un livre à partir de plusieurs copies de celui-ci, préalablement déchiquetées en petits morceaux. (fr) En bioinformática, el montaje o ensamblaje de secuencias se refiere al alineamiento y mezcla de múltiples fragmentos de una secuencia de ADN mucho mayor para reconstruir la secuencia original. Normalmente los fragmentos cortos provienen de secuenciación "por perdigonada" (shotgun) de ADN genómico, o de transcripción genética (ESTs, o marcadores de secuencia expresada). La primera generación de montadores de secuencias empezaron a aparecer en los últimos 80 y primeros 90 del siglo XX, para reconstruir las grandes cantidades de fragmentos generadas por . Estos ensambladores de primera generación utilizaban varias estrategias para manejar las secuencias repetitivas y los errores de secuenciación, que podían confundir el ensamblado. Sin embargo, no podían manejar genomas mucho más largos que los de una bacteria (varios millones de bases de ADN), y fueron siendo reemplazados conforme el campo se movía hacia genomas mayores. Los que se relacionan a continuación fueron montadores de primera generación ampliamente usados en los 90 en universidades, instituciones gubernamentales y en la industria: * Phrap, por Phil Green, de la University de Washington. * TIGR Assembler, por Granger Sutton, The Institute for Genomic Research. * CAP3, por Xiaoqiu Huang, del Michigan Technological University. Ensambladores modernos, como DNA Baser, han traído importantes mejoras sobre los de primera generación reduciendo el tiempo necesario para crear un contig desde decenas de minutos a segundos, usando algoritmos de ensamblado inteligente, ensamblado por lotes, y detección automática de calidad y zonas terminales de corte. (es) In bioinformatics, sequence assembly refers to aligning and merging fragments from a longer DNA sequence in order to reconstruct the original sequence. This is needed as DNA sequencing technology might not be able to 'read' whole genomes in one go, but rather reads small pieces of between 20 and 30,000 bases, depending on the technology used. Typically, the short fragments (reads) result from shotgun sequencing genomic DNA, or gene transcript (ESTs). The problem of sequence assembly can be compared to taking many copies of a book, passing each of them through a shredder with a different cutter, and piecing the text of the book back together just by looking at the shredded pieces. Besides the obvious difficulty of this task, there are some extra practical issues: the original may have many repeated paragraphs, and some shreds may be modified during shredding to have typos. Excerpts from another book may also be added in, and some shreds may be completely unrecognizable. (en) 配列アセンブリング（はいれつアセンブリング）とは、バイオインフォマティクスにおいて短いDNAの断片から元の長い塩基配列を再構築することを指す。DNAシーケンシングでは用いる手法にもよるが一度に読める長さは20から1000残基にとどまるため、この技術はそれより長い塩基配列の決定には不可欠の技術である。また、このようなアセンブリングを行うプログラムのことをアセンブラと呼ぶ。 (ja) Сборка генома — процесс объединения большого количества коротких фрагментов ДНК (ридов) в одну или несколько длинных последовательностей (контигов и скаффолдов) в целях восстановления последовательностей ДНК хромосом, из которых возникли эти фрагменты в процессе секвенирования. Сборка генома является очень сложной вычислительной задачей, в частности, осложнённой тем, что геномы часто содержат большое количество одинаковых повторяющихся последовательностей (так называемые геномные повторы). Эти повторы могут быть длиной в несколько тысяч нуклеотидов, а также встречаться в тысяче различных мест в геноме. Особенно богаты повторами большие геномы растений и животных, в том числе геном человека. (ru) 序列組裝（Sequence assembly）是生物資訊學中的一種分析方法。此方法通過序列比對和序列合併等演算，將短片段的DNA建構成為較長的連續序列。此技術的創立，是因為被測序的核酸分子通常長度都遠大於目前存在的DNA測序技術。而此分析能試圖從有限長度的DNA測序結果，重建出原本被測序分子的樣貌。序列組裝最常被使用在高通量測序資料的分析上（例如基因組霰彈槍定序，或者RNA轉錄體測序）。這一類的測序技術會產生大量的測序片段（read，複數reads），而這些片段的長度依照不同的技術，短為數十，長可至上萬個鹼基對（前者如Illumina的定序平台，後者如的或奈米孔洞測序）。而序列組裝旨在合併這些短片段來重建原本的分子序列。我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程：被測序的分子就是那篇文章，而測序片段就是那段文章中，隨機切取出來的句子。其中一種重建出這段文章的方式，就是找到句子中重疊的部分，因為一旦找到夠多重疊的部分，我們就有機會將每個句子連接到一起，進而得到原始的文章。不難想像，此過程的困難不僅僅在於需要進行大量的片段比對，還會因原本文章的複雜度而製造更多問題：例如原本的文章可能有許多重復的段落，而帶有這些重複段落的文句可能會重疊在一起；又或者我們所拿到的句子中若有錯別字，亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。 (zh) Складання геному — процес об'єднання великої кількості коротких фрагментів ДНК (рідів) у одну або кілька довгих послідовностей (контигів і скаффолдів) з метою відновлення послідовностей ДНК хромосом, з яких виникли ці фрагменти в процесі секвенування. Складання геному є дуже складною обчислювальною задачею, зокрема, ускладненої тим, що геноми часто містять багато однакових повторюваних послідовностей (так звані геномні повтори). Ці повтори можуть мати довжину кілька тисяч нуклеотидів, а також зустрічатися у геномі в тисячі різних місць. Особливо багаті повторами великі геноми рослин і тварин, зокрема й геном людини. (uk)
dbo:thumbnail	wiki-commons:Special:FilePath/Seqassemble.png?width=300
dbo:wikiPageExternalLink	http://cab.spbu.ru/software/spades/ https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ https://samtools.github.io https://github.com/lh3/minimap2 https://github.com/salvocamiolo/LoReTTA/releases/tag/v0.1 https://sourceforge.net/projects/bio-bwa/files/
dbo:wikiPageID	477989 (xsd:integer)
dbo:wikiPageLength	20585 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1110683499 (xsd:integer)
dbo:wikiPageWikiLink	dbr:Messenger_RNA dbr:De_Bruijn_graph dbr:Applied_Biosystems dbr:Housekeeping_gene dbr:DNA dbr:Viruses dbr:De_Bruijn_sequence dbr:De_novo_sequence_assemblers dbr:De_novo_transcriptome_assembly dbr:Sequence_alignment dbr:List_of_sequence_alignment_software dbr:List_of_sequenced_animal_genomes dbr:Post-transcriptional_modification dbc:Bioinformatics dbr:Command-line_interface dbr:Genome dbr:Genome_project dbr:Pyrosequencing dbr:Cluster_computing dbr:Third-generation_sequencing dbr:Long-read_sequencing dbr:Comparative_genomics dbr:Cloning_vectors dbr:Phred_quality_score dbr:SPAdes_(software) dbr:Massive_parallel_sequencing dbr:Bacteria dbr:Transcription_(genetics) dbr:Drosophila_melanogaster dbr:DNA_sequencers dbr:K-mer dbr:RNA-Seq dbr:454_Life_Sciences dbc:DNA_sequencing_methods dbr:DNA_read_errors dbr:DNA_sequencing dbr:Alternative_splicing dbr:Eukaryotes dbr:Expressed_Sequence_Tag dbr:Base_calling dbr:Oxford_Nanopore_Technologies dbr:Pacific_Biosciences dbr:Graph_theory dbr:Coverage_(genetics) dbr:Hybrid_genome_assembly dbr:ABI_Solid_Sequencing dbr:Bioinformatics dbr:Illumina_(company) dbr:Plasmids dbr:Terabytes dbr:Illumina,_Inc. dbr:Newbler dbr:Open-source_software dbr:Set_cover_problem dbr:Single-nucleotide_polymorphism dbr:Shotgun_sequencing dbr:Expressed_sequence_tag dbr:Nanopore_sequencing dbr:Trans-splicing dbr:Microfluidic_Sanger_Sequencing dbr:Ion_Torrent dbr:Samtools dbr:Chain_termination_method dbr:Pacbio dbr:SMRT_sequencing dbr:File:Seqassemble.png dbr:File:Types_of_sequencing_assembly.png
dbp:wikiPageUsesTemplate	dbt:Explain dbt:More_citations_needed dbt:Reflist
dcterms:subject	dbc:Bioinformatics dbc:DNA_sequencing_methods
rdfs:comment	En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes. Le problème de l'assemblage peut être comparé à celui de la reconstruction du texte d'un livre à partir de plusieurs copies de celui-ci, préalablement déchiquetées en petits morceaux. (fr) 配列アセンブリング（はいれつアセンブリング）とは、バイオインフォマティクスにおいて短いDNAの断片から元の長い塩基配列を再構築することを指す。DNAシーケンシングでは用いる手法にもよるが一度に読める長さは20から1000残基にとどまるため、この技術はそれより長い塩基配列の決定には不可欠の技術である。また、このようなアセンブリングを行うプログラムのことをアセンブラと呼ぶ。 (ja) 序列組裝（Sequence assembly）是生物資訊學中的一種分析方法。此方法通過序列比對和序列合併等演算，將短片段的DNA建構成為較長的連續序列。此技術的創立，是因為被測序的核酸分子通常長度都遠大於目前存在的DNA測序技術。而此分析能試圖從有限長度的DNA測序結果，重建出原本被測序分子的樣貌。序列組裝最常被使用在高通量測序資料的分析上（例如基因組霰彈槍定序，或者RNA轉錄體測序）。這一類的測序技術會產生大量的測序片段（read，複數reads），而這些片段的長度依照不同的技術，短為數十，長可至上萬個鹼基對（前者如Illumina的定序平台，後者如的或奈米孔洞測序）。而序列組裝旨在合併這些短片段來重建原本的分子序列。我們可將序列組裝想像成從大量片段的文字中拼湊出一整篇文章的過程：被測序的分子就是那篇文章，而測序片段就是那段文章中，隨機切取出來的句子。其中一種重建出這段文章的方式，就是找到句子中重疊的部分，因為一旦找到夠多重疊的部分，我們就有機會將每個句子連接到一起，進而得到原始的文章。不難想像，此過程的困難不僅僅在於需要進行大量的片段比對，還會因原本文章的複雜度而製造更多問題：例如原本的文章可能有許多重復的段落，而帶有這些重複段落的文句可能會重疊在一起；又或者我們所拿到的句子中若有錯別字，亦會增加尋找重疊片段的難度。同樣的問題也同樣存在於生物資訊的序列組裝分析裡。 (zh) En bioinformàtica, l'assemblatge de seqüències es refereix a alinear i fusionar fragments curts d'una seqüència d'ADN per tal de reconstruir la seqüència original més llarga. Aquest procés és necessari donat que la tecnologia actual de seqüenciació d'ADN no pot llegir genomes sencers, sinó que llegeix peces petites d'entre 20 i 30000 bases, depenent de la tecnologia. Típicament els fragments curts, anomenats lectures (de l'anglés "reads"), provenen d'un procés de seqüenciació massiva o de l'obtenció de fragments més curts mitjançant la tecnologia EST (de l'anglés Expressed Sequence Tags) (ca) En bioinformática, el montaje o ensamblaje de secuencias se refiere al alineamiento y mezcla de múltiples fragmentos de una secuencia de ADN mucho mayor para reconstruir la secuencia original. Normalmente los fragmentos cortos provienen de secuenciación "por perdigonada" (shotgun) de ADN genómico, o de transcripción genética (ESTs, o marcadores de secuencia expresada). * Phrap, por Phil Green, de la University de Washington. * TIGR Assembler, por Granger Sutton, The Institute for Genomic Research. * CAP3, por Xiaoqiu Huang, del Michigan Technological University. (es) In bioinformatics, sequence assembly refers to aligning and merging fragments from a longer DNA sequence in order to reconstruct the original sequence. This is needed as DNA sequencing technology might not be able to 'read' whole genomes in one go, but rather reads small pieces of between 20 and 30,000 bases, depending on the technology used. Typically, the short fragments (reads) result from shotgun sequencing genomic DNA, or gene transcript (ESTs). (en) Сборка генома — процесс объединения большого количества коротких фрагментов ДНК (ридов) в одну или несколько длинных последовательностей (контигов и скаффолдов) в целях восстановления последовательностей ДНК хромосом, из которых возникли эти фрагменты в процессе секвенирования. (ru) Складання геному — процес об'єднання великої кількості коротких фрагментів ДНК (рідів) у одну або кілька довгих послідовностей (контигів і скаффолдів) з метою відновлення послідовностей ДНК хромосом, з яких виникли ці фрагменти в процесі секвенування. (uk)
rdfs:label	Assemblatge de seqüències (ca) Montaje de secuencias (es) Assemblage (bio-informatique) (fr) 配列アセンブリング (ja) Sequence assembly (en) Сборка генома (ru) Складання геному (uk) 序列組裝 (zh)
owl:sameAs	freebase:Sequence assembly wikidata:Sequence assembly dbpedia-ca:Sequence assembly dbpedia-es:Sequence assembly dbpedia-fa:Sequence assembly dbpedia-fr:Sequence assembly dbpedia-ja:Sequence assembly dbpedia-ru:Sequence assembly dbpedia-uk:Sequence assembly dbpedia-zh:Sequence assembly https://global.dbpedia.org/id/4v2AG
skos:broadMatch	http://www.springernature.com/scigraph/things/subjects/genome-assembly-algorithms
prov:wasDerivedFrom	wikipedia-en:Sequence_assembly?oldid=1110683499&ns=0
foaf:depiction	wiki-commons:Special:FilePath/Seqassemble.png wiki-commons:Special:FilePath/Types_of_sequencing_assembly.png
foaf:isPrimaryTopicOf	wikipedia-en:Sequence_assembly
is dbo:wikiPageDisambiguates of	dbr:Assembly
is dbo:wikiPageRedirects of	dbr:DNA_assembly dbr:Assembler_(bioinformatics) dbr:Dna_assembly dbr:Genome_assembly
is dbo:wikiPageWikiLink of	dbr:Ensembl_Genomes dbr:List_of_algorithms dbr:List_of_file_formats dbr:Metagenomics dbr:Positional_Sequencing dbr:DNA_sequencer dbr:DNA_sequencing_theory dbr:De_novo_sequence_assemblers dbr:Dehalogenimonas_lykanthroporepellens dbr:Index_of_genetics_articles dbr:Indifference_graph dbr:Inverted_index dbr:Propionispira_raffinosivorans dbr:.NET_Bio dbr:Escherichia_coli_O104:H4 dbr:Gene_prediction dbr:Genome_project dbr:Genome_skimming dbr:Genostar dbr:Genomics dbr:Consed dbr:Contig dbr:Third-generation_sequencing dbr:Staden_Package dbr:Comparative_genomics dbr:Drosophila_phalerata dbr:July–September_2020_in_science dbr:K-mer dbr:Single-cell_DNA_template_strand_sequencing dbr:SNV_calling_from_NGS_data dbr:DNASTAR dbr:DNA_read_errors dbr:DNA_sequencing dbr:Ewan_Birney dbr:Disease_gene_identification dbr:Repeated_sequence_(DNA) dbr:ACE_(genomic_file_format) dbr:CodonCode_Aligner dbr:X_chromosome dbr:DNA_assembly dbr:Institute_of_Pharmacology_and_Structural_Biology dbr:Newbler dbr:Assembler_(bioinformatics) dbr:Assembly dbr:Sheffield_High_School,_South_Yorkshire dbr:Sequence-tagged_site dbr:Shotgun_sequencing dbr:Dna_assembly dbr:Plant_genome_assembly dbr:Tree_alignment dbr:Phrap dbr:Phylogenetic_inference_using_transcriptomic_data dbr:Sequence_clustering dbr:Paris_Kanellakis_Award dbr:Rathayibacter_toxicus dbr:Spaced_seed dbr:Genome_assembly
is foaf:primaryTopic of	wikipedia-en:Sequence_assembly