Text segmentation (original) (raw)
تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة.
Property | Value |
---|---|
dbo:abstract | تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة. (ar) La segmentació de text és el procés de dividir text escrit en unitats significatives, com paraules, frases o temes. El terme s'aplica tant als processos mentals utilitzats pels humans a l'hora de llegir text, com als processos artificials implementats en ordinadors i altres dispositius. Tot i que pot semblar una tasca trivial, en alguns idiomes s'empren indicadors de canvi de paraula o de frase poc habituals. La segmentació de text també està relacionada amb altres tipus de segmentació, com és la segmentació per sentiment (anàlisi de sentiment), l'obtenció de paraules clau i subseqüent divisió del text en blocs entorn d'aquestes (segmentació d'intencions), la detecció i segmentació de temes, o la separació morfològica (anàlisi morfològica). (ca) Unter morphologischer Analyse versteht man in der Computerlinguistik ein Verfahren, welches die morphologischen, syntaktischen und evtl. semantischen Eigenschaften von Wörtern ermittelt. Im Einzelnen können morphologische Analyseverfahren die folgenden Teilaufgaben lösen: 1. * Segmentierung, d. h. Aufteilung von komplexen Wörtern in freie und gebundene Morpheme. Zu letzteren zählen Präfixe und Suffixe. 2. * Lemmatisierung: Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma und Ermittlung seiner syntaktischen Eigenschaften. Beispiel: Das Wort "Häusern" wird auf sein Lemma "Haus" mit den Eigenschaften {Nomen, Plural, Dativ} reduziert. 3. * Ermittlung der Wortstruktur; diese wird oft in Zusammenhang mit einer wortsemantischen Analyse bestimmt. (de) Segmentasi teks adalah proses pemisahan teks tertulis menjadi unit makna seperti kata, kalimat, atau topik. Istilah ini dapat diterapkan baik untuk proses mental yang dilakukan oleh manusia sewaktu membaca teks, maupun proses buatan yang dilakukan oleh komputer dan menjadi bahan kajian pemrosesan bahasa alami. Meskipun beberapa aksara memiliki eksplisit (seperti spasi) atau pembedaan bentuk huruf awal, tengah, dan akhir (seperti pada aksara Arab), penanda tersebut kadang taksa dan tidak semua bahasa tulisan memilikinya. (in) Text segmentation is the process of dividing written text into meaningful units, such as words, sentences, or topics. The term applies both to mental processes used by humans when reading text, and to artificial processes implemented in computers, which are the subject of natural language processing. The problem is non-trivial, because while some written languages have explicit word boundary markers, such as the word spaces of written English and the distinctive initial, medial and final letter shapes of Arabic, such signals are sometimes ambiguous and not present in all written languages. Compare speech segmentation, the process of dividing speech into linguistically meaningful portions. (en) A morfologia , ainda análise morfológica ou mórfica é o ato de estudar cada uma das diversas palavras em uma frase independentemente, visando sua classe gramatical. Há dez classes gramaticais: substantivos, adjetivo, artigo, pronomes, numeral, verbo, advérbio, preposição, conjunção e interjeição. No exemplo "A Wikipédia é uma enciclopédia livre." * A é um artigo definido. * Wikipédia é um substantivo próprio derivado simples. * é é um verbo na terceira pessoa do singular, no presente do indicativo. * uma é um artigo indefinido. * enciclopédia é um substantivo comum derivado simples. * livre é um adjetivo. * (pt) 文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。 (zh) |
dbo:wikiPageID | 4274339 (xsd:integer) |
dbo:wikiPageLength | 8758 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1104621544 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:English_compound dbr:Natural_language_processing dbr:Noun_phrase dbr:Parsing dbr:Topic_modeling dbr:Unicode_Consortium dbr:Vietnamese_language dbr:Information_retrieval dbr:Lexical_analysis dbr:Lexical_chain dbr:Syllabification dbc:Tasks_of_natural_language_processing dbr:Mental_process dbr:Full_stop dbr:German_nouns dbr:Morpheme dbr:Morphology_(linguistics) dbr:Arabic_language dbr:Machine_learning dbr:Cluster_analysis dbr:Collocation dbr:Compound_(linguistics) dbr:Delimiter dbr:Emic_and_etic dbr:Icebox dbr:Ge'ez_script dbr:Paragraph dbr:Sty dbr:Tigrinya_language dbr:Topic_(linguistics) dbr:Topic_detection dbr:Document_classification dbr:Line_wrap_and_word_wrap dbr:Amharic dbr:Discourse dbr:Speech_recognition dbr:Thai_language dbr:Lao_language dbr:Latin_alphabet dbr:Co-occurrence dbr:Hidden_Markov_model dbr:Word_count dbr:Space_(punctuation) dbr:Sentence_(linguistics) dbr:Sentences dbr:Speech_segmentation dbr:Word_divider dbr:Text_summarization dbr:Concatenated |
dbp:wikiPageUsesTemplate | dbt:Confusing_section dbt:Refimprove dbt:Reflist dbt:See_also dbt:Short_description dbt:Use_dmy_dates dbt:Natural_Language_Processing |
dcterms:subject | dbc:Tasks_of_natural_language_processing |
gold:hypernym | dbr:Process |
rdf:type | owl:Thing yago:Abstraction100002137 yago:Act100030358 yago:Activity100407535 yago:Event100029378 yago:PsychologicalFeature100023100 yago:Work100575741 yago:YagoPermanentlyLocatedEntity dbo:Election yago:Undertaking100795720 yago:WikicatTasksOfNaturalLanguageProcessing |
rdfs:comment | تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة. (ar) Segmentasi teks adalah proses pemisahan teks tertulis menjadi unit makna seperti kata, kalimat, atau topik. Istilah ini dapat diterapkan baik untuk proses mental yang dilakukan oleh manusia sewaktu membaca teks, maupun proses buatan yang dilakukan oleh komputer dan menjadi bahan kajian pemrosesan bahasa alami. Meskipun beberapa aksara memiliki eksplisit (seperti spasi) atau pembedaan bentuk huruf awal, tengah, dan akhir (seperti pada aksara Arab), penanda tersebut kadang taksa dan tidak semua bahasa tulisan memilikinya. (in) 文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。 (zh) Unter morphologischer Analyse versteht man in der Computerlinguistik ein Verfahren, welches die morphologischen, syntaktischen und evtl. semantischen Eigenschaften von Wörtern ermittelt. Im Einzelnen können morphologische Analyseverfahren die folgenden Teilaufgaben lösen: (de) Text segmentation is the process of dividing written text into meaningful units, such as words, sentences, or topics. The term applies both to mental processes used by humans when reading text, and to artificial processes implemented in computers, which are the subject of natural language processing. The problem is non-trivial, because while some written languages have explicit word boundary markers, such as the word spaces of written English and the distinctive initial, medial and final letter shapes of Arabic, such signals are sometimes ambiguous and not present in all written languages. (en) A morfologia , ainda análise morfológica ou mórfica é o ato de estudar cada uma das diversas palavras em uma frase independentemente, visando sua classe gramatical. Há dez classes gramaticais: substantivos, adjetivo, artigo, pronomes, numeral, verbo, advérbio, preposição, conjunção e interjeição. No exemplo "A Wikipédia é uma enciclopédia livre." (pt) |
rdfs:label | تجزئة النص (ar) Segmentació de text (ca) Morphologische Analyse (Computerlinguistik) (de) Segmentasi teks (in) Text segmentation (en) Análise morfológica (pt) 文本分割 (zh) |
rdfs:seeAlso | dbr:Document_classification dbr:Sentence_boundary_disambiguation dbr:Word |
owl:sameAs | freebase:Text segmentation wikidata:Text segmentation dbpedia-ar:Text segmentation http://bn.dbpedia.org/resource/পাঠ্যবস্তু_খণ্ডায়ন dbpedia-ca:Text segmentation dbpedia-de:Text segmentation dbpedia-gl:Text segmentation http://hy.dbpedia.org/resource/Մորֆոլոգիական_անալիզ dbpedia-id:Text segmentation dbpedia-nn:Text segmentation dbpedia-pt:Text segmentation dbpedia-vi:Text segmentation dbpedia-zh:Text segmentation yago-res:Text segmentation https://global.dbpedia.org/id/sPbq |
prov:wasDerivedFrom | wikipedia-en:Text_segmentation?oldid=1104621544&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:Text_segmentation |
is dbo:wikiPageDisambiguates of | dbr:Segment |
is dbo:wikiPageRedirects of | dbr:Topic_analysis dbr:Topic_segmentation dbr:Word_segmentation dbr:Word_splitting dbr:Chinese_word_segmentation |
is dbo:wikiPageWikiLink of | dbr:Topic_analysis dbr:Topic_segmentation dbr:Jubatus dbr:EXCLAIM dbr:MeCab dbr:Sentence_boundary_disambiguation dbr:Sentence_extraction dbr:Sayre's_paradox dbr:Transcriber dbr:Kenneth_M._Sayre dbr:Word dbr:Word_count dbr:Mark_Davis_(Unicode) dbr:Search_engine_indexing dbr:Segment dbr:Speech_segmentation dbr:Query_understanding dbr:Naming_convention_(programming) dbr:Word_divider dbr:Word_segmentation dbr:Word_splitting dbr:Chinese_word_segmentation |
is foaf:primaryTopic of | wikipedia-en:Text_segmentation |