Probabilistic latent semantic analysis (original) (raw)
概率的潜在语义分析(PLSA),也称为概率潜在语义索引(PLSI,尤其是在信息检索领域),是用于分析双模和共现数据的统计方法。 实际上,人们可以根据对某些隐变量的亲和性来推导出观测变量的低维表示,就像PLSA是从潜在语义分析中演化而来。 与源于线性代数并缩小发生表(通常通过奇异值分解)的标准潜在语义分析所不同的是,概率潜在语义分析基于从潜类模型导出的混合分解。
Property | Value |
---|---|
dbo:abstract | L’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés. Elle fut introduite en 1999 par , et possède des liens avec la factorisation de matrices positives. Comparée à l'analyse sémantique latente simple, qui découle de l'algèbre linéaire pour réduire les matrices des occurrences (au moyen d'une décomposition en valeurs singulières), l'approche probabiliste emploie un mélange de décompositions issues de l'analyse des classes latentes. On obtient ainsi une approche plus souple, fondée sur les statistiques. Il a été montré que l'analyse sémantique latente probabiliste souffre parfois de surapprentissage, le nombre de paramètres croissant linéairement avec celui des documents.Bien que PLSA soit un modèle génératif des documents de la collection, elle modélise effectivement directement la densité jointe , elle ne permet pas de générer de nouveaux documents, et en ce sens n'est pas un « vrai » modèle génératif. Cette limitation est levée par l'Allocation de Dirichlet latente (LDA). (fr) Probabilistic latent semantic analysis (PLSA), also known as probabilistic latent semantic indexing (PLSI, especially in information retrieval circles) is a statistical technique for the analysis of two-mode and co-occurrence data. In effect, one can derive a low-dimensional representation of the observed variables in terms of their affinity to certain hidden variables, just as in latent semantic analysis, from which PLSA evolved. Compared to standard latent semantic analysis which stems from linear algebra and downsizes the occurrence tables (usually via a singular value decomposition), probabilistic latent semantic analysis is based on a mixture decomposition derived from a latent class model. (en) Análise Probabilística de Semântica Latente (APSL), também conhecida como Indexação Probabilística de Semântica Latente (IPSL, especialmente na área de recuperação de informação) é uma técnica estatística para a análise de co-ocorrência de dados. Em efeito, pode-se derivar uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. A técnica evoluiu da análise de semântica latente. Comparado com a análise de semântica latente padrão que decorre de álgebra linear e redimensionamento de matrizes (geralmente através de uma decomposição em valores singulares), APSL é baseada em uma decomposição mista derivada de um modelo latente de classes. (pt) Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностное латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод является дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях.Данный метод был впервые опубликован в 1999 году Томасом Хофманом (Thomas Hofmann). По сравнению с обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь берущим своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики. (ru) 概率的潜在语义分析(PLSA),也称为概率潜在语义索引(PLSI,尤其是在信息检索领域),是用于分析双模和共现数据的统计方法。 实际上,人们可以根据对某些隐变量的亲和性来推导出观测变量的低维表示,就像PLSA是从潜在语义分析中演化而来。 与源于线性代数并缩小发生表(通常通过奇异值分解)的标准潜在语义分析所不同的是,概率潜在语义分析基于从潜类模型导出的混合分解。 (zh) |
dbo:thumbnail | wiki-commons:Special:FilePath/Plsi_1.svg?width=300 |
dbo:wikiPageExternalLink | https://web.archive.org/web/20050120213347/http:/www.cs.brown.edu/people/th/papers/Hofmann-UAI99.pdf https://web.archive.org/web/20170717235351/http:/www.semanticquery.com/archive/semanticsearchart/researchpLSA.html |
dbo:wikiPageID | 2088675 (xsd:integer) |
dbo:wikiPageLength | 7785 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1103977922 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Multinomial_distribution dbr:Natural_language_processing dbr:Non-negative_matrix_factorization dbr:Information_retrieval dbc:Classification_algorithms dbr:Linear_algebra dbr:Machine_learning dbr:Singular_value_decomposition dbc:Latent_variable_models dbc:Statistical_natural_language_processing dbr:Latent_Dirichlet_allocation dbr:Latent_class_model dbr:Latent_semantic_analysis dbr:Dirichlet_distribution dbr:Bioinformatics dbc:Language_modeling dbr:Vector_space_model dbr:Compound_term_processing dbr:Fisher_kernel dbr:Pachinko_allocation dbr:Overfitting dbr:Statistical_technique dbr:EM_algorithm dbr:Information_filtering dbr:Aspect_model dbr:File:Plsi_1.svg |
dbp:wikiPageUsesTemplate | dbt:Reflist |
dct:subject | dbc:Classification_algorithms dbc:Latent_variable_models dbc:Statistical_natural_language_processing dbc:Language_modeling |
gold:hypernym | dbr:Technique |
rdf:type | dbo:TopicalConcept yago:WikicatLatentVariableModels yago:Assistant109815790 yago:CausalAgent100007347 yago:LivingThing100004258 yago:Model110324560 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:Worker109632518 yago:YagoLegalActor yago:YagoLegalActorGeo yago:Whole100003553 |
rdfs:comment | 概率的潜在语义分析(PLSA),也称为概率潜在语义索引(PLSI,尤其是在信息检索领域),是用于分析双模和共现数据的统计方法。 实际上,人们可以根据对某些隐变量的亲和性来推导出观测变量的低维表示,就像PLSA是从潜在语义分析中演化而来。 与源于线性代数并缩小发生表(通常通过奇异值分解)的标准潜在语义分析所不同的是,概率潜在语义分析基于从潜类模型导出的混合分解。 (zh) Probabilistic latent semantic analysis (PLSA), also known as probabilistic latent semantic indexing (PLSI, especially in information retrieval circles) is a statistical technique for the analysis of two-mode and co-occurrence data. In effect, one can derive a low-dimensional representation of the observed variables in terms of their affinity to certain hidden variables, just as in latent semantic analysis, from which PLSA evolved. (en) L’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés. (fr) Análise Probabilística de Semântica Latente (APSL), também conhecida como Indexação Probabilística de Semântica Latente (IPSL, especialmente na área de recuperação de informação) é uma técnica estatística para a análise de co-ocorrência de dados. Em efeito, pode-se derivar uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. A técnica evoluiu da análise de semântica latente. (pt) Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностное латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод является дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях.Данный метод был впервые опубликован в 1999 году Томасом Хофманом (Thomas Hofmann). (ru) |
rdfs:label | Analyse sémantique latente probabiliste (fr) Probabilistic latent semantic analysis (en) Вероятностный латентно-семантический анализ (ru) Análise Probabilistica de Semântica Latente (pt) 概率潜在语义分析 (zh) |
owl:sameAs | freebase:Probabilistic latent semantic analysis yago-res:Probabilistic latent semantic analysis wikidata:Probabilistic latent semantic analysis dbpedia-fa:Probabilistic latent semantic analysis dbpedia-fr:Probabilistic latent semantic analysis dbpedia-pt:Probabilistic latent semantic analysis dbpedia-ru:Probabilistic latent semantic analysis dbpedia-zh:Probabilistic latent semantic analysis https://global.dbpedia.org/id/2eUf8 |
prov:wasDerivedFrom | wikipedia-en:Probabilistic_latent_semantic_analysis?oldid=1103977922&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Plsi_1.svg |
foaf:isPrimaryTopicOf | wikipedia-en:Probabilistic_latent_semantic_analysis |
is dbo:wikiPageRedirects of | dbr:Probabilistic_latent_semantic_indexing dbr:PLSA |
is dbo:wikiPageWikiLink of | dbr:Non-negative_matrix_factorization dbr:Probabilistic_latent_semantic_indexing dbr:Document-term_matrix dbr:Latent_Dirichlet_allocation dbr:Latent_and_observable_variables dbr:Latent_class_model dbr:Latent_semantic_analysis dbr:Bag-of-words_model_in_computer_vision dbr:Collaborative_filtering dbr:Recommind dbr:List_of_statistics_articles dbr:Object_categorization_from_image_search dbr:Fisher_kernel dbr:Outline_of_machine_learning dbr:PLSA |
is foaf:primaryTopic of | wikipedia-en:Probabilistic_latent_semantic_analysis |