Cross-validation (statistics) (original) (raw)
التحقق من الصحة المتقاطع هي تقنية لتقييم مدى أداء نموذج معين لعينة من البيانات بالنسبة للبيانات المستقبلية، وذلك عن طريق تقسيم البيانات لمجموعتين: مجموعة التدريب وهي التي يتم عليها التطبيق، ومجموعة الاختبار وهي التي يتم حساب نسبة الخطأ الناتج عليها. تستخدم هذه التقنية عادة في الإحصاء لعمل ارتداد لمجوعه من البيانات، وأيضًا في عملية اختيار أفضل نموذج لحل مشكله معينة، كما وتستخدم في التصنيف، وفي اختيار السمات.
Property | Value |
---|---|
dbo:abstract | التحقق من الصحة المتقاطع هي تقنية لتقييم مدى أداء نموذج معين لعينة من البيانات بالنسبة للبيانات المستقبلية، وذلك عن طريق تقسيم البيانات لمجموعتين: مجموعة التدريب وهي التي يتم عليها التطبيق، ومجموعة الاختبار وهي التي يتم حساب نسبة الخطأ الناتج عليها. تستخدم هذه التقنية عادة في الإحصاء لعمل ارتداد لمجوعه من البيانات، وأيضًا في عملية اختيار أفضل نموذج لحل مشكله معينة، كما وتستخدم في التصنيف، وفي اختيار السمات. (ar) La validació encreuada —cross-validation en anglès— és una tècnica utilitzada per avaluar els resultats d'una anàlisi estadística i garantir que són independents de la partició entre dades d'entrenament i prova. Consisteix a repetir i calcular la mitjana aritmètica obtinguda de les mesures d'avaluació sobre diferents particions. S'utilitza en entorns on l'objectiu principal és la predicció i es vol estimar com és de precís un model que es durà a terme a la pràctica. És una tècnica molt utilitzada en projectes d'intel·ligència artificial per a validar models generats. (ca) Křížová validace je metoda zjišťování, jak moc bude model ovlivňovat nezávislé vzorky dat. Tento postup je významný pro predikci neznámých vzorků po předchozí klasifikaci známých vzorků. (cs) Cross-validation, sometimes called rotation estimation or out-of-sample testing, is any of various similar model validation techniques for assessing how the results of a statistical analysis will generalize to an independent data set.Cross-validation is a resampling method that uses different portions of the data to test and train a model on different iterations. It is mainly used in settings where the goal is prediction, and one wants to estimate how accurately a predictive model will perform in practice. In a prediction problem, a model is usually given a dataset of known data on which training is run (training dataset), and a dataset of unknown data (or first seen data) against which the model is tested (called the validation dataset or testing set). The goal of cross-validation is to test the model's ability to predict new data that was not used in estimating it, in order to flag problems like overfitting or selection bias and to give an insight on how the model will generalize to an independent dataset (i.e., an unknown dataset, for instance from a real problem). One round of cross-validation involves partitioning a sample of data into complementary subsets, performing the analysis on one subset (called the training set), and validating the analysis on the other subset (called the validation set or testing set). To reduce variability, in most methods multiple rounds of cross-validation are performed using different partitions, and the validation results are combined (e.g. averaged) over the rounds to give an estimate of the model's predictive performance. In summary, cross-validation combines (averages) measures of fitness in prediction to derive a more accurate estimate of model prediction performance. (en) Kreuzvalidierungsverfahren sind auf Resampling basierende Testverfahren der Statistik, die z. B. im Data-Mining die zuverlässige Bewertung von Maschinen gelernten Algorithmen erlauben.Es wird unterschieden zwischen der einfachen Kreuzvalidierung, der stratifizierten Kreuzvalidierung und der Leave-One-Out-Kreuzvalidierung. (de) Balidazio gurutzatua edo cross-validation analisi estatistiko baten emaitzak ebaluatzeko, eta entrenamendu datuen eta proba datuen arteko partiketarekiko independenteak direla bermatzeko erabili ohi den teknika bat da. Ingurunearen xedea iragarpena denean eta etorkizunean praktikara eramango den modelo baten zehaztasuna estimatu nahi denean erabiltzen da. Batez ere, adimen artifizialeko proiektuetan aurkitu dezakegu teknika hau, sortutako modeloak baliozkotzat jotzeko asmoz. Partiketa ezberdinen ebaluazio neurrietatik lortutako batezbesteko aritmetikoa kalkulatzean eta errepikatzean datza. (eu) La validación cruzada o cross-validation es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión de un modelo que se llevará a cabo a la práctica. Es una técnica muy utilizada en proyectos de inteligencia artificial para validar modelos generados. (es) La validation croisée (« cross-validation ») est, en apprentissage automatique, une méthode d’estimation de fiabilité d’un modèle fondée sur une technique d’échantillonnage. (fr) Validasi silang, estimasi rotasi, atau pengujian di luar sampel adalah sebuah teknik validasi model untuk menilai bagaimana hasil statistik analisis akan menggeneralisasi kumpulan data independen. Teknik ini utamanya digunakan untuk melakukan prediksi model dan memperkirakan seberapa akurat sebuah model prediktif ketika dijalankan dalam praktiknya. Dalam sebuah masalah prediksi, sebuah model biasanya diberikan kumpulan data (dataset) yang diketahui untuk digunakan dalam menjalankan pelatihan (dataset pelatihan), serta kumpulan data yang tidak diketahui (atau data yang pertama kali dilihat) terhadap model yang diuji (pengujian dataset). Tujuan dari validasi silang adalah untuk mendefinisikan dataset untuk "menguji" model dalam tahap pelatihan (yaitu, validasi data), dalam rangka untuk membatasi masalah seperti terjadinya overfitting, memberikan wawasan tentang bagaimana model akan menggeneralisasi independen dataset (yaitu, dataset tidak diketahui, misalnya dari masalah nyata), dll. Satu putaran validasi silang melibatkan pembagian sampel data ke dalam subset melakukan analisis pada satu subset (disebut data pelatihan), dan memvalidasi analisis pada subset lainnya (disebut data validasi atau pengujian). Untuk mengurangi variabilitas, beberapa putaran validasi silang dilakukan dengan menggunakan partisi yang berbeda, dan hasil validasi dirata-ratakan di atas putaran. Salah satu alasan utama untuk menggunakan validasi silang daripada menggunakan validasi konvensional (misalnya mempartisi kumpulan data menjadi dua set, yaitu 70% untuk pelatihan dan 30% untuk pengujian) adalah bahwa tidak ada cukup data yang tersedia untuk mempartisinya menjadi pelatihan terpisah dan data pengujian tanpa kehilangan pemodelan atau kemampuan pengujian yang signifikan. Dalam kasus ini, cara yang adil untuk memprediksi model prediksi dengan tepat adalah dengan menggunakan validasi silang sebagai teknik umum yang kuat. Singkatnya, validasi silang menggabungkan (rata-rata) ukuran kecocokan (prediksi error) dengan melihat nilai rata-rata pada setiap putaran untuk mendapatkan perkiraan kinerja model prediksi yang lebih akurat. (in) 교차 타당도(Cross-validation , 交叉妥當度)는 수학,통계학,과학분야에서 '동일한 모집단에서 추출한 독립적인 두 표본 집단의 예언 변인과 기준 변인의 관계가 일관성을 유지하는 정도'이다. (ko) 交差検証(交差確認)(こうさけんしょう、英: cross-validation)とは、統計学において標本データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法を指す。データの解析(および導出された推定・統計的予測)がどれだけ本当に母集団に対処できるかを良い近似で検証・確認するための手法である。 最初に解析するデータを「訓練事例集合(training set、訓練データ)」などと呼び、他のデータを「テスト事例集合(testing set、テストデータ)」などと呼ぶ。 交差検証はSeymour Geisserが生み出した。特にそれ以上標本を集めるのが困難(危険だったり、コストがかかったり)な場合は、データから導いた推定は、交差検証などで慎重に裏付けを確認するべきである。 (ja) La convalida incrociata (cross-validation in inglese) è una tecnica statistica utilizzabile in presenza di una buona numerosità del campione osservato. In particolare, la convalida incrociata cosiddetta k-fold consiste nella suddivisione dell'insieme di dati totale in k parti di uguale numerosità e, a ogni passo, la kª parte dell'insieme di dati viene a essere quella di convalida, mentre la restante parte costituisce sempre l'insieme di addestramento. Così si allena il modello per ognuna delle k parti, evitando quindi problemi di sovradattamento, ma anche di campionamento asimmetrico (e quindi affetto da distorsione) del campione osservato, tipico della suddivisione dei dati in due sole parti (ossia addestramento/convalida). In altre parole, si suddivide il campione osservato in gruppi di egual numerosità, si esclude iterativamente un gruppo alla volta e si cerca di predirlo coi gruppi non esclusi, al fine di verificare la bontà del modello di predizione utilizzato. (it) Sprawdzian krzyżowy a. sprawdzanie krzyżowe (branż. walidacja krzyżowa, „kroswalidacja”) – metoda statystyczna polegająca na podziale próby statystycznej na podzbiory, a następnie przeprowadzaniu wszelkich analiz na niektórych z nich, tzw. zbiór uczący, podczas gdy pozostałe służą do potwierdzenia wiarygodności jej wyników, tzw. zbiór testowy (branż. zbiór walidacyjny). Teoria sprawdzianu krzyżowego została zapoczątkowana przez . Pozwala ona bronić się przed tzw. błędem trzeciego rodzaju i właściwie ocenić trafność prognostyczną modelu predykcyjnego. Bez jej zastosowania nie można być pewnym, czy model będzie dobrze działał dla danych, które nie były wykorzystywane do jego konstruowania (zob. nadmierne dopasowanie). (pl) Korsvalidering är en algoritm inom statistiken för att estimera prediktionsfel. På engelska kallas metoden cross-validation (CV). Många statistiska metoder behöver tränas (kalibreras) på kända data (värden), för att sedan valideras (testas) på separat data. Korsvalidering kan till exempel användas om det inte finns tillräckligt med data för att dela upp datan i fasta delar för träning och validering. Korsvalidering används ofta för att välja parameter för en statistisk metod (kalibrering). Korsvalidering kan också användas för att jämföra olika prediktionsmetoder (vanligtvis klassificerare eller regressionsanalys). Efter korsvalideringen används med fördel separat valideringsdata för att ge ett ärligt estimat av prediktionsfelet. (sv) A validação cruzada é uma técnica para avaliar a capacidade de generalização de um modelo, a partir de um conjunto de dados. Esta técnica é amplamente empregada em problemas onde o objetivo da modelagem é a predição. Busca-se então estimar o quão preciso é este modelo na prática, ou seja, o seu desempenho para um novo conjunto de dados. O conceito central das técnicas de validação cruzada é o particionamento do conjunto de dados em subconjuntos mutuamente exclusivos, e posteriormente, o uso de alguns destes subconjuntos para a estimação dos parâmetros do modelo (dados de treinamento), sendo os subconjuntos restantes (dados de validação ou de teste) empregados na validação do modelo. Diversas formas de realizar o particionamento dos dados foram sugeridas, sendo as três mais utilizadas: o método holdout, o k-fold e o leave-one-out. Para todos os métodos de particionamento, citados acima e apresentados a seguir, a precisão final do modelo estimado é obtido por: onde v é o número de dados de validação e é o resíduo dado pela diferença entre o valor real da saída i e o valor predito. Com isso, é possível inferir de forma quantitativa a capacidade de generalização do modelo. (pt) Перехре́сне затве́рджування (англ. cross-validation), іноді зване ротаці́йним оці́нюванням (англ. rotation estimation) або позави́бірковим випро́буванням (англ. out-of-sample testing), — це будь-яка з подібних методик затверджування моделі для оцінювання того, наскільки результати статистичного аналізу узагальнюватимуться на незалежний набір даних. Його переважно використовують в постановках, де метою є передбачування, й потрібно оцінювати те, наскільки точно передбачувальна модель працюватиме на практиці. В задачі передбачування, моделі зазвичай дають набір відомих даних, на яких виконують тренування (тренувальний набір даних), та набір невідомих даних (або вперше бачених даних), на яких модель випробовують (званий затверджувальним або випробувальним набором даних). Метою перехресного затверджування є випробувати здатність моделі передбачувати нові дані, які не використовувалися при її визначенні, щоби просигналізувати про такі проблеми як перенавчання та ви́біркове упередження, і щоби дати уявлення про те, як ця модель узагальнюватиметься на незалежний набір даних (тобто, невідомий набір даних, наприклад, з реальної задачі). Один раунд перехресного затверджування включає розбивання вибірки даних на взаємодоповнювальні піднабори, виконання аналізу на одному з піднаборів (званому тренувальним набором) та затверджування результатів на іншому піднаборі (званому затверджувальним або випробувальним набором). З метою зниження мінливості, в більшості методів виконують декілька раундів перехресного затверджування з використанням різних розбиттів, і, щоби дати оцінку передбачувальної продуктивності моделі, результати затверджування поєднують (наприклад, усереднюють) над раундами. Коротко, перехресне затверджування поєднує (усереднює) міри допасованості в передбачуванні, щоби вивести точнішу оцінку передбачувальної продуктивності моделі. (uk) Перекрёстная прове́рка (кросс-проверка, кроссвалидация, скользящий контроль; англ. cross-validation) — метод оценки аналитической модели и её поведения на независимых данных. При оценке модели имеющиеся в наличии данные разбиваются на k частей. Затем на k−1 частях данных производится обучение модели, а оставшаяся часть данных используется для тестирования. Процедура повторяется k раз; в итоге каждая из k частей данных используется для тестирования. В результате получается оценка эффективности выбранной модели с наиболее равномерным использованием имеющихся данных. (ru) 交叉验证,有時亦稱循環估計 ,是一種統計學上將数据樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析,而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便減少诸如过拟合和选择偏差等問題,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。 交叉驗證的理論是由所開始的。它對於防範根据数据建议的测试假设是非常重要的,特別是當後續的樣本是危險、成本過高或科学上不适合时去搜集。 (zh) |
dbo:thumbnail | wiki-commons:Special:FilePath/Confusion_matrix.png?width=300 |
dbo:wikiPageID | 416612 (xsd:integer) |
dbo:wikiPageLength | 41504 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1123515585 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Cancer dbr:Proteins dbr:Bias_(statistics) dbr:Binomial_coefficient dbr:Resampling_(statistics) dbr:Ridge_regression dbr:Validity_(statistics) dbr:Variance dbr:Predictive_modelling dbr:Complement_(set_theory) dbr:Confidence_interval dbr:Confirmation_bias dbr:Gene_expression dbr:Generalization_error dbr:Optical_character_recognition dbr:Out-of-bag_error dbr:Optimization_(mathematics) dbr:Model_selection dbr:Monte_Carlo_method dbr:Stationary_bootstrap dbr:Statistical_model dbr:Statistics dbr:Closed-form_expression dbr:Feature_selection dbr:Kernel_regression dbr:Statistical_population dbr:Stability_(learning_theory) dbc:Machine_learning dbr:Training,_validation,_and_test_sets dbr:Data dbr:Drug dbr:Lasso_(statistics) dbr:Leakage_(machine_learning) dbr:Least_squares dbr:Linear_regression dbr:Logistic_regression dbr:Sherman–Morrison_formula dbr:Accuracy dbc:Model_selection dbc:Regression_variable_selection dbr:Euclidean_vector dbr:Expected_value dbr:Partition_of_a_set dbr:Goodness_of_fit dbr:Medical_diagnosis dbr:PRESS_statistic dbr:Regularization_(mathematics) dbr:Hyperparameter_(machine_learning) dbr:Hyperplane dbr:Selection_bias dbr:K_nearest_neighbors dbr:Binary_classification dbr:Support_Vector_Machine dbr:Jackknife_resampling dbr:Dichotomous dbr:Boosting_(machine_learning) dbr:Bootstrap_aggregating dbr:Bootstrapping_(statistics) dbr:Positive_predictive_value dbr:Independence_(probability_theory) dbr:RANSAC dbr:Real_number dbr:Loss_function dbr:Mean_squared_error dbr:Median_absolute_deviation dbr:Stock_market_prediction dbr:Summary_statistics dbr:Parameters dbr:Shrinkage_estimator dbr:Overfitting dbr:Validation_set dbr:Features_(pattern_recognition) dbr:Statistical_sample dbr:Bayesian_regression dbr:ROC_curve dbr:Model_validation dbr:Root_mean_squared_error dbr:Time-series dbr:File:Confusion_matrix.png dbr:File:K-fold_cross_validation_EN.svg dbr:File:KfoldCV.gif dbr:File:LOOCV.gif |
dbp:date | June 2022 (en) |
dbp:reason | Trippa et al. does not contain any proof or discussion of linear parametric models generating a downward bias by a factor of / in the expected MSE. (en) |
dbp:wikiPageUsesTemplate | dbt:Citation_needed dbt:Commons_category dbt:Div_col dbt:Div_col_end dbt:Irrelevant_citation dbt:More_citations_needed dbt:Reflist dbt:Short_description dbt:Statistics |
dct:subject | dbc:Machine_learning dbc:Model_selection dbc:Regression_variable_selection |
gold:hypernym | dbr:Technique |
rdf:type | dbo:TopicalConcept yago:WikicatStatisticalTests yago:Ability105616246 yago:Abstraction100002137 yago:Cognition100023271 yago:Experiment105798043 yago:HigherCognitiveProcess105770664 yago:Inquiry105797597 yago:Know-how105616786 yago:Method105660268 yago:ProblemSolving105796750 yago:Process105701363 yago:PsychologicalFeature100023100 yago:Thinking105770926 yago:Trial105799212 yago:WikicatEvaluationMethods |
rdfs:comment | التحقق من الصحة المتقاطع هي تقنية لتقييم مدى أداء نموذج معين لعينة من البيانات بالنسبة للبيانات المستقبلية، وذلك عن طريق تقسيم البيانات لمجموعتين: مجموعة التدريب وهي التي يتم عليها التطبيق، ومجموعة الاختبار وهي التي يتم حساب نسبة الخطأ الناتج عليها. تستخدم هذه التقنية عادة في الإحصاء لعمل ارتداد لمجوعه من البيانات، وأيضًا في عملية اختيار أفضل نموذج لحل مشكله معينة، كما وتستخدم في التصنيف، وفي اختيار السمات. (ar) La validació encreuada —cross-validation en anglès— és una tècnica utilitzada per avaluar els resultats d'una anàlisi estadística i garantir que són independents de la partició entre dades d'entrenament i prova. Consisteix a repetir i calcular la mitjana aritmètica obtinguda de les mesures d'avaluació sobre diferents particions. S'utilitza en entorns on l'objectiu principal és la predicció i es vol estimar com és de precís un model que es durà a terme a la pràctica. És una tècnica molt utilitzada en projectes d'intel·ligència artificial per a validar models generats. (ca) Křížová validace je metoda zjišťování, jak moc bude model ovlivňovat nezávislé vzorky dat. Tento postup je významný pro predikci neznámých vzorků po předchozí klasifikaci známých vzorků. (cs) Kreuzvalidierungsverfahren sind auf Resampling basierende Testverfahren der Statistik, die z. B. im Data-Mining die zuverlässige Bewertung von Maschinen gelernten Algorithmen erlauben.Es wird unterschieden zwischen der einfachen Kreuzvalidierung, der stratifizierten Kreuzvalidierung und der Leave-One-Out-Kreuzvalidierung. (de) Balidazio gurutzatua edo cross-validation analisi estatistiko baten emaitzak ebaluatzeko, eta entrenamendu datuen eta proba datuen arteko partiketarekiko independenteak direla bermatzeko erabili ohi den teknika bat da. Ingurunearen xedea iragarpena denean eta etorkizunean praktikara eramango den modelo baten zehaztasuna estimatu nahi denean erabiltzen da. Batez ere, adimen artifizialeko proiektuetan aurkitu dezakegu teknika hau, sortutako modeloak baliozkotzat jotzeko asmoz. Partiketa ezberdinen ebaluazio neurrietatik lortutako batezbesteko aritmetikoa kalkulatzean eta errepikatzean datza. (eu) La validación cruzada o cross-validation es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión de un modelo que se llevará a cabo a la práctica. Es una técnica muy utilizada en proyectos de inteligencia artificial para validar modelos generados. (es) La validation croisée (« cross-validation ») est, en apprentissage automatique, une méthode d’estimation de fiabilité d’un modèle fondée sur une technique d’échantillonnage. (fr) 교차 타당도(Cross-validation , 交叉妥當度)는 수학,통계학,과학분야에서 '동일한 모집단에서 추출한 독립적인 두 표본 집단의 예언 변인과 기준 변인의 관계가 일관성을 유지하는 정도'이다. (ko) 交差検証(交差確認)(こうさけんしょう、英: cross-validation)とは、統計学において標本データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法を指す。データの解析(および導出された推定・統計的予測)がどれだけ本当に母集団に対処できるかを良い近似で検証・確認するための手法である。 最初に解析するデータを「訓練事例集合(training set、訓練データ)」などと呼び、他のデータを「テスト事例集合(testing set、テストデータ)」などと呼ぶ。 交差検証はSeymour Geisserが生み出した。特にそれ以上標本を集めるのが困難(危険だったり、コストがかかったり)な場合は、データから導いた推定は、交差検証などで慎重に裏付けを確認するべきである。 (ja) Korsvalidering är en algoritm inom statistiken för att estimera prediktionsfel. På engelska kallas metoden cross-validation (CV). Många statistiska metoder behöver tränas (kalibreras) på kända data (värden), för att sedan valideras (testas) på separat data. Korsvalidering kan till exempel användas om det inte finns tillräckligt med data för att dela upp datan i fasta delar för träning och validering. Korsvalidering används ofta för att välja parameter för en statistisk metod (kalibrering). Korsvalidering kan också användas för att jämföra olika prediktionsmetoder (vanligtvis klassificerare eller regressionsanalys). Efter korsvalideringen används med fördel separat valideringsdata för att ge ett ärligt estimat av prediktionsfelet. (sv) Перекрёстная прове́рка (кросс-проверка, кроссвалидация, скользящий контроль; англ. cross-validation) — метод оценки аналитической модели и её поведения на независимых данных. При оценке модели имеющиеся в наличии данные разбиваются на k частей. Затем на k−1 частях данных производится обучение модели, а оставшаяся часть данных используется для тестирования. Процедура повторяется k раз; в итоге каждая из k частей данных используется для тестирования. В результате получается оценка эффективности выбранной модели с наиболее равномерным использованием имеющихся данных. (ru) 交叉验证,有時亦稱循環估計 ,是一種統計學上將数据樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析,而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉验证的目的,是用未用来给模型作训练的新数据,测试模型的性能,以便減少诸如过拟合和选择偏差等問題,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。 交叉驗證的理論是由所開始的。它對於防範根据数据建议的测试假设是非常重要的,特別是當後續的樣本是危險、成本過高或科学上不适合时去搜集。 (zh) Cross-validation, sometimes called rotation estimation or out-of-sample testing, is any of various similar model validation techniques for assessing how the results of a statistical analysis will generalize to an independent data set.Cross-validation is a resampling method that uses different portions of the data to test and train a model on different iterations. It is mainly used in settings where the goal is prediction, and one wants to estimate how accurately a predictive model will perform in practice. In a prediction problem, a model is usually given a dataset of known data on which training is run (training dataset), and a dataset of unknown data (or first seen data) against which the model is tested (called the validation dataset or testing set). The goal of cross-validation is to t (en) Validasi silang, estimasi rotasi, atau pengujian di luar sampel adalah sebuah teknik validasi model untuk menilai bagaimana hasil statistik analisis akan menggeneralisasi kumpulan data independen. Teknik ini utamanya digunakan untuk melakukan prediksi model dan memperkirakan seberapa akurat sebuah model prediktif ketika dijalankan dalam praktiknya. Dalam sebuah masalah prediksi, sebuah model biasanya diberikan kumpulan data (dataset) yang diketahui untuk digunakan dalam menjalankan pelatihan (dataset pelatihan), serta kumpulan data yang tidak diketahui (atau data yang pertama kali dilihat) terhadap model yang diuji (pengujian dataset). Tujuan dari validasi silang adalah untuk mendefinisikan dataset untuk "menguji" model dalam tahap pelatihan (yaitu, validasi data), dalam rangka untuk memba (in) La convalida incrociata (cross-validation in inglese) è una tecnica statistica utilizzabile in presenza di una buona numerosità del campione osservato. In particolare, la convalida incrociata cosiddetta k-fold consiste nella suddivisione dell'insieme di dati totale in k parti di uguale numerosità e, a ogni passo, la kª parte dell'insieme di dati viene a essere quella di convalida, mentre la restante parte costituisce sempre l'insieme di addestramento. Così si allena il modello per ognuna delle k parti, evitando quindi problemi di sovradattamento, ma anche di campionamento asimmetrico (e quindi affetto da distorsione) del campione osservato, tipico della suddivisione dei dati in due sole parti (ossia addestramento/convalida). In altre parole, si suddivide il campione osservato in gruppi di (it) A validação cruzada é uma técnica para avaliar a capacidade de generalização de um modelo, a partir de um conjunto de dados. Esta técnica é amplamente empregada em problemas onde o objetivo da modelagem é a predição. Busca-se então estimar o quão preciso é este modelo na prática, ou seja, o seu desempenho para um novo conjunto de dados. Diversas formas de realizar o particionamento dos dados foram sugeridas, sendo as três mais utilizadas: o método holdout, o k-fold e o leave-one-out. (pt) Sprawdzian krzyżowy a. sprawdzanie krzyżowe (branż. walidacja krzyżowa, „kroswalidacja”) – metoda statystyczna polegająca na podziale próby statystycznej na podzbiory, a następnie przeprowadzaniu wszelkich analiz na niektórych z nich, tzw. zbiór uczący, podczas gdy pozostałe służą do potwierdzenia wiarygodności jej wyników, tzw. zbiór testowy (branż. zbiór walidacyjny). (pl) Перехре́сне затве́рджування (англ. cross-validation), іноді зване ротаці́йним оці́нюванням (англ. rotation estimation) або позави́бірковим випро́буванням (англ. out-of-sample testing), — це будь-яка з подібних методик затверджування моделі для оцінювання того, наскільки результати статистичного аналізу узагальнюватимуться на незалежний набір даних. Його переважно використовують в постановках, де метою є передбачування, й потрібно оцінювати те, наскільки точно передбачувальна модель працюватиме на практиці. В задачі передбачування, моделі зазвичай дають набір відомих даних, на яких виконують тренування (тренувальний набір даних), та набір невідомих даних (або вперше бачених даних), на яких модель випробовують (званий затверджувальним або випробувальним набором даних). Метою перехресного зат (uk) |
rdfs:label | تصديق متقاطع (ar) Validació encreuada (ca) Křížová validace (cs) Kreuzvalidierungsverfahren (de) Validación cruzada (es) Cross-validation (statistics) (en) Balidazio gurutzatu (eu) Validasi silang (in) Validation croisée (fr) Convalida incrociata (it) 交差検証 (ja) 교차타당도 (ko) Sprawdzian krzyżowy (pl) Validação cruzada (pt) Перекрёстная проверка (ru) Korsvalidering (sv) Перехресне затверджування (uk) 交叉驗證 (zh) |
owl:sameAs | freebase:Cross-validation (statistics) yago-res:Cross-validation (statistics) wikidata:Cross-validation (statistics) dbpedia-ar:Cross-validation (statistics) dbpedia-ca:Cross-validation (statistics) dbpedia-cs:Cross-validation (statistics) dbpedia-de:Cross-validation (statistics) dbpedia-es:Cross-validation (statistics) dbpedia-et:Cross-validation (statistics) dbpedia-eu:Cross-validation (statistics) dbpedia-fa:Cross-validation (statistics) dbpedia-fr:Cross-validation (statistics) dbpedia-id:Cross-validation (statistics) dbpedia-it:Cross-validation (statistics) dbpedia-ja:Cross-validation (statistics) dbpedia-ko:Cross-validation (statistics) dbpedia-pl:Cross-validation (statistics) dbpedia-pt:Cross-validation (statistics) dbpedia-ru:Cross-validation (statistics) http://su.dbpedia.org/resource/Validasi-silang dbpedia-sv:Cross-validation (statistics) dbpedia-tr:Cross-validation (statistics) dbpedia-uk:Cross-validation (statistics) dbpedia-vi:Cross-validation (statistics) dbpedia-zh:Cross-validation (statistics) https://global.dbpedia.org/id/4jr8u |
prov:wasDerivedFrom | wikipedia-en:Cross-validation_(statistics)?oldid=1123515585&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Confusion_matrix.png wiki-commons:Special:FilePath/K-fold_cross_validation_EN.svg wiki-commons:Special:FilePath/KfoldCV.gif wiki-commons:Special:FilePath/LOOCV.gif |
foaf:isPrimaryTopicOf | wikipedia-en:Cross-validation_(statistics) |
is dbo:knownFor of | dbr:Grace_Wahba |
is dbo:wikiPageDisambiguates of | dbr:Cross-validation |
is dbo:wikiPageRedirects of | dbr:LOOCV dbr:Holdout_method dbr:Leave-one-out_cross-validation dbr:Out_of_sample_testing dbr:Hold-out_cross-validation dbr:Rotation_estimation dbr:Out-of-sample_test dbr:Out-of-sample_testing dbr:Root-mean-square_error_of_cross-validation |
is dbo:wikiPageWikiLink of | dbr:Ensemble_learning dbr:List_of_University_of_Maryland,_College_Park_people dbr:List_of_University_of_Wisconsin–Madison_people dbr:Mutator_method dbr:Meta-analysis dbr:Testing_hypotheses_suggested_by_the_data dbr:Biostatistics dbr:Deepset dbr:Approximate_Bayesian_computation dbr:Bias–variance_tradeoff dbr:Resampling_(statistics) dbr:Ridge_regression dbr:Validity_(statistics) dbr:David_Wolpert dbr:Decision_tree_pruning dbr:Degrees_of_freedom_(statistics) dbr:Determining_the_number_of_clusters_in_a_data_set dbr:Early_stopping dbr:Inductive_bias dbr:LOOCV dbr:Mean_squared_prediction_error dbr:Estimation_of_covariance_matrices dbr:Gene_expression_profiling dbr:Generalization_error dbr:Generalized_additive_model dbr:Generalized_functional_linear_model dbr:Out-of-bag_error dbr:Projection_pursuit_regression dbr:Walk_forward_optimization dbr:Functional_correlation dbr:Grace_Wahba dbr:Model_selection dbr:Multivariate_kernel_density_estimation dbr:Conceptual_model dbr:Conformal_prediction dbr:Convolutional_neural_network dbr:Coppery_titi_monkey dbr:Holdout_method dbr:Machine_learning dbr:Structure_validation dbr:Computational_economics dbr:Computer-aided_auscultation dbr:Feature_selection dbr:Functional_additive_models dbr:Hal_Pashler dbr:Kernel_density_estimation dbr:Kernel_embedding_of_distributions dbr:Kernel_methods_for_vector_output dbr:Principal_component_regression dbr:Causality dbr:Data_analysis dbr:Data_dredging dbr:Dragon_king_theory dbr:Cross-validation dbr:Large_margin_nearest_neighbor dbr:Lasso_(statistics) dbr:Leakage_(machine_learning) dbr:Learning_curve_(machine_learning) dbr:Least-angle_regression dbr:Logistic_model_tree dbr:Singular_spectrum_analysis dbr:Akaike_information_criterion dbr:Forecasting dbr:Bankruptcy_prediction dbr:Fly_algorithm dbr:List_of_Stanford_University_people dbr:PRESS_statistic dbr:Random_forest dbr:Regularization_(mathematics) dbr:Stepwise_regression dbr:HeuristicLab dbr:Backtesting dbr:Hyperparameter_optimization dbr:Hyperpersonal_model dbr:Artificial_neural_network dbr:Atmospheric_lidar dbr:Learnable_function_class dbr:Leave-one-out_cross-validation dbr:Support_vector_machine dbr:Jackknife_resampling dbr:Regularization_by_spectral_filtering dbr:Autoregressive_model dbr:Bollinger_Bands dbr:Boosting_(machine_learning) dbr:Bootstrap_aggregating dbr:Bootstrapping_(statistics) dbr:Platt_scaling dbr:Grey_box_model dbr:Group_method_of_data_handling dbr:Michael_E._Mann dbr:OptiSLang dbr:Seymour_Geisser dbr:Loss_functions_for_classification dbr:Mathematical_model dbr:Multifactor_dimensionality_reduction dbr:Spike-triggered_average dbr:Multidimensional_scaling dbr:Sensitivity_analysis dbr:Statistical_model_validation dbr:Out_of_sample_testing dbr:List_of_statistics_articles dbr:Training,_validation,_and_test_data_sets dbr:Multivariate_adaptive_regression_spline dbr:Unit-weighted_regression dbr:Win_probability dbr:Software_verification_and_validation dbr:Outline_of_machine_learning dbr:Outline_of_regression_analysis dbr:Outline_of_statistics dbr:Overfitting dbr:Random_sample_consensus dbr:Supervised_learning dbr:Hold-out_cross-validation dbr:Rotation_estimation dbr:Out-of-sample_test dbr:Out-of-sample_testing dbr:Root-mean-square_error_of_cross-validation |
is foaf:primaryTopic of | wikipedia-en:Cross-validation_(statistics) |