Overfitting (original) (raw)

About DBpedia

Überanpassung (englisch overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Überanpassung die Spezifizierung eines Modells, das zu viele erklärende Variablen enthält. Werden dagegen relevante Variablen außer Acht gelassen (siehe Verzerrung durch ausgelassene Variablen), spricht man von Unteranpassung (englisch underfitting).

thumbnail

Property Value
dbo:abstract En l'aprenentatge automàtic, el sobreajustament (en anglès: overfitting) és l'efecte de sobreentrenar un algorisme d'aprenentatge amb unes certes dades pels quals es coneix el resultat desitjat. L'algorisme d'aprenentatge ha d'aconseguir un estat en el qual serà capaç de predir el resultat en altres casos a partir de l'après amb les dades d'entrenament, generalitzant per poder resoldre situacions diferents a les esdevingudes durant l'entrenament. No obstant això, quan un sistema s'entrena massa (se sobreentrena) o s'entrena amb dades estranyes, l'algorisme d'aprenentatge pot quedar ajustat a unes característiques molt específiques de les dades d'entrenament que no tenen relació causal amb la funció objectiu. Durant la fase de sobreajustament, l'èxit en respondre les mostres d'entrenament segueix incrementant-se mentre que la seva actuació amb mostres noves va empitjorant. En altres paraules, el model recorda una gran quantitat d'exemples en lloc d'aprendre a notar característiques: el principal objectiu dels models d'intel·ligència artificial. (ca) Überanpassung (englisch overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Überanpassung die Spezifizierung eines Modells, das zu viele erklärende Variablen enthält. Werden dagegen relevante Variablen außer Acht gelassen (siehe Verzerrung durch ausgelassene Variablen), spricht man von Unteranpassung (englisch underfitting). (de) En aprendizaje automático, el sobreajuste (también es frecuente emplear el término en inglés overfitting) es el efecto de sobreentrenar un algoritmo de aprendizaje con unos ciertos datos para los que se conoce el resultado deseado. El algoritmo de aprendizaje debe alcanzar un estado en el que será capaz de predecir el resultado en otros casos a partir de lo aprendido con los datos de entrenamiento, generalizando para poder resolver situaciones distintas a las acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena demasiado (se sobreentrena) o se entrena con datos extraños, el algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los datos de entrenamiento que no tienen relación causal con la función objetivo. Durante la fase de sobreajuste el éxito al responder las muestras de entrenamiento sigue incrementándose mientras que su actuación con muestras nuevas va empeorando. En otras palabras, el modelo recuerda una gran cantidad de ejemplos en lugar de aprender a notar características. * Datos: Q331309 * Multimedia: Overfitting / Q331309 (es) En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données. Ainsi, cette analyse peut ne pas correspondre à des données supplémentaires ou ne pas prévoir de manière fiable les observations futures. Un modèle surajusté est un modèle statistique qui contient plus de paramètres que ne peuvent le justifier les données. (fr) In mathematical modeling, overfitting is "the production of an analysis that corresponds too closely or exactly to a particular set of data, and may therefore fail to fit to additional data or predict future observations reliably". An overfitted model is a mathematical model that contains more parameters than can be justified by the data. The essence of overfitting is to have unknowingly extracted some of the residual variation (i.e., the noise) as if that variation represented underlying model structure. Underfitting occurs when a mathematical model cannot adequately capture the underlying structure of the data. An under-fitted model is a model where some parameters or terms that would appear in a correctly specified model are missing. Under-fitting would occur, for example, when fitting a linear model to non-linear data. Such a model will tend to have poor predictive performance. The possibility of over-fitting exists because the criterion used for selecting the model is not the same as the criterion used to judge the suitability of a model. For example, a model might be selected by maximizing its performance on some set of training data, and yet its suitability might be determined by its ability to perform well on unseen data; then over-fitting occurs when a model begins to "memorize" training data rather than "learning" to generalize from a trend. As an extreme example, if the number of parameters is the same as or greater than the number of observations, then a model can perfectly predict the training data simply by memorizing the data in its entirety. (For an illustration, see Figure 2.) Such a model, though, will typically fail severely when making predictions. The potential for overfitting depends not only on the number of parameters and data but also the conformability of the model structure with the data shape, and the magnitude of model error compared to the expected level of noise or error in the data. Even when the fitted model does not have an excessive number of parameters, it is to be expected that the fitted relationship will appear to perform less well on a new data set than on the data set used for fitting (a phenomenon sometimes known as shrinkage). In particular, the value of the coefficient of determination will shrink relative to the original data. To lessen the chance or amount of overfitting, several techniques are available (e.g., model comparison, cross-validation, regularization, early stopping, pruning, Bayesian priors, or dropout). The basis of some techniques is either (1) to explicitly penalize overly complex models or (2) to test the model's ability to generalize by evaluating its performance on a set of data not used for training, which is assumed to approximate the typical unseen data that a model will encounter. (en) Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting. Underfitting adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, tree bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, tree memiliki galat pelatihan dan tes yang lebih kecil. Pada saat tree berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun. Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya: * Prepruning: Hentikan pembuatan tree di awal. Tidak melakukan pemisahan node jika goodness measure dibawah threshold. Walaupun dapat menyebabkan sulitnya menentukan threshold. * Postpruning: Buang cabang setelah tree jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan pruned tree yang terbaik. Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba: * Gunakan teknik sampel ulang untuk memperkirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal. * Cek kembali validitas dari set data. (in) 過剰適合(かじょうてきごう、英: overfitting)や過適合(かてきごう)や過学習(かがくしゅう、英: overtraining)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。 その原因の一つとして、統計モデルへの適合の媒介変数が多すぎる等、訓練データの個数に比べて、モデルが複雑で自由度が高すぎることがある。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。 対義語は過少適合(かしょうてきごう、英: underfitting)や過小学習(かしょうがくしゅう、英: undertraining)。 (ja) 과적합(過適合, overfitting) 또는 과대적합(過大適合)은 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이타에 대해서는 오차가 증가하게 된다. * 일반적으로 학습 데이타는 실제 데이타의 부분집합이며, 실제 데이타를 모두 수집하는 것은 불가능하다. * 만약 실제 데이타를 모두 수집하여도 모든 데이타를 학습 시키기 위한 시간이 측정 불가능한 수준으로 증가할 수 있다. * 학습 데이타만 가지고 실제 데이타의 오차가 증가하는 지점을 예측하는 것은 매우 어렵거나 불가능하다. (ko) In statistica e in informatica, si parla di overfitting o sovradattamento (oppure adattamento eccessivo) quando un modello statistico molto complesso si adatta ai dati osservati (il campione) perché ha un numero eccessivo di parametri rispetto al numero di osservazioni. Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili. Si sostiene che l'overfitting sia una violazione del principio del rasoio di Occam. (it) Nadmierne dopasowanie (ang. overfitting) a. przeuczenie (branż. „przetrenowanie”, ang. overtraining) – zjawisko w statystyce zachodzące, gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na podstawie której był konstruowany. W przypadku uczenia maszynowego oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosuje się je do danych, z którymi nie zetknęły się podczas uczenia. Nadmierne dopasowanie jest w pewnym sensie pogwałceniem zasady brzytwy Ockhama (niemnożenia bytów ponad potrzebę). Kiedy liczba stopni swobody modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność uogólniania i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania. Prawdopodobieństwo przeuczenia zależy nie tylko od liczby parametrów i wielkości danych, lecz także adekwatności struktury modelu w odniesieniu do konkretnych danych oraz skali błędu modelu w porównaniu z oczekiwanym poziomem szumu w danych. Idea nadmiernego dopasowania jest ważna także w uczeniu maszynowym. Sieci neuronowe, czy algorytmy genetyczne mają zwykle bardzo dużo zmieniających się w trakcie uczenia parametrów, a niektóre typowe problemy takie jak gra na giełdzie w długim horyzoncie czasowym, badania genetyczne, czy problemy makroekonomiczne generują niewielką liczbę niezależnych obserwacji. Wzrasta zatem ryzyko sytuacji w której np. sieć neuronowa uczona na danych miesięcznych z kilku lat wydaje się być świetnym graczem giełdowym, a po zastosowaniu jej przewidywań w praktyce zyski nie odbiegają od inwestycji w indeks. Zwykle algorytm jest uczony na pewnym zbiorze przypadków (tzw. zbiór uczący), dla których znane są właściwe wyniki. Zakłada się, że po nauczeniu można zastosować algorytm do przewidywania wyników także dla innych przypadków, czyli algorytm w procesie uczenia uogólni prawidłowości w zbiorze uczącym na wszelkie podobne obserwacje. Jednakże szczególnie w sytuacji, gdy uczenie jest zbyt długie, lub gdy przypadki uczące są nieliczne, uczeń może „wymyślić” prawidłowości, które w rzeczywistości nie mają miejsca, a są efektem przypadkowych błędów w danych uczących. W wyniku tego przeuczenia spada jakość algorytmu zastosowanego do innych danych niż te, na których się uczył, choć dla danych uczących jest coraz lepszy. Zarówno w statystyce, jak i uczeniu maszynowym w celu uniknięcia nadmiernego dopasowania konieczne jest zastosowanie dodatkowych środków zapobiegawczych (np. zbiorów testowych, sprawdzianu krzyżowego, metod samowspornych), które pozwalają stwierdzić, w którym momencie dalsze uczenie zaczyna prowadzić do powstania gorszego modelu. Do kontroli nadmiernego dopasowania mogą się też przydawać testy istotności statystycznej, które jednak na ogół mają pewne założenia odnośnie do rozkładu danych. W psychiatrii odpowiednikiem nadmiernego dopasowania mogą być urojenia paranoiczne: złożone, spójne wewnętrznie, choć absurdalne modele świata (np. teorie spiskowe), tworzone na podstawie zbyt skąpych informacji przez pacjentów z objawami zespołu paranoicznego. (pl) Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки). Это связано с тем, что при построении модели («в процессе обучения») в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности. Иными словами, модель запоминает огромное количество всех возможных примеров вместо того, чтобы научиться подмечать особенности. Даже тогда, когда обученная модель не имеет чрезмерного количества параметров, можно ожидать, что эффективность её на новых данных будет ниже, чем на данных, использовавшихся для обучения. В частности, значение коэффициента детерминации будет сокращаться по сравнению с исходными данными обучения. Способы борьбы с переобучением зависят от метода моделирования и способа построения модели. Например, если строится дерево принятия решений, то можно обрезать некоторые его ветки в процессе построения. (ru) Sobre-ajuste ou sobreajuste (do inglês: overfitting) é um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios. Ocorre o sobre-ajuste quando o modelo se ajusta a estes. Um modelo sobre-ajustado apresenta alta precisão quando testado com seu conjunto de dados, porém tal modelo não é uma boa representação da realidade e por isso deve ser evitado.É bem comum que estes modelos apresentem considerável variância e que seus gráficos tenham várias pequenas oscilações, portanto espera-se que modelos representativos sejam convexos. Uma ferramenta para contornar o problema do sobre-ajuste é a , que adiciona à o valor dos parâmetros. Tal adição resulta na eliminação de parâmetros de pouca importância e, portanto, em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade. Através da validação cruzada, em que testamos o nosso modelo em relação a uma parte reservada do conjunto de dados que não foi utilizada no treino do modelo em questão, é possível se ter uma ideia de se o modelo sofre de sobre-ajuste ou não. (pt) У статистиці та машинному навчанні одним із найпоширеніших завдань є допасовування «моделі» до набору тренувальних даних таким чином, щоби уможливити здійснення надійних передбачень на загальних даних, на яких не здійснювалося тренування. При перенавчанні (англ. overfitting) статистична модель описує випадкову похибку або шум, замість взаємозв'язку, що лежить в основі даних. Перенавчання виникає тоді, коли модель є занадто складною, такою, що має занадто багато відносно числа спостережень. Перенавчена модель має погану продуктивність, оскільки вона занадто сильно реагує на другорядні відхилення в тренувальних даних. Можливість перенавчання існує тому, що критерій, який застосовується для тренування моделі, відрізняється від критерію, який застосовується для оцінки її ефективності. Зокрема, модель зазвичай тренують шляхом максимізації її продуктивності на якомусь наборі тренувальних даних. Проте її ефективність визначається не її продуктивністю на тренувальних даних, а її здатністю працювати добре на даних небачених. Перенавчання стається тоді, коли модель починає «запам'ятовувати» тренувальні дані, замість того, щоби «вчитися» узагальненню з тенденції. Як крайній приклад, якщо число параметрів є таким же, або більшим, як число спостережень, то проста модель або процес навчання може відмінно передбачувати тренувальні дані, просто запам'ятовуючи їх повністю, але така модель зазвичай зазнаватиме рішучої невдачі при здійсненні передбачень про нові або небачені дані, оскільки ця проста модель взагалі не навчилася узагальнювати. Потенціал перенавчання залежить не лише від кількостей параметрів та даних, але й від відповідності структури моделі формі даних, та величини в порівнянні з очікуваним рівнем шуму або похибки в даних. Навіть коли допасована модель не має надмірного числа параметрів, слід очікувати, що допасований взаємозв'язок працюватиме на новому наборі даних не так добре, як на наборі, використаному для допасовування. Зокрема, значення коефіцієнту детермінації відносно первинних тренувальних даних . Щоби уникати перенавчання, необхідно використовувати додаткові методики (наприклад, перехресне затверджування, регуляризацію, ранню зупинку, , баєсові апріорні параметрів або порівняння моделей), які можуть вказувати, коли подальше тренування не даватиме кращого узагальнення. Основою деяких методик є або (1) явно штрафувати занадто складні моделі, або (2) перевіряти здатність моделі до узагальнення шляхом оцінки її продуктивності на наборі даних, не використаному для тренування, який вважається наближенням типових небачених даних, з якими стикатиметься модель. Гарною аналогією перенавчання задачі є уявити дитину, яка намагається вивчити, що є вікном, а що не є вікном, ми починаємо показувати їй вікна, і вона виявляє на початковому етапі, що всі вікна мають скло та раму, і через них можна дивитися назовні, деякі з них може бути відчинено. Якщо ми продовжимо показувати ті самі вікна, то дитина може також зробити помилковий висновок, що всі вікна є зеленими, і що всі зелені рами є вікнами. Перенавчаючись таким чином цієї задачі. (uk) 在統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地拟合其他資料或預測未來的觀察結果的現象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。相较用于训练的資料總量來說,一個模型只要结构足夠複雜或参数足够多,就总是可以完美地適應資料的。過適一般可以視為違反奥卡姆剃刀原則。 与过拟合相对应的概念是欠拟合(英語:underfitting,或稱:擬合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。 在机器学习或人工神經網路中,过拟合与欠拟合有时也被称为「过训练(英語:overtraining)」和「欠训练(英語:undertraining)」。 之所以存在过拟合的可能,是因为选择模型的标准和评价模型的标准是不一致的。举例来说,选择模型时往往是选取在训练数据上表现最好的模型;但评价模型时则是观察模型在训练过程中不可见数据上的表现。当模型尝试「记住」训练数据而非从训练数据中学习规律时,就可能发生过拟合。一般来说,當參數的自由度或模型结构的复杂度超過資料所包含資訊內容時,拟合后的模型可能使用任意多的參數,這會降低或破壞模型泛化的能力。 在統計学习和機器學習中,為了避免或减轻過適現象,須要使用額外的技巧(如模型选择、交叉驗證、提前停止、正则化、剪枝、贝叶斯信息量准则、赤池信息量準則或dropout)。在treatment learning中,使用最小最佳支援值(英語:minimum best support value)來避免過適。这些方法大致可分为两类:1. 对模型的复杂度进行惩罚,从而避免产生过于复杂的模型;2. 在验证数据上测试模型的效果,从而模拟模型在实际工作环境的数据上的表现。 (zh)
dbo:thumbnail wiki-commons:Special:FilePath/Overfitting.svg?width=300
dbo:wikiPageExternalLink http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html https://www.ibm.com/cloud/learn/underfitting https://statmodeling.stat.columbia.edu/2017/07/15/what-is-overfitting-exactly/ https://towardsdatascience.com/underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it-6fe4a8a49dbf http://courses.cs.washington.edu/courses/cse546/12wi/slides/cse546wi12LinearRegression.pdf http://www.vcclab.org/articles/jcics-overtraining.pdf https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/
dbo:wikiPageID 173332 (xsd:integer)
dbo:wikiPageLength 20678 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1115154474 (xsd:integer)
dbo:wikiPageWikiLink dbr:Proportional_hazards_models dbr:One_in_ten_rule dbr:Algorithm dbr:Bias dbr:Bias–variance_tradeoff dbr:University_of_Washington dbr:Variance dbr:Early_stopping dbr:The_Journal_of_Investing dbr:Generalization_error dbr:Coefficient_of_determination dbr:Model_selection dbr:Cross-validation_(statistics) dbr:Statistical_inference dbr:Andrew_Gelman dbr:Life-time_of_correlation dbc:Curve_fitting dbr:Statistical_model dbr:Statistically_significant dbr:Stony_Brook_University dbr:Feature_engineering dbr:Feature_selection dbr:Function_approximation dbr:Journal_of_Chemical_Information_and_Modeling dbc:Machine_learning dbc:Statistical_inference dbr:Data_dredging dbr:Linear_regression dbr:Logistic_regression dbr:Curve_fitting dbr:Dropout_(neural_networks) dbr:Parameter dbr:Goodness_of_fit dbr:Dependent_variable dbr:Regression_analysis dbr:Regularization_(mathematics) dbr:Helmut_Norpoth dbc:Applied_mathematics dbc:Mathematical_modeling dbr:BioData_Mining dbr:William_Collins_(imprint) dbr:Freedman's_paradox dbr:Explanatory_variable dbr:IBM dbr:Infinite_monkey_theorem dbr:Minimum_spanning_tree dbr:File:Parabola_on_line.png dbr:Mathematical_model dbr:Robustness_(computer_science) dbr:Shrinkage_(statistics) dbr:VC_dimension dbr:Occam's_razor dbr:Researcher_degrees_of_freedom dbr:Statistical_noise dbr:Pruning_(algorithm) dbr:Training_data dbr:Bias-variance_tradeoff dbr:Causal_relation dbr:Principle_of_Parsimony dbr:Prior_distribution dbr:File:Overfitted_Data.png dbr:File:Overfitting.svg dbr:File:Overfitting_svg.svg dbr:File:Underfitted_Model.png dbr:File:Underfitting_fitted_model.png
dbp:wikiPageUsesTemplate dbt:Citation dbt:Citation_needed dbt:Cite_journal dbt:Div_col dbt:Div_col_end dbt:Expand_section dbt:Mvar dbt:Quote dbt:Refimprove dbt:Reflist dbt:Rp dbt:Short_description dbt:Unsourced_section dbt:Machine_learning dbt:Differentiable_computing
dct:subject dbc:Curve_fitting dbc:Machine_learning dbc:Statistical_inference dbc:Applied_mathematics dbc:Mathematical_modeling
rdfs:comment Überanpassung (englisch overfitting) bezeichnet eine bestimmte Korrektur eines Modells an einen vorgegebenen Datensatz. In der Statistik bedeutet Überanpassung die Spezifizierung eines Modells, das zu viele erklärende Variablen enthält. Werden dagegen relevante Variablen außer Acht gelassen (siehe Verzerrung durch ausgelassene Variablen), spricht man von Unteranpassung (englisch underfitting). (de) En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données. Ainsi, cette analyse peut ne pas correspondre à des données supplémentaires ou ne pas prévoir de manière fiable les observations futures. Un modèle surajusté est un modèle statistique qui contient plus de paramètres que ne peuvent le justifier les données. (fr) 過剰適合(かじょうてきごう、英: overfitting)や過適合(かてきごう)や過学習(かがくしゅう、英: overtraining)とは、統計学や機械学習において、訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。 その原因の一つとして、統計モデルへの適合の媒介変数が多すぎる等、訓練データの個数に比べて、モデルが複雑で自由度が高すぎることがある。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。 対義語は過少適合(かしょうてきごう、英: underfitting)や過小学習(かしょうがくしゅう、英: undertraining)。 (ja) 과적합(過適合, overfitting) 또는 과대적합(過大適合)은 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이타에 대해서는 오차가 증가하게 된다. * 일반적으로 학습 데이타는 실제 데이타의 부분집합이며, 실제 데이타를 모두 수집하는 것은 불가능하다. * 만약 실제 데이타를 모두 수집하여도 모든 데이타를 학습 시키기 위한 시간이 측정 불가능한 수준으로 증가할 수 있다. * 학습 데이타만 가지고 실제 데이타의 오차가 증가하는 지점을 예측하는 것은 매우 어렵거나 불가능하다. (ko) In statistica e in informatica, si parla di overfitting o sovradattamento (oppure adattamento eccessivo) quando un modello statistico molto complesso si adatta ai dati osservati (il campione) perché ha un numero eccessivo di parametri rispetto al numero di osservazioni. Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili. Si sostiene che l'overfitting sia una violazione del principio del rasoio di Occam. (it) En l'aprenentatge automàtic, el sobreajustament (en anglès: overfitting) és l'efecte de sobreentrenar un algorisme d'aprenentatge amb unes certes dades pels quals es coneix el resultat desitjat. L'algorisme d'aprenentatge ha d'aconseguir un estat en el qual serà capaç de predir el resultat en altres casos a partir de l'après amb les dades d'entrenament, generalitzant per poder resoldre situacions diferents a les esdevingudes durant l'entrenament. No obstant això, quan un sistema s'entrena massa (se sobreentrena) o s'entrena amb dades estranyes, l'algorisme d'aprenentatge pot quedar ajustat a unes característiques molt específiques de les dades d'entrenament que no tenen relació causal amb la funció objectiu. Durant la fase de sobreajustament, l'èxit en respondre les mostres d'entrenament s (ca) En aprendizaje automático, el sobreajuste (también es frecuente emplear el término en inglés overfitting) es el efecto de sobreentrenar un algoritmo de aprendizaje con unos ciertos datos para los que se conoce el resultado deseado. El algoritmo de aprendizaje debe alcanzar un estado en el que será capaz de predecir el resultado en otros casos a partir de lo aprendido con los datos de entrenamiento, generalizando para poder resolver situaciones distintas a las acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena demasiado (se sobreentrena) o se entrena con datos extraños, el algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los datos de entrenamiento que no tienen relación causal con la función objetivo. Durante la fase de sobr (es) In mathematical modeling, overfitting is "the production of an analysis that corresponds too closely or exactly to a particular set of data, and may therefore fail to fit to additional data or predict future observations reliably". An overfitted model is a mathematical model that contains more parameters than can be justified by the data. The essence of overfitting is to have unknowingly extracted some of the residual variation (i.e., the noise) as if that variation represented underlying model structure. (en) Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting. Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya: (in) Nadmierne dopasowanie (ang. overfitting) a. przeuczenie (branż. „przetrenowanie”, ang. overtraining) – zjawisko w statystyce zachodzące, gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na podstawie której był konstruowany. W przypadku uczenia maszynowego oznacza to, że absurdalne i fałszywe modele mogą świetnie pasować do danych uczących, gdy model ma wystarczającą złożoność, jednak będą dawały gorsze wyniki, gdy zastosuje się je do danych, z którymi nie zetknęły się podczas uczenia. (pl) Sobre-ajuste ou sobreajuste (do inglês: overfitting) é um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. (pt) Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки). Это связано с тем, что при построении модели («в процессе обучения») в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности. (ru) 在統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地拟合其他資料或預測未來的觀察結果的現象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。相较用于训练的資料總量來說,一個模型只要结构足夠複雜或参数足够多,就总是可以完美地適應資料的。過適一般可以視為違反奥卡姆剃刀原則。 与过拟合相对应的概念是欠拟合(英語:underfitting,或稱:擬合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。 在机器学习或人工神經網路中,过拟合与欠拟合有时也被称为「过训练(英語:overtraining)」和「欠训练(英語:undertraining)」。 (zh) У статистиці та машинному навчанні одним із найпоширеніших завдань є допасовування «моделі» до набору тренувальних даних таким чином, щоби уможливити здійснення надійних передбачень на загальних даних, на яких не здійснювалося тренування. При перенавчанні (англ. overfitting) статистична модель описує випадкову похибку або шум, замість взаємозв'язку, що лежить в основі даних. Перенавчання виникає тоді, коли модель є занадто складною, такою, що має занадто багато відносно числа спостережень. Перенавчена модель має погану продуктивність, оскільки вона занадто сильно реагує на другорядні відхилення в тренувальних даних. (uk)
rdfs:label Sobreajustament (overfitting) (ca) Overfitting (cs) Überanpassung (de) Sobreajuste (es) Overfitting (in) Surapprentissage (fr) Overfitting (it) 과적합 (ko) Overfitting (en) 過剰適合 (ja) Nadmierne dopasowanie (pl) Sobreajuste (pt) Переобучение (ru) Перенавчання (uk) 過適 (zh)
owl:sameAs freebase:Overfitting wikidata:Overfitting dbpedia-ca:Overfitting dbpedia-cs:Overfitting dbpedia-de:Overfitting dbpedia-es:Overfitting dbpedia-fa:Overfitting dbpedia-fr:Overfitting dbpedia-he:Overfitting dbpedia-id:Overfitting dbpedia-it:Overfitting dbpedia-ja:Overfitting dbpedia-ko:Overfitting dbpedia-pl:Overfitting dbpedia-pt:Overfitting dbpedia-ru:Overfitting http://su.dbpedia.org/resource/Overfitting dbpedia-tr:Overfitting dbpedia-uk:Overfitting dbpedia-vi:Overfitting dbpedia-zh:Overfitting https://global.dbpedia.org/id/33mBy
prov:wasDerivedFrom wikipedia-en:Overfitting?oldid=1115154474&ns=0
foaf:depiction wiki-commons:Special:FilePath/Overfitted_Data.png wiki-commons:Special:FilePath/Overfitting.svg wiki-commons:Special:FilePath/Overfitting_svg.svg wiki-commons:Special:FilePath/Parabola_on_line.png wiki-commons:Special:FilePath/Underfitted_Model.png wiki-commons:Special:FilePath/Underfitting_fitted_model.png
foaf:isPrimaryTopicOf wikipedia-en:Overfitting
is dbo:wikiPageRedirects of dbr:Under-fitting dbr:Underfitting dbr:Over-fitted dbr:Over-fitting dbr:Over_fitting dbr:Overfit dbr:Overfitting_(machine_learning) dbr:Under-fitted
is dbo:wikiPageWikiLink of dbr:Bayes_factor dbr:Bayesian_information_criterion dbr:Bayesian_vector_autoregression dbr:Energy_landscape dbr:Ensemble_averaging_(machine_learning) dbr:Metalog_distribution dbr:Slope_One dbr:One_in_ten_rule dbr:Parsing dbr:Stylometry dbr:Testing_hypotheses_suggested_by_the_data dbr:Probabilistic_latent_semantic_analysis dbr:Deep_image_prior dbr:Deferent_and_epicycle dbr:Deterministic_noise dbr:History_of_artificial_intelligence dbr:Bias–variance_tradeoff dbr:Perceptron dbr:Von_Neumann's_elephant dbr:David_Leinweber dbr:Decision_tree_learning dbr:Decision_tree_pruning dbr:Deep_learning dbr:Early_stopping dbr:Inductive_probability dbr:Information_Harvesting dbr:Instance-based_learning dbr:Inverse_problem dbr:Generalization_error dbr:Generalized_additive_model dbr:Mixture_model dbr:Quantitative_structure–activity_relationship dbr:Poisson_regression dbr:Walk_forward_optimization dbr:GPT-2 dbr:Glossary_of_artificial_intelligence dbr:Goodhart's_law dbr:Multi-task_learning dbr:Convolutional_neural_network dbr:Cross-validation_(statistics) dbr:Batch_normalization dbr:Leela_Chess_Zero dbr:Machine_learning dbr:Structural_risk_minimization dbr:Cluster_analysis dbr:Computer-aided_auscultation dbr:Fault_detection_and_isolation dbr:Feature_extraction dbr:Federated_learning dbr:Feedforward_neural_network dbr:Kernel_embedding_of_distributions dbr:Machine_learning_in_earth_sciences dbr:Matrix_factorization_(recommender_systems) dbr:B-spline dbr:Backpropagation dbr:AdaBoost dbr:Additive_model dbr:Data_augmentation dbr:Data_mining dbr:Lasso_(statistics) dbr:Layered_hidden_Markov_model dbr:Leakage_(machine_learning) dbr:Learning_classifier_system dbr:Learning_curve_(machine_learning) dbr:Learning_rate dbr:Linear_classifier dbr:Linear_regression dbr:Logistic_model_tree dbr:Logistic_regression dbr:Video_quality dbr:Adaptive_Modeler dbr:Akaike_information_criterion dbr:AlphaFold dbr:Curve_fitting dbr:Oversampling_and_undersampling_in_data_analysis dbr:Cellular_deconvolution dbr:Educational_data_mining dbr:Goodness_of_fit dbr:Gradient_boosting dbr:Granular_computing dbr:Knowledge_graph_embedding dbr:Principal_component_analysis dbr:PRESS_statistic dbr:Rademacher_complexity dbr:Random_forest dbr:Regularization_(mathematics) dbr:Stepwise_regression dbr:Backtesting dbr:Technical_analysis dbr:Statistical_model_specification dbr:Adversarial_machine_learning dbr:John_Bohannon dbr:Kernel_perceptron dbr:Learnable_function_class dbr:Cognitive_dissonance dbr:Ecological_Orbits dbr:Heuristic_(computer_science) dbr:High-dimensional_statistics dbr:Model_risk dbr:Recursive_partitioning dbr:Regularization_by_spectral_filtering dbr:Dilution_(neural_networks) dbr:Distance_sampling dbr:Bootstrap_aggregating dbr:Platt_scaling dbr:Polynomial_kernel dbr:Information_gain_(decision_tree) dbr:Kitchen_sink_regression dbr:Mallows's_Cp dbr:Mathematical_model dbr:Mean_squared_error dbr:Multicollinearity dbr:Multifactor_dimensionality_reduction dbr:Multiple_discriminant_analysis dbr:Robustness_(computer_science) dbr:SKYNET_(surveillance_program) dbr:Shrinkage_(statistics) dbr:Statistical_model_validation dbr:Teaching_to_the_test dbr:Experimental_economics dbr:Expert_system dbr:FMLLR dbr:ID3_algorithm dbr:List_of_statistics_articles dbr:Statistical_learning_theory dbr:Occam's_razor dbr:Training,_validation,_and_test_data_sets dbr:Manifold_regularization dbr:Philosophy_of_science dbr:Vapnik–Chervonenkis_dimension dbr:Under-fitting dbr:Underfitting dbr:Researcher_degrees_of_freedom dbr:Regularization_perspectives_on_support_vector_machines dbr:Outline_of_machine_learning dbr:Overcategorization dbr:Parabolic_fractal_distribution dbr:Supervised_learning dbr:Types_of_artificial_neural_networks dbr:Over-fitted dbr:Over-fitting dbr:Over_fitting dbr:Overfit dbr:Overfitting_(machine_learning) dbr:Under-fitted
is rdfs:seeAlso of dbr:Generalization_error
is foaf:primaryTopic of wikipedia-en:Overfitting