Outlier (original) (raw)

About DBpedia

En estadística, una observació atípica o dada atípica o és un valor que difereix tan àmpliament de la resta de dades que podem pensar que s'ha comès un error. En el cas d'un estudi, l'aparició de dades atípiques ens indicarà que haurem d'estudiar què ha passat en un moment de temps determinat perquè es doni aquell valor tan allunyat dels altres.

thumbnail

Property Value
dbo:abstract En estadística, una observació atípica o dada atípica o és un valor que difereix tan àmpliament de la resta de dades que podem pensar que s'ha comès un error. En el cas d'un estudi, l'aparició de dades atípiques ens indicarà que haurem d'estudiar què ha passat en un moment de temps determinat perquè es doni aquell valor tan allunyat dels altres. (ca) القيمة الشاذة (outlier) هي عنصر شاذ وخارج عن النسق المميز لمجموعة أو تركيبة معينة.ففي عموم الدراسات في الإحصاء، الرياضياتيون أنجزوا خوارزميات قادرة على التخفيف من تأثير القيم الشاذة، أو إلغائها، وحتى حذفها، مستخدمين طرق الإحصاء المتين .إلا أنه في بعض الأحيان يكون وجودها مفيدا لمعرفة سلوك تركيبة، أو منظومة. * أما (anomaly) فتعتبر قرائة خاطئة لأنها تدل على ظاهرة مستحيل حدوثها. (ar) In der Statistik spricht man von einem Ausreißer, wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht. Die „Erwartung“ wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem die meisten aller Messwerte zu liegen kommen, z. B. der Quartilabstand Q75 – Q25. Werte, die weiter als das 1,5-Fache des Quartilabstandes außerhalb dieses Intervalls liegen, werden (meist willkürlich) als Ausreißer bezeichnet. Im Boxplot werden besonders hohe Ausreißer gesondert dargestellt. Die robuste Statistik beschäftigt sich mit der Ausreißerproblematik. Auch im Data-Mining beschäftigt man sich mit der Erkennung von Ausreißern.Von Ausreißern zu unterscheiden sind . (de) Estatistikan, muturreko datuak gainerako datuen balioetatik urrun kokatzen diren datuak dira. Adibidez, gela bateko 10 objektuen tenperaturak jaso eta horietan labea 175 °C gradutan bada, beste guztiak 20 °C-25 °C artean izanik, batez besteko tenperatura 35.5 °C-40 °C tartean izango da. Horrelako egoeretan mediana egokiagoa izaten da balio orokor edo zentro neurri bat emateko. Muturreko datuak beste datuak barneratzen ez dituen beste populazio baten adierazgarri izan daitezke. , neurketa errore eta ikerketa oinarritzen duen teoriaren akats edo hutsuneengatik ere azal daitezke. Besterik gabe suertatu direlako ere azal daitezke, ikerketan inongo okerrik egin gabe. Muturreko datuak eragin dituzten okerrak edo hutsuneak azaldu eta eragin dituzten muturreko datuak ezabatu direnean bakarrik jarrai daiteke aurrera. Ikerketan okerrik ez badago, ez dira ezabatuko, orduan berez suertatu baitira eta horrenbestez, kontuan hartzekoak izango baitira. (eu) En estadística, tales como muestras estratificadas, un valor atípico (en inglés outlier) es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 °C, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de las muestras establecidas. Los valores atípicos son en ocasiones una cuestión subjetiva, y existen numerosos métodos para clasificarlos. El método más impartido académicamente por su sencillez y resultados es el , que toma como referencia la diferencia entre el primer cuartil y el tercer cuartil , o rango intercuartílico. En un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo). (es) En statistique, une donnée aberrante (ou horsain, en anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées. Les données aberrantes peuvent apparaître par hasard dans n'importe quelle distribution, mais elles indiquent souvent soit une erreur de mesure, soit que la population est distribuée suivant une loi de probabilité à queue lourde. Dans le premier cas, il convient de se débarrasser de ces valeurs ou bien d'utiliser des indicateurs statistiques plus robustes face aux données aberrantes tandis que dans le second cas elles indiquent que la distribution est fortement asymétrique et qu'il faut donc se montrer très prudent dans l'utilisation d'outils ou de raisonnement conçus pour une distribution normale. Une cause fréquente de données aberrantes est le mélange de deux distributions, qui peuvent être issues de 2 sous-populations bien distinctes, ou qui peuvent indiquer « mesure correcte » contre « erreur de mesure » : ce phénomène peut être modélisé au travers d'un modèle de mélange. Dans de plus grandes séries de données, quelques valeurs peuvent être éloignées de façon raisonnable de la moyenne. Cela peut être dû à une erreur systématique aussi appelée biais qui peut être inhérent au modèle utilisé pour décrire la distribution du phénomène, ou il peut s'agir de quelques valeurs qui sont loin du centre des données. Les données aberrantes peuvent également indiquer une donnée fausse, des calculs erronés ou bien les limites d'un modèle statistique. Cependant, dans de grands échantillons, un petit nombre de données aberrantes est attendu (qui n'est dû à aucune condition anormale). Les données aberrantes, regroupant les valeurs les plus extrêmes, peuvent inclure la valeur maximale ou la valeur minimale, ou les deux: cela dépend si ces valeurs sont extrêmement élevées ou faibles. Cependant, les valeurs maximum et minimum ne sont pas toujours des données aberrantes car elles peuvent ne pas être trop éloignées des autres valeurs. Une interprétation statistique naïve d'une série de données contenant des données aberrantes peut être trompeuse et induire en erreur. Par exemple, si une personne décide de calculer la température moyenne de 10 objets dans une pièce, et que 9 d'entre eux ont une température située entre 20 et 25 degrés Celsius mais que le dernier est un four en marche à 175 °C, la médiane de la série sera située entre 20 et 25 °C mais la température moyenne sera entre 35,5 et 40 °C. Dans ce cas, la médiane est un meilleur indicateur de la température des objets que la moyenne. Il est incorrect de penser que la moyenne et la médiane sont des indicateurs équivalents. Comme illustré dans cet exemple, le caractère aberrant de certaines données peut révéler leur appartenance à une population différente du reste des valeurs de la série. Les indicateurs ou estimateurs capables de composer avec les données aberrantes sont dits robustes: la médiane est un indicateur robuste tandis que la moyenne n'en est pas un. (fr) In statistics, an outlier is a data point that differs significantly from other observations. An outlier may be due to variability in the measurement or it may indicate experimental error; the latter are sometimes excluded from the data set. An outlier can cause serious problems in statistical analyses. Outliers can occur by chance in any distribution, but they often indicate either measurement error or that the population has a heavy-tailed distribution. In the former case one wishes to discard them or use statistics that are robust to outliers, while in the latter case they indicate that the distribution has high skewness and that one should be very cautious in using tools or intuitions that assume a normal distribution. A frequent cause of outliers is a mixture of two distributions, which may be two distinct sub-populations, or may indicate 'correct trial' versus 'measurement error'; this is modeled by a mixture model. In most larger samplings of data, some data points will be further away from the sample mean than what is deemed reasonable. This can be due to incidental systematic error or flaws in the theory that generated an assumed family of probability distributions, or it may be that some observations are far from the center of the data. Outlier points can therefore indicate faulty data, erroneous procedures, or areas where a certain theory might not be valid. However, in large samples, a small number of outliers is to be expected (and not due to any anomalous condition). Outliers, being the most extreme observations, may include the sample maximum or sample minimum, or both, depending on whether they are extremely high or low. However, the sample maximum and minimum are not always outliers because they may not be unusually far from other observations. Naive interpretation of statistics derived from data sets that include outliers may be misleading. For example, if one is calculating the average temperature of 10 objects in a room, and nine of them are between 20 and 25 degrees Celsius, but an oven is at 175 °C, the median of the data will be between 20 and 25 °C but the mean temperature will be between 35.5 and 40 °C. In this case, the median better reflects the temperature of a randomly sampled object (but not the temperature in the room) than the mean; naively interpreting the mean as "a typical sample", equivalent to the median, is incorrect. As illustrated in this case, outliers may indicate data points that belong to a different population than the rest of the sample set. Estimators capable of coping with outliers are said to be robust: the median is a robust statistic of central tendency, while the mean is not. However, the mean is generally a more precise estimator. (en) Dalam ilmu statistika, sebuah pencilan adalah yang terpaut jauh dari titik data lainnya. Pencilan kemungkinan dapat berasal dari variabilitas pengukuran atau galat percobaan. Pencilan akibat galat sering kali diabaikan. Pencilan dapat mengakibatkan masalah serius dalam analisis statistik. (in) Outlier è un termine utilizzato in statistica per definire, in un insieme di osservazioni, un valore anomalo e aberrante, ossia un valore chiaramente distante dalle altre osservazioni disponibili. Non esiste una definizione matematica di outlier. Uno dei possibili modi di valutare se un dato sia un outlier è di confrontarlo con l'intervallo interquartile di tutti i dati osservati, calcolando la sua distanza dall'intervallo e rapportandola alla misura dell'intervallo stesso, con un parametro Dove e sono rispettivamente il primo e il terzo quartile, è lo scarto interquartile e è un parametro fissato. L'intervallo per k=1 in una gaussiana, rispetto alla deviazione standard Normalmente si pone propone di considerare , ovvero un outlier disterebbe dalla media di e più di due volte la distanza tra e . Gli outlier sono valori numericamente distanti dal resto dei dati raccolti (ad esempio, in un campionamento). Le statistiche che derivano da campioni contenenti outlier possono essere fuorvianti. Per esempio, se misurassimo la temperatura di dieci oggetti presenti in una stanza, la maggior parte dei quali risultasse avere una temperatura compresa fra 20 e 25 gradi Celsius, allora il forno acceso, avente una temperatura di 250 gradi, sarebbe un dato aberrante. La mediana dei valori sarebbe circa 23, mentre la temperatura media salirebbe a circa 45 gradi: un indice chiaramente non rappresentativo della maggioranza dei valori di temperatura riscontrati nella stanza. In questo caso, la mediana rifletterebbe meglio della media aritmetica le misure della temperatura degli oggetti. Gli outlier possono essere indicativi del fatto che, in un dato campione, alcuni dati appartengono a una popolazione differente rispetto a quella del resto del campione. Nella maggioranza dei grandi campioni, alcuni dati saranno più lontani dalla media del campione di quanto sarebbe probabile aspettarsi. Ciò può essere dovuto a un errore sistematico che si è verificato nella raccolta dei dati, oppure a una fallacia nella teoria che ha orientato l'assunzione di una data distribuzione campionaria di probabilità, ma potrebbe anche essere semplicemente dovuto al caso, che ha fatto sì che nella raccolta dei dati alcune osservazioni abbiano prodotto dati molto lontani dai valori medi del campione. Inoltre, gli outlier potrebbero essere indicativi di dati errati, procedure erronee o aree sperimentali in cui alcune teorie potrebbero non essere valide. Tuttavia, un piccolo numero di dati aberranti non dovuti a condizioni anomale è dato per scontato nei grandi campioni. Stimatori poco influenzati dagli outlier sono detti . (it) 外れ値(はずれち、英: outlier)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因するとは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。 英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある。 (ja) Een uitbijter of uitschieter (outlier) is in de statistiek en een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de gegevens die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit gegevens met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid. Ze kunnen echter ook een aanwijzing zijn dat niet de juiste kansverdeling wordt toegepast. In dat geval is er feitelijk geen sprake van uitschieter. Zo heeft een uitbijter grote invloed op het rekenkundig gemiddelde, maar nauwelijks of geen invloed op de mediaan. Stel bijvoorbeeld dat de temperatuur van een kamer gevolgd wordt die rond 20 °C ligt en dat er 9 metingen zijn in de buurt van de doeltemperatuur en één meting van 200 °C. Dan is duidelijk dat deze laatste meting een uitbijter is, dus niet juist, die het totale beeld verstoort. Een uitbijter behoort niet tot de betrokken populatie. Detectie van uitbijters is, naast het opsporen van redundantie en de eliminatie van ruis, een van de belangrijkste taken na het opmeten en verzamelen van gegevens. Voor het detecteren van uitbijters moet onderscheid gemaakt worden tussen univariate (slechts één meetresultaat per meting voor een staal) en multivariate gegevens (vele, soms wel honderden, meetresultaten per meting voor een staal). (nl) Obserwacja odstająca, element odstający (ang. outlier) – obserwacja relatywnie odległa od pozostałych elementów próby. Innymi słowy, posiadająca nietypową wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości obydwu zmiennych – zależnej (objaśnianej) i objaśniającej (objaśniających w analizie regresji wielokrotnej). Oznacza to, że związek między Xi a Yi dla danej obserwacji może być inny niż dla reszty obserwacji w zbiorze danych. Obserwacje odstające mogą odzwierciedlać rzeczywisty rozkład lub być rezultatem przypadku, ale mogą świadczyć też o błędnym pomiarze czy pomyłkach we wprowadzaniu informacji do bazy danych, itp. Duża liczba elementów odstających może też być sygnałem dobrania złego modelu. Obserwacje odstające powstałe na skutek błędów w danych utrudniają i w skrajnym przypadku uniemożliwiają analizę. Szczególnie mało odporne na nie są metody i współczynniki bazujące na założeniu rozkładu normalnego i zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa, klasyczna analiza korespondencji, itp. Jeden element odstający może całkowicie zmienić wartość i znak korelacji, nawet z 0,9 do -0,9. Konieczne jest więc albo usuwanie obserwacji odstających, albo stosowanie odpornych metod statystycznych (ang. robust), np. metod rangowych. Przykładowo zamiast zwykłej korelacji można stosować korelację rangową Spearmana albo tau Kendalla. W przypadku regresji liniowej wielokrotnej stosuje się testy diagnostyczne wykrywające obserwacje wpływowe oraz . Są to najczęściej , odległość Mahalanobisa oraz . Ich metodologia jest najczęściej zbliżona: w regresji liniowej prostej to odległość danej obserwacji od średniej wartości tej zmiennej. W regresji wielokrotnej obserwacje nietypowe wyznacza odległość problematycznej obserwacji od punktu średnich wartości wszystkich zmiennych objaśniających. (pl) Outlier (ibland utliggare) är inom statistik och matematisk statistik benämning för ett avvikande värde, ett ytterlighetsvärde – ett observerat värde som skiljer sig kraftigt från andra värden. Outliers kan förekomma på grund av slump i varje distribution av värden, men de indikerar ofta antingen mätfel eller att populationen har en snedfördelad spridning av värden. Outliers elimineras ibland från mätdata. Outliers kan oftast identifieras genom att betrakta dessa data i ett diagram, exempelvis ett låddiagram. Olika lägesmått har olika robusthet när det kommer till outliers, till exempel kan ett medelvärde ändras avsevärt om en outlier inkluderas, medan medianen oftast ändras i betydligt mindre grad. Samma sak gäller spridningsmått, till exempel är standardavvikelsen i regel mer känslig för outliers än kvartilavståndet. I ett låddiagram markeras de värden som är mer än 1,5 gånger kvartilavståndet från den övre eller den nedre kvartilen som outliers. (sv) Em estatística, outlier, valor aberrante ou valor atípico, é uma observação que apresenta um grande afastamento das demais da série (que está "fora" dela), ou que é inconsistente. A existência de outliers implica, tipicamente, em prejuízos à interpretação dos resultados dos testes estatísticos aplicados às amostras. “Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto” (Hawkins, 1980), em outras palavras os outliers são dados que se distanciam radicalmente de todos os outros São pontos fora da curva normal, valores que fogem da normalidade e que podem causar desequilíbrio nos resultados obtidos. Um conjunto de dados pode apresentar um ou vários outliers. O efeito de um outlier é quase um efeito borboleta, um pequeno erro se propaga e quando não tratado corretamente pode ocasionar problemas e anomalias. Em análises estatísticas o efeito do outlier pode ser facilmente observado. É essencial entender os outliers no âmbito da análise de dados, pois estes podem comprometer de forma negativa os resultados de uma análise, do mesmo modo podem ser exatamente o que se desejar encontrar. O termo outliers é também conhecido por como dados discrepantes; pontos fora da curva; observações fora do comum; anomalias e valores atípicos. Os outliers podem ser divididos em dois grupos os univariados e os multivariados. O primeiro caso é verificado ao se analisar a distribuição de uma variável simples: analisando apenas a distribuição de idades pode-se verificar a presença do outlier. O outlier multivariado pode ser detectado em espaço “n-dimensional”. É necessário recorrer a distribuições multidimensionais para poder observa-lo. Os outliers ou valores atípicos podem ser causados por vários fatores, podem ser naturais ou artificiais, no caso de outliers naturais pode-se pensar em alguém que declarou sua renda, e se saiu muito melhor, ou pior do que o restante de pessoas de seu perfil econômico. Os valores atípicos artificiais podem ser devido a uma leitura ou erro de anotações e transcrição incorreta de dados, bem como mudanças não controláveis nas condições experimentais. Os dados discrepantes podem ser detectados através de uma verificação lógica dos dados, inclusive fazer o uso de gráficos e testes apropriados. O gráfico mais usado é o box plot. Após a detecção de um outlier deve-se excluí-lo ou conserva-lo, dependendo do real motivo para o aparecimento dessa variável. Caso haja motivos concretos como um erro na observação ou na execução do experimento o certo é eliminá-lo, mas se não houver explicação para o aparecimento deste dado então ele pode refletir uma característica do que está sendo estudado, neste caso a observação feita deve ser incluída na análise e deve ser tratada especialmente, realizar uma análise separada somente com esses dados. separá-los em dois grupos e criar modelos específicos para analisá-los. Calculando um outlier Considerando um conjunto de dados que representa a temperatura de oito objetos, e a temperatura normal desses objetos é entre 15 e 25 º C, mas um dos objetos obteve a temperatura de 45 º C, analisando rapidamente esse valor pode-se afirmar que se trata de um outlier. Para calcular primeiro é preciso ordenar esses valores em ordem crescente. Com essa classificação já é possível perceber dois dados o número mínimo (15) e máximo (45) O próximo passo é definir a mediana do conjunto de dados. Para isso é preciso somar os dois números do meio e dividi-lo por dois (21+21/2 = 21), já que a quantidade de valores é par, caso fosse ímpar era só encontrar o valor central, em seguida deve-se encontrar os quartis. O quartil 1 é o número médio do intervalo à esquerda da mediana (15, 15, 20, 21), como se trata de um conjunto de dados pares então deve-se fatorar os valores novamente (15+20/2 = Q1= 17,5). O quartil 3 é o número médio do intervalo à direita da mediana (21, 22, 25, 45 = 22+25/2 = Q 3 = 23,5) o próximo passo é encontrar as “barreiras internas” do conjunto de dados. O primeiro multiplicar a diferença entre Q1 e Q3 (chamada amplitude interquartílica) por 1,5 (23,5 -17,5 =6 * 1,5 = 9) em seguida adiciona esse número ao Q3 (23,5+ 9= 32,5) e subtraia do Q1 para construir as barreiras(17,5 – 9= 8,5), as barreiras internas superior e inferior seriam 32,5 e 8,5. Todos os dados analisados que estiverem fora dessa amplitude são considerados outliers moderados e por último deve-se encontrar as “barreiras externas” do conjunto de dados, a única coisa que difere esse passo do anterior é que a amplitude interquartílica é multiplicada por 3, em vez de 1,5. Ao multiplicar a amplitude interquartílica acima por 3, temos (6 * 3), ou 18. Deste modo, as barreiras externas superior e inferior são 41,5 e 0,5. Qualquer valor observacional que se encontrar fora das barreiras externas é considerado um outlier extremo. (pt) Викид (англ. outlier) — у статистиці результат вимірювання, який виділяється із загальної вибірки. Статистичний метод, здатний діяти в умовах викидів, називається робастним. Медіана є робастною характеристикою, а середнє — ні. Існує приклад (квартет Енскомба), що демонструє, наскільки неробастні методи обробки статистичних даних здатні «брехати», навіть якщо присутній один викид на 10 «звичайних» результатів. (uk) Выброс (англ. outlier), промах — в статистике результат измерения, выделяющийся из общей выборки. Статистический метод, способный действовать в условиях выбросов, называется робастным. Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример (квартет Энскомба), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов. (ru) 在统计学中,异常值(又稱離群值)是指与其他观测值有显著差异的。异常值可能是由实验误差造成;后者有时会从数据集中排除。异常值可能会导致统计分析中出现严重问题。 能妥善處理異常值的估计量,稱為「穩健」。例如,中位數是集中趋势的穩健統計量,但平均數則不然。 (zh)
dbo:thumbnail wiki-commons:Special:FilePath/Michelsonmorley-boxplot.svg?width=300
dbo:wikiPageExternalLink http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm
dbo:wikiPageID 160951 (xsd:integer)
dbo:wikiPageLength 25978 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1098704735 (xsd:integer)
dbo:wikiPageWikiLink dbr:Probability_distribution dbc:Statistical_charts_and_diagrams dbr:Anomaly_(natural_sciences) dbr:Anscombe's_quartet dbc:Statistical_outliers dbr:John_Tukey dbr:Influential_observation dbr:Interquartile_range dbr:Standard_deviation dbr:Leverage_(statistics) dbr:Three_sigma_rule dbr:Cook's_distance dbr:Median dbr:Estimation_of_covariance_matrices dbr:Estimator dbr:Mixture_model dbr:Relaxed_intersection dbr:Quartile dbr:Box_plot dbr:Theory dbr:Arithmetic_mean dbr:Signal_processing dbr:Statistical_significance dbr:Statistics dbr:Studentized_residual dbr:Statistical_population dbr:Mahalanobis_distance dbr:Cauchy_distribution dbr:Central_tendency dbr:Data_analysis dbr:Data_mining dbr:Data_point dbr:Data_set dbr:Winsorising dbr:Dixon's_Q_test dbr:Heavy-tailed_distribution dbr:Fat_tails dbr:Data_transformation_(statistics) dbr:Normal_distribution dbr:Normal_probability_plot dbr:Censoring_(statistics) dbr:Hierarchical_Bayes_model dbr:Regression_analysis dbr:Robust_regression dbr:Grubbs's_test_for_outliers dbc:Robust_statistics dbr:Chauvenet's_criterion dbr:K-nearest_neighbor dbr:Binomial_distribution dbr:Systematic_error dbr:Econometrics dbr:Truncation_(statistics) dbr:Average dbr:Poisson_distribution dbr:Finance dbr:Measurement_error dbr:Network_science dbr:King_effect dbr:Manufacturing dbr:Sample_(statistics) dbr:Skewness dbr:Extreme_value_theory dbr:Local_Outlier_Factor dbr:Robust_statistics dbr:ASTM dbr:Set_estimation dbr:Random_sample_consensus dbr:Winsorizing dbr:Sample_maximum dbr:Sample_minimum dbr:Degrees_Celsius dbr:File:Standard_deviation_diagram_micro.svg dbr:File:Wiki_q_inter_def.jpg dbr:File:Michelsonmorley-boxplot.svg
dbp:first A. (en) N. (en)
dbp:id O/o110080 (en)
dbp:last Childs (en) Balakrishnan (en)
dbp:title Outlier (en)
dbp:wikiPageUsesTemplate dbt:About dbt:Authority_control dbt:Citation_needed dbt:Commons_category dbt:Main dbt:MathWorld dbt:Mvar dbt:Reflist dbt:See_also dbt:Short_description dbt:Use_American_English dbt:SpringerEOM
dct:subject dbc:Statistical_charts_and_diagrams dbc:Statistical_outliers dbc:Robust_statistics
gold:hypernym dbr:Point
rdf:type owl:Thing dbo:Place
rdfs:comment En estadística, una observació atípica o dada atípica o és un valor que difereix tan àmpliament de la resta de dades que podem pensar que s'ha comès un error. En el cas d'un estudi, l'aparició de dades atípiques ens indicarà que haurem d'estudiar què ha passat en un moment de temps determinat perquè es doni aquell valor tan allunyat dels altres. (ca) القيمة الشاذة (outlier) هي عنصر شاذ وخارج عن النسق المميز لمجموعة أو تركيبة معينة.ففي عموم الدراسات في الإحصاء، الرياضياتيون أنجزوا خوارزميات قادرة على التخفيف من تأثير القيم الشاذة، أو إلغائها، وحتى حذفها، مستخدمين طرق الإحصاء المتين .إلا أنه في بعض الأحيان يكون وجودها مفيدا لمعرفة سلوك تركيبة، أو منظومة. * أما (anomaly) فتعتبر قرائة خاطئة لأنها تدل على ظاهرة مستحيل حدوثها. (ar) In der Statistik spricht man von einem Ausreißer, wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht. Die „Erwartung“ wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem die meisten aller Messwerte zu liegen kommen, z. B. der Quartilabstand Q75 – Q25. Werte, die weiter als das 1,5-Fache des Quartilabstandes außerhalb dieses Intervalls liegen, werden (meist willkürlich) als Ausreißer bezeichnet. Im Boxplot werden besonders hohe Ausreißer gesondert dargestellt. Die robuste Statistik beschäftigt sich mit der Ausreißerproblematik. Auch im Data-Mining beschäftigt man sich mit der Erkennung von Ausreißern.Von Ausreißern zu unterscheiden sind . (de) Dalam ilmu statistika, sebuah pencilan adalah yang terpaut jauh dari titik data lainnya. Pencilan kemungkinan dapat berasal dari variabilitas pengukuran atau galat percobaan. Pencilan akibat galat sering kali diabaikan. Pencilan dapat mengakibatkan masalah serius dalam analisis statistik. (in) 外れ値(はずれち、英: outlier)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因するとは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。 英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある。 (ja) Викид (англ. outlier) — у статистиці результат вимірювання, який виділяється із загальної вибірки. Статистичний метод, здатний діяти в умовах викидів, називається робастним. Медіана є робастною характеристикою, а середнє — ні. Існує приклад (квартет Енскомба), що демонструє, наскільки неробастні методи обробки статистичних даних здатні «брехати», навіть якщо присутній один викид на 10 «звичайних» результатів. (uk) Выброс (англ. outlier), промах — в статистике результат измерения, выделяющийся из общей выборки. Статистический метод, способный действовать в условиях выбросов, называется робастным. Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример (квартет Энскомба), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов. (ru) 在统计学中,异常值(又稱離群值)是指与其他观测值有显著差异的。异常值可能是由实验误差造成;后者有时会从数据集中排除。异常值可能会导致统计分析中出现严重问题。 能妥善處理異常值的估计量,稱為「穩健」。例如,中位數是集中趋势的穩健統計量,但平均數則不然。 (zh) Estatistikan, muturreko datuak gainerako datuen balioetatik urrun kokatzen diren datuak dira. Adibidez, gela bateko 10 objektuen tenperaturak jaso eta horietan labea 175 °C gradutan bada, beste guztiak 20 °C-25 °C artean izanik, batez besteko tenperatura 35.5 °C-40 °C tartean izango da. Horrelako egoeretan mediana egokiagoa izaten da balio orokor edo zentro neurri bat emateko. Muturreko datuak beste datuak barneratzen ez dituen beste populazio baten adierazgarri izan daitezke. , neurketa errore eta ikerketa oinarritzen duen teoriaren akats edo hutsuneengatik ere azal daitezke. (eu) En estadística, tales como muestras estratificadas, un valor atípico (en inglés outlier) es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 °C, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de las muestras establecidas. (es) In statistics, an outlier is a data point that differs significantly from other observations. An outlier may be due to variability in the measurement or it may indicate experimental error; the latter are sometimes excluded from the data set. An outlier can cause serious problems in statistical analyses. Outliers, being the most extreme observations, may include the sample maximum or sample minimum, or both, depending on whether they are extremely high or low. However, the sample maximum and minimum are not always outliers because they may not be unusually far from other observations. (en) En statistique, une donnée aberrante (ou horsain, en anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées. (fr) Outlier è un termine utilizzato in statistica per definire, in un insieme di osservazioni, un valore anomalo e aberrante, ossia un valore chiaramente distante dalle altre osservazioni disponibili. Non esiste una definizione matematica di outlier. Uno dei possibili modi di valutare se un dato sia un outlier è di confrontarlo con l'intervallo interquartile di tutti i dati osservati, calcolando la sua distanza dall'intervallo e rapportandola alla misura dell'intervallo stesso, con un parametro L'intervallo per k=1 in una gaussiana, rispetto alla deviazione standard Normalmente si pone (it) Een uitbijter of uitschieter (outlier) is in de statistiek en een waarneming die niet bij de overige lijkt te passen. Meestal betreft het een van de gegevens die relatief ver van de overige data verwijderd ligt. Statistieken afgeleid uit gegevens met uitbijters kunnen een sterk vertekend beeld geven van de werkelijkheid. Ze kunnen echter ook een aanwijzing zijn dat niet de juiste kansverdeling wordt toegepast. In dat geval is er feitelijk geen sprake van uitschieter. Zo heeft een uitbijter grote invloed op het rekenkundig gemiddelde, maar nauwelijks of geen invloed op de mediaan. (nl) Obserwacja odstająca, element odstający (ang. outlier) – obserwacja relatywnie odległa od pozostałych elementów próby. Innymi słowy, posiadająca nietypową wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości obydwu zmiennych – zależnej (objaśnianej) i objaśniającej (objaśniających w analizie regresji wielokrotnej). Oznacza to, że związek między Xi a Yi dla danej obserwacji może być inny niż dla reszty obserwacji w zbiorze danych. (pl) Em estatística, outlier, valor aberrante ou valor atípico, é uma observação que apresenta um grande afastamento das demais da série (que está "fora" dela), ou que é inconsistente. A existência de outliers implica, tipicamente, em prejuízos à interpretação dos resultados dos testes estatísticos aplicados às amostras. Calculando um outlier (pt) Outlier (ibland utliggare) är inom statistik och matematisk statistik benämning för ett avvikande värde, ett ytterlighetsvärde – ett observerat värde som skiljer sig kraftigt från andra värden. Outliers kan förekomma på grund av slump i varje distribution av värden, men de indikerar ofta antingen mätfel eller att populationen har en snedfördelad spridning av värden. Outliers elimineras ibland från mätdata. I ett låddiagram markeras de värden som är mer än 1,5 gånger kvartilavståndet från den övre eller den nedre kvartilen som outliers. (sv)
rdfs:label قيمة شاذة (ar) Observació atípica (ca) Ausreißer (de) Valor atípico (es) Muturreko datu (eu) Pencilan (in) Donnée aberrante (fr) Outlier (it) 外れ値 (ja) Outlier (en) Uitbijter (nl) Obserwacja odstająca (pl) Valor atípico (pt) Выброс (статистика) (ru) Outlier (sv) Викид (статистика) (uk) 异常值 (zh)
rdfs:seeAlso dbr:Studentized_residual
owl:sameAs freebase:Outlier freebase:Outlier http://d-nb.info/gnd/4510494-3 wikidata:Outlier dbpedia-ar:Outlier dbpedia-ca:Outlier dbpedia-de:Outlier dbpedia-es:Outlier dbpedia-et:Outlier dbpedia-eu:Outlier dbpedia-fa:Outlier dbpedia-fr:Outlier dbpedia-he:Outlier dbpedia-hu:Outlier dbpedia-id:Outlier dbpedia-it:Outlier dbpedia-ja:Outlier dbpedia-nl:Outlier dbpedia-no:Outlier dbpedia-pl:Outlier dbpedia-pt:Outlier dbpedia-ru:Outlier http://su.dbpedia.org/resource/Outlier dbpedia-sv:Outlier dbpedia-tr:Outlier dbpedia-uk:Outlier dbpedia-vi:Outlier dbpedia-zh:Outlier https://global.dbpedia.org/id/4wu1R
prov:wasDerivedFrom wikipedia-en:Outlier?oldid=1098704735&ns=0
foaf:depiction wiki-commons:Special:FilePath/Standard_deviation_diagram_micro.svg wiki-commons:Special:FilePath/Wiki_q_inter_def.jpg wiki-commons:Special:FilePath/Michelsonmorley-boxplot.svg
foaf:isPrimaryTopicOf wikipedia-en:Outlier
is dbo:wikiPageDisambiguates of dbr:Outlier_(disambiguation)
is dbo:wikiPageRedirects of dbr:Outliers dbr:Mild_outlier dbr:Inner_fence dbr:Extreme_outlier dbr:Outer_fence dbr:Outlier_(statistics) dbr:Outliers_in_statistics
is dbo:wikiPageWikiLink of dbr:Mexican_paradox dbr:Peirce's_criterion dbr:Radar_chart dbr:Truncated_mean dbr:Benjamin_Peirce dbr:Berkeley_Earth dbr:Biostatistics dbr:DeMix dbr:Andrews_plot dbr:Anomaly_(natural_sciences) dbr:Anscombe's_quartet dbr:Hodges–Lehmann_estimator dbr:John_Tukey dbr:Pearson_correlation_coefficient dbr:Cwm_Llwyd_Fault dbr:DOME_project dbr:United_States_Coast_and_Geodetic_Survey dbr:Ursula_Gather dbr:Variance dbr:Design_effect dbr:Dot_plot_(statistics) dbr:Influential_observation dbr:Interquartile_mean dbr:Interquartile_range dbr:Jana_Jurečková dbr:Kurtosis dbr:Leverage_(statistics) dbr:Novelty_detection dbr:Robust_Regression_and_Outlier_Detection dbr:Robust_measures_of_scale dbr:Variogram dbr:Cook's_distance dbr:Correlation dbr:Anomaly dbr:Median dbr:Estimation_of_covariance_matrices dbr:Gene_expression_profiling dbr:Geology_of_Essex dbr:Oracle_Data_Mining dbr:Outlier_(disambiguation) dbr:Outliers_(book) dbr:Mixture_model dbr:Relaxed_intersection dbr:Strictly_standardized_mean_difference dbr:Quartile dbr:Wildlife_of_Oman dbr:Wildlife_of_the_United_Arab_Emirates dbr:Chosen_Hill,_Gloucestershire dbr:Ehrenbürg dbr:Elżbieta_Pleszczyńska dbr:Genetic_history_of_East_Asians dbr:Genetic_history_of_Europe dbr:Glossary_of_probability_and_statistics dbr:Box_plot dbr:Convex_hull dbr:Convex_layers dbr:Military_simulation dbr:Arabian_Peninsula dbr:Arithmetic_mean dbr:Local_outlier_factor dbr:London_cable_car dbr:Machine_learning dbr:Shot_grouping dbr:Stanwell_Tops,_New_South_Wales dbr:Student's_t-test dbr:Studentized_residual dbr:Feature_selection dbr:Feedback_terminal dbr:Plot_(graphics) dbr:Mahalanobis_distance dbr:Stern_Review dbr:Marketing_engineering dbr:Medcouple dbr:Central_tendency dbr:Data dbr:Data_Applied dbr:Data_analysis dbr:Data_and_information_visualization dbr:Data_quality dbr:Dixon's_Q_test dbr:Harthill_Moor dbr:Heavy-tailed_distribution dbr:Lancet_surveys_of_Iraq_War_casualties dbr:Landscape_genetics dbr:Least_trimmed_squares dbr:Linear_regression dbr:Log-Cauchy_distribution dbr:Agustín_Maravall dbr:Al_Ain dbr:Alex_Cameron_(musician) dbr:ELKI dbr:Fordson dbr:Broselow_tape dbr:Noisy_data dbr:Normal_distribution dbr:Normal_probability_plot dbr:Parametric_search dbr:Check_sheet dbr:Global_distance_test dbr:History_of_statistics dbr:Judith_Blau dbr:Principal_component_analysis dbr:Value-form dbr:Statistical_graphics dbr:Radiofrequency_Echographic_Multi_Spectrometry dbr:Receiver_autonomous_integrity_monitoring dbr:Grouped_events dbr:Hajar_Mountains dbr:James_David_Forbes dbr:Jeanne_Calment dbr:Bagplot dbr:Baker_percentage dbr:The_Black_Swan:_The_Impact_of_the_Highly_Improbable dbr:Fence_(disambiguation) dbr:Selection_bias dbr:Top-coded dbr:August_1972_solar_storm dbr:Challenger_Deep dbr:Chauvenet's_criterion dbr:Juno_(film) dbr:Killing_of_Henryk_Siwiak dbr:L1-norm_principal_component_analysis dbr:Lac_Saint-Jean dbr:Black_swan dbr:Black_swan_theory dbr:Bland–Altman_plot dbr:Swan dbr:TL431 dbr:Cochran's_C_test dbr:Efficiency_(statistics) dbr:Hi-C_(genomic_analysis_technique) dbr:Theil–Sen_estimator dbr:Trimmed_estimator dbr:Winsorized_mean dbr:Mann–Whitney_U_test dbr:Bond_event dbr:Bootstrapping_(statistics) dbr:CURE_algorithm dbr:Pochuck_Mountain dbr:Point-set_registration dbr:Grubbs's_test dbr:Huber_loss dbr:Mestizos_in_Mexico dbr:Michael_J._Black dbr:Olm dbr:Case_study dbr:Casualties_of_the_September_11_attacks dbr:September_11_attacks dbr:Shan_people dbr:King_effect dbr:Loss_function dbr:SKEW dbr:Scale-invariant_feature_transform dbr:Skewness dbr:Weighted_least_squares dbr:Nearest-neighbor_chain_algorithm dbr:Trichoglossus dbr:Outliers dbr:Exploratory_data_analysis dbr:Extension_neglect dbr:Extreme_value_theory dbr:List_of_statistics_articles dbr:Lucas–Kanade_method dbr:Robust_statistics dbr:Telecommunications_forecasting dbr:Religion_in_the_United_States dbr:Univariate_(statistics) dbr:Stock_trader dbr:Stem-and-leaf_display dbr:Sports_Illustrated_cover_jinx dbr:Seasonal_subseries_plot dbr:Regression_diagnostic dbr:Outline_of_regression_analysis dbr:Outline_of_statistics dbr:Raw_data dbr:Random_sample_consensus dbr:Rigid_motion_segmentation dbr:Mild_outlier dbr:Inner_fence dbr:Extreme_outlier dbr:Outer_fence dbr:Outlier_(statistics) dbr:Outliers_in_statistics
is gold:hypernym of dbr:Qilian_Mountains dbr:Schindelkopf dbr:Vatoa dbr:Nuguria dbr:Molamenqing dbr:Damschroder_Rock dbr:Felsenberg-Berntal_Nature_Reserve dbr:Harrl dbr:Vuaqava dbr:Labuche_Kang dbr:Squaw's_Tit dbr:Townrow_Peak dbr:Tether_Rock dbr:Mele_(island)
is foaf:primaryTopic of wikipedia-en:Outlier