Record linkage (original) (raw)

About DBpedia

ربط السجلات (المعروف أيضًا باسم مطابقة البيانات، ودقة الكيان، والعديد من المصطلحات الأخرى) هي مهمة البحث عن السجلات في مجموعة البيانات التي تشير إلى نفس الكيان عبر مصادر بيانات مختلفة (على سبيل المثال ملفات البيانات والكتب ومواقع الويب وقواعد البيانات). يعد ربط السجل ضروريًا عند الانضمام إلى مجموعات بيانات مختلفة استنادًا إلى الكيانات التي قد تشترك أو لا تشترك في معرّف مشترك (على سبيل المثال، مفتاح قاعدة البيانات أو معرف الموارد الموحد أو رقم التعريف الوطني)، والذي قد يكون بسبب الاختلافات في شكل السجل أو موقع التخزين أو نمط المنسق أو التفضيل. قد يُشار إلى مجموعة البيانات التي خضعت للتسوية الموجهة RL على أنها مترابطة. يشار إلى ربط السجل بربط البيانات في العديد من الولايات القضائية، ولكن كلاهما لهما نفس العملية.

Property Value
dbo:abstract ربط السجلات (المعروف أيضًا باسم مطابقة البيانات، ودقة الكيان، والعديد من المصطلحات الأخرى) هي مهمة البحث عن السجلات في مجموعة البيانات التي تشير إلى نفس الكيان عبر مصادر بيانات مختلفة (على سبيل المثال ملفات البيانات والكتب ومواقع الويب وقواعد البيانات). يعد ربط السجل ضروريًا عند الانضمام إلى مجموعات بيانات مختلفة استنادًا إلى الكيانات التي قد تشترك أو لا تشترك في معرّف مشترك (على سبيل المثال، مفتاح قاعدة البيانات أو معرف الموارد الموحد أو رقم التعريف الوطني)، والذي قد يكون بسبب الاختلافات في شكل السجل أو موقع التخزين أو نمط المنسق أو التفضيل. قد يُشار إلى مجموعة البيانات التي خضعت للتسوية الموجهة RL على أنها مترابطة. يشار إلى ربط السجل بربط البيانات في العديد من الولايات القضائية، ولكن كلاهما لهما نفس العملية. (ar) Unter Duplikaterkennung oder Objektidentifizierung (auch englisch Record Linkage) versteht man verschiedene automatische Verfahren, mit denen sich in Datensätzen Fälle identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim Zusammenführen mehrerer Datenquellen (Deduplikation) oder bei der Datenbereinigung notwendig. Duplikate können beispielsweise durch Eingabe- und Übertragungsfehler, wegen verschiedener Schreibweisen und Abkürzungen oder aufgrund unterschiedlicher Datenschemata entstehen. Beispielsweise können in eine Adressdatenbank aus unterschiedlichen Quellen Anschriften aufgenommen werden, wobei ein und dieselbe Adresse einer Person mit Variationen mehrfach aufgenommen werden kann. Mittels Duplikaterkennung sollen nun diese Duplikate herausgefunden und die eigentlichen Adressaten als Objekte identifiziert werden. Es sind zwei Arten von Duplikaten zu unterscheiden: identische Duplikate, bei denen alle Werte identisch sind, und nichtidentische Duplikate, bei denen sich ein bis mehrere Werte unterscheiden. Die Erkennung und Bereinigung ist im ersten Fall trivial, die überzähligen Duplikate können ohne Informationsverlust einfach gelöscht werden. Schwieriger und komplexer kann der zweite Fall sein, da die Duplikate nicht über einen einfachen Ist-Gleich-Vergleich wie im ersten Fall identifiziert werden können. Aus diesem Grund müssen Heuristiken angewandt werden. Im zweiten Fall können die überzähligen Datensätze nicht einfach gelöscht werden, sie müssen vorher konsolidiert und die Werte zusammengefasst werden. (de) Datenlinkage bezeichnet die Verknüpfung verschiedener Datenquellen. Der Begriff Record Linkage wird oft synonym verwendet, oft aber auch im engeren Sinne zur Bezeichnung der technischen (algorithmischen) Verfahren zur Erkennung, ob zwei Datensätze zum selben Fall gehören, und gegebenenfalls zu deren Zusammenführung in einem einzelnen Datensatz. Datenlinkage ist Teil des Datenmanagements, dient zur Verbesserung der Datenqualität und stellt ein wichtiges Teilgebiet der Data Science dar. (de) El enlace de registro o vinculación de registro (también conocido como cotejo de datos, resolución de entidad, y muchos otros términos) es la tarea de encontrar registros en un conjunto de datos que se refieren a la misma entidad en diferentes fuentes de datos (p. ej., archivos de dato, libros, sitios web, y bases de datos). La vinculación de registro es necesario cuando se unen diferentes conjuntos de datos basados en entidades que pueden o no puede compartir un identificador común (p. ej., clave de base de datos, URI, número de identificación Nacional), lo que puede deberse a diferencias en la forma del registro, la ubicación de almacenamiento, o el estilo de conservación o preferencia. Un conjunto de datos que se ha sometido a una reconciliación RL-orientada puede denominarse entrecruzado. La vinculación de registro se conoce también como vinculación de datos en muchas jurisdicciones, pero los dos son el mismo proceso. (es) Record linkage (also known as data matching, data linkage, entity resolution, and many other terms) is the task of finding records in a data set that refer to the same entity across different data sources (e.g., data files, books, websites, and databases). Record linkage is necessary when joining different data sets based on entities that may or may not share a common identifier (e.g., database key, URI, National identification number), which may be due to differences in record shape, storage location, or curator style or preference. A data set that has undergone RL-oriented reconciliation may be referred to as being cross-linked. (en) In de informatica is datamatching een procedure om twee sets data met elkaar te vergelijken. De procedure voert dan een sequentiële analyse uit van elk individueel deel van de data, en koppelt dit aan een individueel deel van de andere dataset. Datamatching kan plaatsvinden om dubbele inhoud te verwijderen of voor verschillende soorten datamining. Een speciale zaak van datamatching is duplicaatdetectie. Vele pogingen van datamatching worden gedaan met het oog op het identificeren van een belangrijke schakel tussen de twee datasets voor onder andere marketing en veiligheid. (nl)
dbo:wikiPageExternalLink https://pinformatics.org/ppirl/ http://pike.psu.edu/linkage/ http://dbs.uni-leipzig.de/de/research/projects/large_scale_object_matching/ http://infolab.stanford.edu/serf/
dbo:wikiPageID 978951 (xsd:integer)
dbo:wikiPageLength 39128 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1121646276 (xsd:integer)
dbo:wikiPageWikiLink dbr:American_Journal_of_Public_Health dbr:Rochester,_Minnesota dbr:Rochester_Epidemiology_Project dbr:Entity_linking dbr:Metaphone dbr:Bloom_filter dbr:Perceptron dbr:Uniform_Resource_Identifier dbr:Death_Master_File dbr:Levenshtein_distance dbr:Rules_engine dbr:Opinion dbr:Organized_retail_crime dbr:Middleware dbr:Entity-attribute-value_model dbr:Naive_Bayes dbr:Content-addressable_storage dbr:Open_data dbr:Machine_learning dbr:Computer_science dbr:Delta_encoding dbr:ZIP_code dbr:Fraud dbr:Halbert_L._Dunn dbr:Date_of_birth dbr:Administrative_data dbr:Tokenization_(lexical_analysis) dbr:Data_cleansing dbr:Data_deduplication dbr:Join_(SQL) dbr:Linked_data dbr:Data_transformation dbr:Data_warehousing dbr:Census dbr:Random_forest dbr:Relational_model dbr:Web_resource dbr:Address_(geography) dbr:Ivan_Fellegi dbr:Jaro-Winkler_distance dbc:Data_management dbr:Support-vector_machine dbr:Business_intelligence dbr:Positive_predictive_value dbr:Social_Security_Number dbr:Social_security_number dbr:Data_quality_assurance dbr:Data_silos dbr:Identity_resolution dbr:Information dbr:Intelligence dbr:Midwestern_United_States dbr:National_identification_number dbr:Capacity_optimization dbr:Author_Name_Disambiguation dbr:Customer_data_integration dbr:Longitudinal_study dbr:Master_data_management dbr:Risk dbr:Science_(journal) dbr:Sensitivity_and_specificity dbr:Single-instance_storage dbr:Extract,_transform,_load dbr:Logical_data_model dbr:Linked_Data dbr:USA_Patriot_Act dbr:Schema_matching dbr:Named-entity_recognition dbr:Phonetic_algorithm dbr:Soundex dbr:Automated_decision dbr:Record_(database) dbr:Ualr dbr:NYSIIS dbr:Wikt:entity dbr:Howard_Borden_Newcombe dbr:History_and_computing
dbp:wikiPageUsesTemplate dbt:Citation_needed dbt:Div_col dbt:Div_col_end dbt:Reflist dbt:Short_description
dcterms:subject dbc:Data_management
rdfs:comment ربط السجلات (المعروف أيضًا باسم مطابقة البيانات، ودقة الكيان، والعديد من المصطلحات الأخرى) هي مهمة البحث عن السجلات في مجموعة البيانات التي تشير إلى نفس الكيان عبر مصادر بيانات مختلفة (على سبيل المثال ملفات البيانات والكتب ومواقع الويب وقواعد البيانات). يعد ربط السجل ضروريًا عند الانضمام إلى مجموعات بيانات مختلفة استنادًا إلى الكيانات التي قد تشترك أو لا تشترك في معرّف مشترك (على سبيل المثال، مفتاح قاعدة البيانات أو معرف الموارد الموحد أو رقم التعريف الوطني)، والذي قد يكون بسبب الاختلافات في شكل السجل أو موقع التخزين أو نمط المنسق أو التفضيل. قد يُشار إلى مجموعة البيانات التي خضعت للتسوية الموجهة RL على أنها مترابطة. يشار إلى ربط السجل بربط البيانات في العديد من الولايات القضائية، ولكن كلاهما لهما نفس العملية. (ar) Datenlinkage bezeichnet die Verknüpfung verschiedener Datenquellen. Der Begriff Record Linkage wird oft synonym verwendet, oft aber auch im engeren Sinne zur Bezeichnung der technischen (algorithmischen) Verfahren zur Erkennung, ob zwei Datensätze zum selben Fall gehören, und gegebenenfalls zu deren Zusammenführung in einem einzelnen Datensatz. Datenlinkage ist Teil des Datenmanagements, dient zur Verbesserung der Datenqualität und stellt ein wichtiges Teilgebiet der Data Science dar. (de) Record linkage (also known as data matching, data linkage, entity resolution, and many other terms) is the task of finding records in a data set that refer to the same entity across different data sources (e.g., data files, books, websites, and databases). Record linkage is necessary when joining different data sets based on entities that may or may not share a common identifier (e.g., database key, URI, National identification number), which may be due to differences in record shape, storage location, or curator style or preference. A data set that has undergone RL-oriented reconciliation may be referred to as being cross-linked. (en) In de informatica is datamatching een procedure om twee sets data met elkaar te vergelijken. De procedure voert dan een sequentiële analyse uit van elk individueel deel van de data, en koppelt dit aan een individueel deel van de andere dataset. Datamatching kan plaatsvinden om dubbele inhoud te verwijderen of voor verschillende soorten datamining. Een speciale zaak van datamatching is duplicaatdetectie. Vele pogingen van datamatching worden gedaan met het oog op het identificeren van een belangrijke schakel tussen de twee datasets voor onder andere marketing en veiligheid. (nl) Unter Duplikaterkennung oder Objektidentifizierung (auch englisch Record Linkage) versteht man verschiedene automatische Verfahren, mit denen sich in Datensätzen Fälle identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim Zusammenführen mehrerer Datenquellen (Deduplikation) oder bei der Datenbereinigung notwendig. (de) El enlace de registro o vinculación de registro (también conocido como cotejo de datos, resolución de entidad, y muchos otros términos) es la tarea de encontrar registros en un conjunto de datos que se refieren a la misma entidad en diferentes fuentes de datos (p. ej., archivos de dato, libros, sitios web, y bases de datos). La vinculación de registro es necesario cuando se unen diferentes conjuntos de datos basados en entidades que pueden o no puede compartir un identificador común (p. ej., clave de base de datos, URI, número de identificación Nacional), lo que puede deberse a diferencias en la forma del registro, la ubicación de almacenamiento, o el estilo de conservación o preferencia. Un conjunto de datos que se ha sometido a una reconciliación RL-orientada puede denominarse entrecruza (es)
rdfs:label ربط السجلات (ar) Duplikaterkennung (de) Datenlinkage (de) Enlace de registro (es) Record linkage (en) Datamatching (nl)
owl:sameAs freebase:Record linkage wikidata:Record linkage wikidata:Record linkage dbpedia-ar:Record linkage dbpedia-de:Record linkage dbpedia-de:Record linkage dbpedia-es:Record linkage dbpedia-nl:Record linkage https://global.dbpedia.org/id/Jj8i
prov:wasDerivedFrom wikipedia-en:Record_linkage?oldid=1121646276&ns=0
foaf:isPrimaryTopicOf wikipedia-en:Record_linkage
is dbo:wikiPageRedirects of dbr:Identity_resolution dbr:Fellegi-Sunter dbr:Fellegi-Sunter_algorithm dbr:Entity_resolution dbr:Fuzzy_matching dbr:Fuzzy_merging dbr:Probabilistic_merging dbr:Probabilistic_record_linkage dbr:Record_linkage_problem dbr:Reference_reconciliation
is dbo:wikiPageWikiLink of dbr:Probabilistic_soft_logic dbr:Rochester_Epidemiology_Project dbr:Enigma_(company) dbr:Entity_linking dbr:David_Kalisch_(economist) dbr:Approximate_string_matching dbr:International_Journal_of_Population_Data_Science dbr:Levenshtein_distance dbr:Postmarketing_surveillance dbr:Name_resolution_(semantics_and_text_extraction) dbr:Deduplication dbr:Administrative_data dbr:Data_cleansing dbr:Data_deduplication dbr:Data_quality dbr:Fuzzy_matching_(computer-assisted_translation) dbr:ADaMSoft dbr:Jaro–Winkler_distance dbr:Author_citation_(zoology) dbr:Author_name_disambiguation dbr:BALSAC_(database) dbr:Citation_graph dbr:ICES dbr:Identity_resolution dbr:Ocarina_Networks dbr:Master_data_management dbr:Statistical_relational_learning dbr:Extract,_transform,_load dbr:Named-entity_recognition dbr:Nancy_Baxter dbr:Multidimensional_assignment_problem dbr:Population_informatics dbr:Text_mining dbr:Fellegi-Sunter dbr:Fellegi-Sunter_algorithm dbr:Entity_resolution dbr:Fuzzy_matching dbr:Fuzzy_merging dbr:Probabilistic_merging dbr:Probabilistic_record_linkage dbr:Record_linkage_problem dbr:Reference_reconciliation
is foaf:primaryTopic of wikipedia-en:Record_linkage