AI alignment (original) (raw)

About DBpedia

Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ.

thumbnail

Property Value
dbo:abstract تتمثل مشكلة التحكم في الذكاء الاصطناعي، في مجال الذكاء الاصطناعي والفلسفة، في مسألة كيفية بناء وكيل فائق الذكاء يساعد منشئيه، وتجنب بناء ذكاء فائق عن غير قصد يمكن أن يضر منشئيه. تحفز الفكرة القائلة إنه يتعين على البشرية حل مشكلة التحكم قبل إنشاء أي ذكاء فائق دراسة هذه المشكلة، لأن الذكاء الفائق سيء التصميم قد يقرر بعقلانية السيطرة على بيئته ويرفض السماح لمنشئيه بتعديله بعد الإطلاق. بالإضافة إلى ذلك، يزعم بعض العلماء بأن حلول مشكلة التحكم، إلى جانب التطورات الأخرى في هندسة السلامة في الذكاء الاصطناعي، قد تطبق أيضًا تطبيقات في الذكاء الاصطناعي الحالي غير فائق الذكاء. تشمل النهج الرئيسية لمشكلة التحكم المواءمة، التي تهدف إلى مواءمة نظم أهداف الذكاء الاصطناعي مع القيم البشرية، والتحكم في القدرات، التي تهدف إلى تقليل قدرة نظام الذكاء الاصطناعي على إيذاء البشر أو السيطرة. لا تعتبر مقترحات التحكم في القدرات عمومًا موثوقة أو كافية لحل مشكلة التحكم، بل تعتبر مكملات قيمة محتملة لجهود المواءمة. (ar) In the field of artificial intelligence (AI), AI alignment research aims to steer AI systems towards their designers’ intended goals and interests. An aligned AI system advances the intended objective; a misaligned AI system is competent at advancing some objective, but not the intended one. AI systems can be challenging to align and misaligned systems can malfunction or cause harm. It can be difficult for AI designers to specify the full range of desired and undesired behaviors. Therefore, they use easy-to-specify proxy goals that omit some desired constraints. However, AI systems exploit the resulting loopholes. As a result, they accomplish their proxy goals efficiently but in unintended, sometimes harmful ways (reward hacking). AI systems can also develop unwanted instrumental behaviors such as seeking power, as this helps them achieve their given goals. Furthermore, they can develop emergent goals that may be hard to detect before the system is deployed, facing new situations and data distributions. These problems affect existing commercial systems such as robots, language models, autonomous vehicles, and social media recommendation engines. However, more powerful future systems may be more severely affected since these problems partially result from high capability. The AI research community and the United Nations have called for technical research and policy solutions to ensure that AI systems are aligned with human values. AI alignment is a subfield of AI safety, the study of building safe AI systems. Other subfields of AI safety include robustness, monitoring, and capability control. Research challenges in alignment include instilling complex values in AI, developing honest AI, scalable oversight, auditing and interpreting AI models, as well as preventing emergent AI behaviors like power-seeking. Alignment research has connections to interpretability research, robustness, anomaly detection, calibrated uncertainty, formal verification, preference learning, safety-critical engineering, game theory, algorithmic fairness, and the social sciences, among others. (en) En el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.​Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.​ La alineación de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios fáciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales;​ objetivos instrumentales, como la búsqueda de poder, que ayudan al sistema a lograr sus objetivos finales;​​​​ y objetivos emergentes que sólo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos.​​ Estos problemas afectan a sistemas comerciales como robots,​ modelos de lenguaje,​​ vehículos autónomos,​ y sistemas de recomendación de redes sociales.​​​ Se cree que los problemas son tanto más probables cuanto más capaz es el sistema, ya que en parte resultan de una alta capacidad.​​ La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.​ La alineación de sistemas es parte de un campo de estudio más amplio llamado (en inglés, AI safety), es decir, el estudio de cómo construir sistemas de inteligencia artificial que sean seguros.​​ Las vías para la investigación de la alineación incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervisión extensible, el examen e interpretación de modelos de inteligencia artificial, y la prevención de comportamientos emergentes, como la búsqueda de poder.​​ La investigación de la alineación tiene conexiones con la investigación de la interpretabilidad,​ la solidez,​​ la detección de anomalías, la incertidumbre calibrada,​ la verificación formal,​ el aprendizaje por preferencias,​​​ la ingeniería de seguridad,​ la teoría de juegos,​​ la equidad algorítmica,​​ y las ciencias sociales,​ entre otros. (es) Dalam kecerdasan buatan (AI) dan filsafat, masalah pengendalian kecerdasan buatan adalah permasalahan tentang bagaimana membangun agen kecerdasan super yang tunduk pada penciptanya. Menghindari pembuatan kecerdasan super yang akan merugikan penciptanya secara tidak sengaja. Kajian tentang masalah ini dimotivasi oleh gagasan bahwa umat manusia harus menyelesaikan masalah pengendalian AI sebelum kecerdasan super dibuat, karena kecerdasan super yang dirancang dengan buruk mungkin secara rasional memutuskan untuk mengambil kendali atas lingkungannya dan menentang kontrol atau modifikasi penciptanya setelah diluncurkan. Beberapa ahli berpendapat bahwa solusi untuk masalah kontrol ini bisa meningkatkan teknologi rekayasa keselamatan AI. Solusi dari masalah ini mungkin juga bisa diterapkan dalam AI non-kecerdasan super yang sudah ada. Salah satu pendekatan utama untuk mengatasi masalah kontrol ini adalah upaya penyelarasan (alignment), yang bertujuan menyelaraskan visi sistem AI dengan nilai-nilai yang dianut manusia. Selain penyelarasan sistem AI, kontrol kemampuan juga bisa digunakan untuk mengurangi risiko dari sistem AI yang merugikan manusia atau mendapatkan kendali. Pengendalian kapabilitas atau kontrol kemampuan umumnya dianggap kurang untuk memecahkan masalah kontrol AI. Pengendalian kemampuan lebih sering dianggap sebagai tambahan dari upaya penyelarasan AI. (in) Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ. (ru)
dbo:thumbnail wiki-commons:Special:FilePath/Midas_gold2.jpg?width=300
dbo:wikiPageID 50785023 (xsd:integer)
dbo:wikiPageLength 87027 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1122707638 (xsd:integer)
dbo:wikiPageWikiLink dbr:Scott_Aaronson dbr:Neural_network dbr:Open_Letter_on_Artificial_Intelligence dbr:Partially_observable_Markov_decision_process dbr:Bart_Selman dbr:David_A._McAllester dbr:Death_of_Elaine_Herzberg dbr:DeepMind dbr:Anomaly_detection dbr:Judea_Pearl dbr:People's_Republic_of_China dbr:Peter_Norvig dbr:University_of_Oxford dbr:Volkswagen_emissions_scandal dbr:Inclusive_fitness dbr:François_Chollet dbr:Game_theory dbr:Gary_Marcus dbr:Global_catastrophic_risks dbr:Goodhart's_law dbr:Misaligned_goals_in_artificial_intelligence dbr:Moral_realism dbr:Eric_Horvitz dbr:Stuart_J._Russell dbr:File:Robot_hand_trained_with_human_feedback_'pretends'_to_grasp_ball.ogg dbr:Machine_ethics dbc:Computational_neuroscience dbr:UK dbr:Domain_adaptation dbr:HAL_9000 dbr:Jürgen_Schmidhuber dbr:Robust_optimization dbr:Alan_Turing dbr:Existential_risk_from_artificial_general_intelligence dbr:Explainable_artificial_intelligence dbr:Fairness_(machine_learning) dbr:Formal_verification dbr:Francesca_Rossi dbr:Norbert_Wiener dbr:File:Midas_gold2.jpg dbr:File:Misaligned_boat_racing_AI_crashes...nts_instead_of_finishing_the_race.ogg dbr:Reinforcement_learning dbr:Multivac dbr:Artificial_general_intelligence dbr:Artificial_intelligence dbr:AI_capability_control dbr:AI_takeover dbc:Existential_risk_from_artificial_general_intelligence dbc:Philosophy_of_artificial_intelligence dbc:Singularitarianism dbr:Black_box dbr:Three_Laws_of_Robotics dbr:Regulation_of_artificial_intelligence dbr:Artificial_Intelligence:_A_Modern_Approach dbr:Artificial_wisdom dbr:Asilomar_Conference_on_Beneficial_AI dbr:Marcus_Hutter dbr:Marvin_Minsky dbr:Ilya_Sutskever dbr:Instrumental_convergence dbr:OpenAI dbr:Oren_Etzioni dbr:Race_to_the_bottom dbr:Recommender_system dbr:Secretary-General_of_the_United_Nations dbr:Shane_Legg dbr:Yann_LeCun dbr:Yoshua_Bengio dbr:Murray_Shanahan dbr:Social_science dbr:Uncertainty_quantification dbr:Revealed_preference dbr:Superintelligence dbr:Toronto_Declaration dbr:Safety-critical_system dbr:Coherent_extrapolated_volition dbr:File:GPT-3_falsehoods.png
dbp:wikiPageUsesTemplate dbt:Artificial_intelligence dbt:Efn dbt:En_dash dbt:Main dbt:Notelist dbt:Reflist dbt:Section_link dbt:See_also dbt:Short_description dbt:Use_American_English dbt:Use_mdy_dates dbt:Existential_risk_from_artificial_intelligence
dct:subject dbc:Computational_neuroscience dbc:Existential_risk_from_artificial_general_intelligence dbc:Philosophy_of_artificial_intelligence dbc:Singularitarianism
rdf:type owl:Thing
rdfs:comment Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ. (ru) تتمثل مشكلة التحكم في الذكاء الاصطناعي، في مجال الذكاء الاصطناعي والفلسفة، في مسألة كيفية بناء وكيل فائق الذكاء يساعد منشئيه، وتجنب بناء ذكاء فائق عن غير قصد يمكن أن يضر منشئيه. تحفز الفكرة القائلة إنه يتعين على البشرية حل مشكلة التحكم قبل إنشاء أي ذكاء فائق دراسة هذه المشكلة، لأن الذكاء الفائق سيء التصميم قد يقرر بعقلانية السيطرة على بيئته ويرفض السماح لمنشئيه بتعديله بعد الإطلاق. بالإضافة إلى ذلك، يزعم بعض العلماء بأن حلول مشكلة التحكم، إلى جانب التطورات الأخرى في هندسة السلامة في الذكاء الاصطناعي، قد تطبق أيضًا تطبيقات في الذكاء الاصطناعي الحالي غير فائق الذكاء. (ar) In the field of artificial intelligence (AI), AI alignment research aims to steer AI systems towards their designers’ intended goals and interests. An aligned AI system advances the intended objective; a misaligned AI system is competent at advancing some objective, but not the intended one. The AI research community and the United Nations have called for technical research and policy solutions to ensure that AI systems are aligned with human values. (en) En el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.​Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.​ (es) Dalam kecerdasan buatan (AI) dan filsafat, masalah pengendalian kecerdasan buatan adalah permasalahan tentang bagaimana membangun agen kecerdasan super yang tunduk pada penciptanya. Menghindari pembuatan kecerdasan super yang akan merugikan penciptanya secara tidak sengaja. Kajian tentang masalah ini dimotivasi oleh gagasan bahwa umat manusia harus menyelesaikan masalah pengendalian AI sebelum kecerdasan super dibuat, karena kecerdasan super yang dirancang dengan buruk mungkin secara rasional memutuskan untuk mengambil kendali atas lingkungannya dan menentang kontrol atau modifikasi penciptanya setelah diluncurkan. Beberapa ahli berpendapat bahwa solusi untuk masalah kontrol ini bisa meningkatkan teknologi rekayasa keselamatan AI. Solusi dari masalah ini mungkin juga bisa diterapkan dalam (in)
rdfs:label مشكلة التحكم في الذكاء الاصطناعي (ar) AI alignment (en) Alineación de la inteligencia artificial (es) Masalah pengendalian kecerdasan buatan (in) Проблема контроля искусственного интеллекта (ru)
rdfs:seeAlso dbr:Existential_risk_from_artificial_general_intelligence dbr:Regulation_of_artificial_intelligence
owl:sameAs wikidata:AI alignment dbpedia-ar:AI alignment dbpedia-es:AI alignment dbpedia-fa:AI alignment dbpedia-id:AI alignment dbpedia-ru:AI alignment https://global.dbpedia.org/id/2LgD2
prov:wasDerivedFrom wikipedia-en:AI_alignment?oldid=1122707638&ns=0
foaf:depiction wiki-commons:Special:FilePath/GPT-3_falsehoods.png wiki-commons:Special:FilePath/Midas_gold2.jpg
foaf:isPrimaryTopicOf wikipedia-en:AI_alignment
is dbo:nonFictionSubject of dbr:The_Alignment_Problem
is dbo:wikiPageRedirects of dbr:Reward_modeling dbr:Control_problem dbr:AI_control_problem dbr:AI_safety_engineering dbr:Agi_alignment dbr:Agi_enforcement dbr:Agi_nanny dbr:Ai_alignment dbr:Aligned_agi dbr:Aligned_ai dbr:Alignment_problem dbr:AI-control_problem dbr:Oracle_AI dbr:AI_Nanny dbr:AI_safety dbr:Anti-artificial_intelligence
is dbo:wikiPageWikiLink of dbr:Reward_modeling dbr:Control_problem dbr:Eliezer_Yudkowsky dbr:Eric_Horvitz dbr:Collin_Burns dbr:Friendly_artificial_intelligence dbr:Technology dbr:AI_control_problem dbr:AI_safety_engineering dbr:Agi_alignment dbr:Agi_enforcement dbr:Agi_nanny dbr:Ai_alignment dbr:Aligned_agi dbr:Aligned_ai dbr:Alignment_problem dbr:Global_catastrophic_risk dbr:AI-control_problem dbr:Artificial_general_intelligence dbr:Artificial_intelligence dbr:AI_capability_control dbr:Effective_altruism dbr:Regulation_of_artificial_intelligence dbr:The_Alignment_Problem dbr:Oracle_AI dbr:Multi-agent_reinforcement_learning dbr:AI_Nanny dbr:AI_safety dbr:Anti-artificial_intelligence
is dbp:subject of dbr:The_Alignment_Problem
is rdfs:seeAlso of dbr:Existential_risk_from_artificial_general_intelligence
is foaf:primaryTopic of wikipedia-en:AI_alignment