Learning rate (original) (raw)
في التعلم والإحصاء الآلي، يعد معدل التعلم (بالإنجليزية: learning rate) معلمة ضبط في خوارزمية التحسين التي تحدد حجم الخطوة في كل تكرار أثناء التحرك نحو الحد الأدنى من دالة الخسارة . نظرًا لأنها تؤثر على مدى تجاوز المعلومات المكتسبة حديثًا المعلومات القديمة، فإنها تمثل مجازًا السرعة التي يتعلم بها «نموذج التعلم الآلي». غالبًا ما يشار إلى معدل التعلم بالحرف η أو α.
Property | Value |
---|---|
dbo:abstract | في التعلم والإحصاء الآلي، يعد معدل التعلم (بالإنجليزية: learning rate) معلمة ضبط في خوارزمية التحسين التي تحدد حجم الخطوة في كل تكرار أثناء التحرك نحو الحد الأدنى من دالة الخسارة . نظرًا لأنها تؤثر على مدى تجاوز المعلومات المكتسبة حديثًا المعلومات القديمة، فإنها تمثل مجازًا السرعة التي يتعلم بها «نموذج التعلم الآلي». غالبًا ما يشار إلى معدل التعلم بالحرف η أو α. في تحديد معدل التعلم، هناك مفاضلة بين معدل التقارب وتجاوز الحد. في حين أن الاتجاه نحو الحد الأدنى يتم تحديده عادة من خلال التدرج اللوني لوظيفة الخسارة، فإن معدل التعلم يحدد حجم الخطوة التي يتم اتخاذها في هذا الاتجاه. سيجعل معدل التعلم المرتفع جدًا قفزة التعلم أعلى من الحد الأدنى، لكن معدل التعلم المنخفض جدًا سيستغرق وقتًا طويلاً للغاية للالتقاء أو التعثر في الحد الأدنى المحلي غير المرغوب فيه. من أجل تحقيق تقارب أسرع، ومنع التذبذبات والتوقف في الحد الأدنى المحلي غير المرغوب فيه، غالبًا ما يتغير معدل التعلم أثناء التدريب إما وفقًا لجدول معدل التعلم أو باستخدام معدل تعليمي قابل للتكيف. في طريقة نيوتن، يتم تحديد معدل التعلم بشكل أساسي من الانحناء المحلي لوظيفة الخسارة، وذلك باستخدام معكوس المصفوفة الهيسية كحجم الخطوة. (ar) In machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. In setting a learning rate, there is a trade-off between the rate of convergence and overshooting. While the descent direction is usually determined from the gradient of the loss function, the learning rate determines how big a step is taken in that direction. A too high learning rate will make the learning jump over minima but a too low learning rate will either take too long to converge or get stuck in an undesirable local minimum. In order to achieve faster convergence, prevent oscillations and getting stuck in undesirable local minima the learning rate is often varied during training either in accordance to a learning rate schedule or by using an adaptive learning rate. The learning rate and its adjustments may also differ per parameter, in which case it is a diagonal matrix that can be interpreted as an approximation to the inverse of the Hessian matrix in Newton's method. The learning rate is related to the step length determined by inexact line search in quasi-Newton methods and related optimization algorithms. When conducting line searches, mini-batch sub-sampling (MBSS) affect the characteristics of the loss function along which the learning rate needs to be resolved. Static MBSS keeps the mini-batch fixed along a search direction, resulting in a smooth loss function along the search direction. Dynamic MBSS updates the mini-batch at every function evaluation, resulting in a point-wise discontinuous loss function along the search direction. Line searches that adaptively resolve learning rates for static MBSS loss functions include the parabolic approximation line (PAL) search. Line searches that adaptively resolve learning rates for dynamic MBSS loss functions include probabilistic line searches, gradient-only line searches (GOLS) and quadratic approximations. (en) Współczynnik uczenia (ang. learning rate) – parametr wiążący lokalne właściwości funkcji błędu sieci neuronowej, wyznaczane na przykład z pomocą algorytmu wstecznej propagacji błędu, odwołujące się (w procesie różniczkowania) do nieskończenie małych zmian wag – z działaniem polegającym na makroskopowych (a więc nie nieskończenie małych) zmianach wag w każdym kolejnym kroku uczenia. Algorytm uczenia wskazuje, w jakim kierunku należy zmienić wagi, żeby błąd popełniany przez sieć zmalał, natomiast wybór współczynnika uczenia decyduje o tym, jak bardzo zdecydujemy się te wagi we wskazanym kierunku zmienić. Jeśli współczynnik uczenia wybierzemy zbyt mały, to proces uczenia może bardzo długo trwać, bo będziemy bardzo wolno zmierzać do finalnego (optymalnego) zestawu wartości wszystkich wag. Jeśli jednak zastosujemy zbyt duży współczynnik uczenia – to będziemy wykonywać zbyt duże kroki i na skutek niemonotonicznej charakterystyki funkcji błędu może się zdarzyć, że „przeskoczymy” właściwą drogę zmierzającą do punktu zapewniającego minimum funkcji błędu. W efekcie błąd po wykonaniu poprawki wag może być większy, a nie mniejszy niż poprzednio. W skrajnym przypadku zbyt duża wartość współczynnika uczenia może prowadzić do niestabilności procesu uczenia, gdyż wartości wag zamiast się stabilizować w trakcie uczenia – uciekają do nieskończoności. (pl) У машинному навчанні те́мп навча́ння (англ. learning rate) або коефіціє́нт шви́дкості навча́ння — це гіперпараметр алгоритму оптимізації, який задає розмір кроку на кожній ітерації пошуку мінімуму функції втрат. Оскільки він визначає те, якою мірою нова отримана інформація замінює попередню інформацію, він образно представляє швидкість, з якою модель машинного навчання «навчається». У літературі з адаптивного керування швидкість навчання зазвичай називають коефіціє́нтом підси́лення (англ. gain). При встановленні темпу навчання існує проблема компромісу між швидкістю збіжності та перестрибуванням мінімуму. В той час як зазвичай отримується з градієнта функції втрат, коефіцієнт швидкості навчання визначає, наскільки великий крок буде зроблено в цьому напрямку. Занадто високий темп навчання змусить алгоритм перестрибнути через мінімум, а навчання з занадто низьким коефіцієнтом або займе занадто багато часу, або застрягне у небажаному локальному мінімумі. Щоб досягти швидшої збіжності, запобігти гойданню і застряганню в небажаних локальних мінімумах, темп навчання часто змінюється під час навчання або відповідно до графіка темпу навчання, або за допомогою алгоритмів адаптивного темпу навчання. Коефіцієнт швидкості навчання та його підбір може відрізнятися для різних параметрів моделі, і в такому випадку отримуємо діагональну матрицю, яку можна розглядати як наближення оберненої матриці Гесе, що використовується в методі Ньютона. Темп навчання подібен до довжини кроку, отримуваної неточним лінійним пошуком у і відповідних алгоритмах оптимізації. Мініпакетна підвибірка (МППВ, англ. mini-batch sub-sampling, MBSS) під час лінійного пошуку торкається характеристик функцій втрат, за якими необхідно визначати темп навчання. Статична МППВ утримує мініпакет незмінним уздовж напрямку пошуку, що призводить до плавності функції втрат уздовж напрямку пошуку. Динамічна МППВ уточнює мініпакет на кожному обчисленні функції, що призводить до поточкової розривності функції втрат уздовж напрямку пошуку. До видів лінійного пошуку, які адаптивно встановлюють темп навчання для функцій втрат статичної МППВ, належить параболічно наближувальний лінійний (ПНЛ, англ. parabolic approximation line, PAL) пошук. До видів лінійного пошуку, які адаптивно встановлюють темп навчання для функцій втрат динамічної МППВ, належать імовірнісні види лінійного пошуку, виключно градієнтні види лінійного пошуку (англ. gradient-only line searches, GOLS) та квадратичні наближення. (uk) |
dbo:wikiPageExternalLink | https://www.youtube.com/watch%3Fv=0qUAb94CpOw&list=PLE6Wd9FR--EfW8dtjAuPoTuPcqmOV53Fu&index=9 https://books.google.com/books%3Fid=YW4KBwAAQBAJ&pg=PA433 https://books.google.com/books%3Fid=khpYDgAAQBAJ&pg=PA113 |
dbo:wikiPageID | 59969558 (xsd:integer) |
dbo:wikiPageLength | 11364 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1121159600 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Descent_direction dbr:Mathematical_optimization dbr:Quasi-Newton_method dbr:Gradient_descent dbr:Model_selection dbr:Machine_learning dbr:Statistics dbr:Backpropagation dbc:Machine_learning dbr:Adaptive_algorithm dbr:Adaptive_control dbc:Optimization_algorithms_and_methods dbr:Line_search dbc:Model_selection dbr:Floor_and_ceiling_functions dbr:Diagonal_matrix dbr:Stochastic_gradient_descent dbr:Invertible_matrix dbr:Hyperparameter_(machine_learning) dbr:Hyperparameter_optimization dbr:Keras dbr:Hessian_matrix dbr:Self-tuning dbr:Newton's_method_in_optimization dbr:YouTube dbr:Loss_function dbr:Overfitting dbr:AutoML dbr:Variable_metric_methods |
dbp:wikiPageUsesTemplate | dbt:Cite_book dbt:Cite_web dbt:Div_col dbt:Div_col_end dbt:Reflist dbt:Short_description dbt:Machine_learning_bar |
dct:subject | dbc:Machine_learning dbc:Optimization_algorithms_and_methods dbc:Model_selection |
rdfs:comment | في التعلم والإحصاء الآلي، يعد معدل التعلم (بالإنجليزية: learning rate) معلمة ضبط في خوارزمية التحسين التي تحدد حجم الخطوة في كل تكرار أثناء التحرك نحو الحد الأدنى من دالة الخسارة . نظرًا لأنها تؤثر على مدى تجاوز المعلومات المكتسبة حديثًا المعلومات القديمة، فإنها تمثل مجازًا السرعة التي يتعلم بها «نموذج التعلم الآلي». غالبًا ما يشار إلى معدل التعلم بالحرف η أو α. (ar) In machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. (en) Współczynnik uczenia (ang. learning rate) – parametr wiążący lokalne właściwości funkcji błędu sieci neuronowej, wyznaczane na przykład z pomocą algorytmu wstecznej propagacji błędu, odwołujące się (w procesie różniczkowania) do nieskończenie małych zmian wag – z działaniem polegającym na makroskopowych (a więc nie nieskończenie małych) zmianach wag w każdym kolejnym kroku uczenia. W skrajnym przypadku zbyt duża wartość współczynnika uczenia może prowadzić do niestabilności procesu uczenia, gdyż wartości wag zamiast się stabilizować w trakcie uczenia – uciekają do nieskończoności. (pl) У машинному навчанні те́мп навча́ння (англ. learning rate) або коефіціє́нт шви́дкості навча́ння — це гіперпараметр алгоритму оптимізації, який задає розмір кроку на кожній ітерації пошуку мінімуму функції втрат. Оскільки він визначає те, якою мірою нова отримана інформація замінює попередню інформацію, він образно представляє швидкість, з якою модель машинного навчання «навчається». У літературі з адаптивного керування швидкість навчання зазвичай називають коефіціє́нтом підси́лення (англ. gain). (uk) |
rdfs:label | معدل التعلم (ar) Learning rate (en) Współczynnik uczenia (pl) 学习率 (zh) Темп навчання (uk) |
owl:sameAs | wikidata:Learning rate dbpedia-ar:Learning rate dbpedia-pl:Learning rate dbpedia-uk:Learning rate dbpedia-zh:Learning rate https://global.dbpedia.org/id/9wdpu |
prov:wasDerivedFrom | wikipedia-en:Learning_rate?oldid=1121159600&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:Learning_rate |
is dbo:wikiPageRedirects of | dbr:Step_length dbr:Step_size dbr:Adaptive_learning_rate |
is dbo:wikiPageWikiLink of | dbr:Q-learning dbr:Probabilistic_numerics dbr:Delta_rule dbr:Perceptron dbr:Deep_learning dbr:Gain dbr:Structured_prediction dbr:Maximum_likelihood_estimation dbr:Estimation_of_distribution_algorithm dbr:Radial_basis_function_network dbr:Generalized_Hebbian_algorithm dbr:Goldilocks_principle dbr:Gradient_descent dbr:Batch_normalization dbr:State–action–reward–state–action dbr:Temporal_difference_learning dbr:Mathematics_of_artificial_neural_networks dbr:Activation_function dbr:Adaptive_algorithm dbr:Least_mean_squares_filter dbr:Line_search dbr:Eta dbr:PAQ dbr:Gradient_boosting dbr:Knowledge_distillation dbr:Stochastic_gradient_descent dbr:Backtracking_line_search dbr:Hyperparameter_(machine_learning) dbr:TD-Gammon dbr:Artificial_neural_network dbr:ADALINE dbr:Greek_letters_used_in_mathematics,_science,_and_engineering dbr:Newton's_method_in_optimization dbr:Self-organizing_map dbr:Multilayer_perceptron dbr:Residual_neural_network dbr:Step_length dbr:Step_size dbr:Adaptive_learning_rate |
is foaf:primaryTopic of | wikipedia-en:Learning_rate |