18.03.2023 20:04

Гиперпараметры нейронных сетей. Часть 1

Аннотация. Автором анализируется влияние гиперпараметров и архитектуры нейронной сети на результат успешных предсказаний. Анализ проходит путём решения задачи бинарной классификации с помощью одно - и многослойной логистической регрессии.
Ключевые слова: нейронные сети, логистическая регрессия, гиперпараметры, машинное обучение, бинарная классификация, L2-регуляризация, функции активации, ReLU, Sigmoid. Гиперпараметрами называются свойства алгоритма, которые он не оптимизирует самостоятельно в процессе обучения [1; 96]. В широком смысле, к гиперпараметрам можно отнести множество манипуляций с данными или самой нейронной сетью, но мы остановимся на более узком определении. Под гиперпараметрами в данном случае понимаются задаваемые надстройки нейронной сети (коэффициент обучения, коэффициент L2-
регуляризации и т.п.). Минимально возможный набор гиперпараметров, которые позволяют реализовать алгоритм машинного обучения – количество итераций и коэффициент обучения, который часто называют одной из наиболее важных надстроек над нейронной сетью [1; 82]. Одна из причин такой ценности этого гиперпараметра – прямое влияние на время и эффективность обучения. Главная цель обучения – оптимизация весов и, возможно, других параметров посредством минимизации функции стоимости. За W возьмём вектор значений весов и за dW – вектор значений, на который необходимо изменить веса. Формула обновления значения весов в простейшем случае записывается так: – при этом α – коэффициент обучения. Чем больше этот гиперпараметр, тем большему изменению подвергаются значения весов и наоборот. Представим двумерное пространство и всё ту же задачу минимизации функции стоимости, тогда легко представить коэффициент обучения, как размер шага, который мы делаем в одном из направлений. Размер этого шага играет огромную роль в задаче нахождения глобального минимума функции, потому что в этот минимум можно не попасть, если сделать шаг слишком большим или слишком маленьким.

Помимо вышеупомянутого коэффициента обучения, существуют так же и другие гиперпараметры, но в ходе данной работы были рассмотрены лишь некоторые из них. Довольно часто применяется техника L2-регуляризации и её коэффициент так же играет значительную роль: он влияет на размер «штрафа», налагаемого на значения весов: если он близок к нулю, то влияние этой техники оптимизации менее заметно и наоборот[1; 226].

Анализ влияния гиперпараметров на результат успешных предсказаний произошёл посредством постановки задачи бинарной классификации изображений. Набор из 1000 изображений содержит 500 экземпляров класса «1» и 500 класса «2». Размер каждого изображения 96x96 пикселей. Количество элементов вектора, представляющим изображение в численном виде, вычисляется, как произведение количества пикселей на количество каналов изображения, то есть в нашем случае: 96*96*3 = 27648 элементов. Это число так же и является количеством признаков и такое же количество нейронов будет в первом слое нейронной сети. Все дальнейшие результаты получены путём решения поставленной выше задачи.

Рассмотрим влияние значений гиперпараметров на точность предсказаний.
Таблица 1

Все опыты были проведены с однослойной логистической регрессией и гиперпараметрами: количеством итераций = 1000 и с коэффициентом L2-регуляризации = 0. Данные из таблицы 1 наглядно показывают значимость коэффициента обучения. В первом случае, из-за выбора слишком маленького значения, тренировка модели была мало ощутима. Второй случай показывает выбор значения коэффициента обучения близкое к оптимальному. И последний набор данных показывает, что несмотря на слишком большой коэффициент обучения, модель смогла достичь минимума, но подобное происходит не всегда.
Таблица 2

Р.В. Абрамов
Продолжение следует

Опубликовано 18.03.2023 20:04 | Просмотров: 498 | Блог » RSS