18.03.2023 20:02

Гиперпараметры нейронных сетей. Часть 2

Все результаты были получены с помощью однослойной логистической регрессией и гиперпараметрами: количеством итераций = 1000 и с коэффициентом обучения = 0.1. Данные из таблицы 2 так же подтверждают ранее сказанное насчет техники L2- регуляризации. Если выбрать этот коэффициент слишком маленьким, то влияние техники будет мало заметно. Второй случай показывает нам то, как должна действовать эта техника. Несмотря на то, что количество успешных предсказаний на тренировочном наборе упал, разрыв между предсказаниями на тестовом и на тренировочном наборах данных меньше. В последнем случае показан большой коэффициент L2-регуляризации, следовательно «штраф», накладываемый на веса, оказался слишком большим и веса не смогли найти оптимальных значений.

Архитектуру нейронной сети так же можно отнести к гиперпараметрам. Она заключает в себе множество надстроек: количество скрытых слоёв, количество элементов в этих скрытых слоях, функции активации, или другие возможные особенности. В рамках данной работы были протестированы несколько архитектур.
Таблица 3

Все опыты были проведены со следующими гиперпараметрами: количество итераций = 500, коэффициент обучения = 0.1, коэффициент L2-регуляризации = 0. Первый случай демонстрирует вариант архитектуры с 2 скрытыми слоями, которые содержат по 1 нейрону. Данная структура нейронной сети работает хуже, чем однослойная логистическая регрессия.

Вторая архитектура позволила получить лучший результат, чем однослойная логистическая регрессия. Благодаря многослойности, алгоритм машинного обучения способен к большей гибкости, но это зависит в том числе и от количества нейронов в слоях [1; 164 – 167].

Одно из ключевых архитектурных решений - выбор функции активации. Были протестированы несколько довольно популярных функций: Сигмоида и ReLU (Rectified linear unit). Прошлые опыты были проведены с использованием одной лишь сигмоиды. Следующие данные повторяют опыт таблицы 3, но с той разницей, что была использована ReLU в одном слое нейронной сети.
Таблица 4

Данные таблицы 4 показывают, что нейронная сеть обучилась быстрее, чем с сигмоидной функцией. Из-за простоты и эффективности, эта функция активации стала довольно часто использоваться. Впрочем, и у неё есть недостатки, поэтому были придуманы её модификации[2].

Список литературы

1. Goodfellow I. Deep Learning [Electronic resource] / I. Goodfellow, Y. Bengio, A. Courville ; Massachusetts Institute of Technology. – Electronic data. – [Massachusetts], [2016]. – URL : http://www.deeplearningbook.org/. – (28.05.2018).
2. CS231n Convolutional Neural Networks for Visual Recognition [Electronic resource] / [University of Stanford]. – Electronic article. – [Stanford], [2014]. – URL:
http://cs231n.github.io/neural-networks-1/. – (28. 05. 2018).

Р.В. Абрамов

Опубликовано 18.03.2023 20:02 | Просмотров: 224 | Блог » RSS