Пример выявления области некорректности в модельной задаче

Для иллюстрации предлагаемого метода рассмотрим его применение к уже использовавшимся модельным системам A, B и C. Для простоты рассмотрения (и снижения числа необходимых вычислений) можно применить упрощенный алгоритм получения оценки некорректности. Для этого вместо использования набора малых экспертов ограничимся одним персептроном (без скрытых слоев), входы которого замкнуты на выходы нейронов карты Кохонена, а число выходов совпадает с размерностью признакового пространства выходов задачи. Такая гибридная нейроархитектура, называемая сетью встречного распространения , предложена Р.Хехт-Нильсеном [4.7, 4.8].

Каждый кластер соревновательного слоя Кохонена в сети встречного распространения включает в себя несколько векторов обучающего множества. Предъявление на вход нейросети некоторого вектора вызывает соревнование в слое Кохонена, при этом в результате остается активным лишь один нейрон, возбуждение которого затормозило все остальные нейроны. Выход победившего нейрона (нормированный на единицу) воспринимается персептроном, в итоге формируется вектор выходов нейросети в целом. Нужно отметить, что все входные вектора в пределах одного кластера неразличимы (т.к. им всем соответствует один и тот же победитель), поэтому выходы сети встречного распространения не изменятся, если при смене входных векторов не произойдет переход от одного кластера к другому. Таким образом, нейронная сеть встречного распространения дает кусочно-постоянное приближение к моделируемой функции.

Уклонение кусочно-постоянной поверхности от значений выходных векторов обучающей выборки, соответствующих входам в пределах заданного кластера принимается за оценку степени некорректности в области этого кластера1).

Пример выявления области некорректности в модельной задаче

Рис. 4.5. Гладкое регуляризованное решение (кружки) сетью с обратным распространением ошибки для слабо некорректной задачи двузначного отображения, заданного дискретным набором примеров (точки).

На Рис. 4.5 и 4.6 приведено сравнения гладкого регуляризованного решения, определяемого многослойной сетью с обратным распространением, и решения, получаемого при помощи нейросети встречного распространения. Расчеты проведены для системы B для случая относительно слабой некорректности с малым значением величины скачка h.

Легко заметить совершенно различный характер регуляризации, даваемый этими моделями. Уклонение решения от точек обучающего множества в многослойной сети с гладкими переходными функциями охватывает более широкую область, чем собственно область некорректности (0.4<Y<0.6). Кривая решения и ошибка гладко распространяются в область, где поведение моделируемой системы регулярно.

В случае сети встречного распространения, напротив, регуляризованное решение содержит минимальные ошибки в области регулярности (разбиение на кластеры заметно только вблизи Y=0 и Y=1). Решение же в области многозначности функции не является регуляризованным - кластеры со значениями обеих ветвей обратной функции хаотически перепутаны.

Расчеты проведены для системы B для случая относительно слабой некорректности с малым значением величины скачка h.
Легко заметить совершенно различный характер регуляризации, даваемый этими моделями. Уклонение решения от точек обучающего множества в многослойной сети с гладкими переходными функциями охватывает более широкую область, чем собственно область некорректности (0.4<Y<0.6). Кривая решения и ошибка гладко распространяются в область, где поведение моделируемой системы регулярно.
В случае сети встречного распространения, напротив, регуляризованное решение содержит минимальные ошибки в области регулярности (разбиение на кластеры заметно только вблизи Y=0 и Y=1). Решение же в области многозначности функции не является регуляризованным - кластеры со значениями обеих ветвей обратной функции хаотически перепутаны.
Полезность того или иного представления решения может определиться только в контексте конкретного приложения. Для системы, предупреждающей о высокой ошибке решения в области некорректности, по-видимому, следует предпочесть результат сети встречного распространения (рис. 4.6), так искажения решения в областях, где это решение имеет смысл, минимальны.

Рис. 4.6. Кусочно-постоянное в области регулярности решение некорректной обратной задачи, полученное с помощью сети встречного распространения (см. подпись и обозначения на Рис.4.5).
Обратимся теперь к изучению возможности автоматического выделения области некорректности. В нейронной сети встречного распространения кластеры, расположенные в области некорректности задачи будут содержать близкие вектора, для которых значения моделируемой функции относятся к разным ветвям неоднозначности. Персептрон выходного слоя нейросети в этом случае будет обучаться среднему значению на векторах кластера, поэтому ошибка обучения останется конечной.
В приведенном примере, при h=0.2, теоретическое значение предельной ошибки обучения (среднеквадратичное уклонение) для данных одного кластера равно 0.1.

Распределение ошибки по кластерам, наблюдаемое в расчетах, приведено на рис. 4.7. Область некорректности может быть легко автоматически выделена при помощи простого решающего правила.

Рис. 4.7. Распределение ошибки обучения по пространственным кластерам Карты самоорганизации Кохонена с легко выделяемой областью некорректности задачи.
Подведем некоторые итоги рассмотрения модельных задач. Можно выделить два основных пути применения нейронных сетей встречного распространения для решения обратных и комбинированных некорректно поставленных задач.
Во-первых, слой самоорганизующихся нейронов карты Кохонена позволяет получить локальную дифференциальную оценку степени некорректности задачи и пространственное распределение ошибки обобщения, делаемой сетью. Кластерное разложение одинаково легко выполняется в признаковых пространствах любой размерности.
Алгоритм кластеризации Кохонена легко обобщается на случай наличия пропусков в данных. Поскольку для отнесения некоторого вектора к кластеру требуется лишь вычислить Евклидово расстояние между этим вектором и текущим приближением к центроиду кластера, и найти кластер с минимальным расстоянием, то при наличии пропущенных компонент в векторе расстояние можно вычислять по имеющимся компонентам. Это эквивалентно поиску ближайшего кластера в подпространстве известных компонент. Замечательно, что сеть встречного распространения может обучаться даже если в каждом обучающем векторе имеются пропущенные компоненты. При этом не требуется заполнения пропусков искусственными значениями.
Второй прикладной аспект состоит в том, что в областях корректности задачи решение, даваемое сетью встречного распространения является весьма точным. Это связано с локальным характером обучения в пределах каждого кластера, и, соответственно отсутствием эффектов равномерного распределения ошибки по кластерам. В этом смысле, регуляризующий эффект сети встречного распространения меньше, нежели у традиционной многослойной сети с обратным распространением.

Содержание раздела