Skip to content
Bankn8II©$A edited this page Nov 3, 2025 · 6 revisions

Welcome to the IsingModels.jl wiki!

About 🤶⛐ uoxyc.IsingModels.jl (⚖ Lg) JL zjebomgиizi cyxou ... 🗾 ЯRemembærunㅎ h²ø ☔ ⛆ ☠ ЯRэgenÄhoიн ,,, '''"'' ㅎ🌈ㄱ 부


gh-pages branch


https://uoxyc.github.io/IsingModels.jl/dev/index.html

image

https://uoxyc.github.io/IsingModels.jl/dev/literate/wolff/index.html

image

https://uoxus.github.io/IsingModels.jl/stable/literate/hybrid/#Magnetization-as-a-function-of-temperature

image

Examples using the Metropolis sampling method

https://uoxyc.github.io/IsingModels.jl/dev/literate/metropolis/index.html

image

Examples using the Metropolis+F(M) sampling method

https://uoxyc.github.io/IsingModels.jl/dev/literate/metropolis_f/index.html

image

Examples using hybrid (Metropolis + Wolff) sampling method Magnetization as a function of temperature

https://uoxyc.github.io/IsingModels.jl/dev/literate/hybrid/index.html

image

https://uoxyc.github.io/IsingModels.jl/dev/ising/index.html

image

IsingModels.jl

Ising model in a 2-dimensional grid lattice.

This package is registered. Install with:

using Pkg
Pkg.add("IsingModels")

Citation

If you use this package in a publication, please cite:

  • Jorge Fernandez-de-Cossio-Diaz, Simona Cocco, and Remi Monasson. "Disentangling representations in Restricted Boltzmann Machines without adversaries." Physical Review X 13, 021003 (2023).

Целью машинного обучения без учителя является построение представлений сложных многомерных данных с простыми связями с их свойствами. Такие распутанные представления облегчают интерпретацию значимых скрытых факторов вариации данных, а также генерацию новых данных с желаемыми характеристиками. Методы распутывания представлений часто основаны на состязательной схеме, в которой представления настраиваются таким образом, чтобы дискриминаторы не могли восстановить информацию о свойствах данных (метках). К сожалению, состязательное обучение, как правило, сложно реализовать на практике. Здесь мы предлагаем простой и эффективный способ распутывания представлений без необходимости обучения состязательных дискриминаторов и применяем наш подход к ограниченным машинам Больцмана, одной из простейших генеративных моделей, основанных на представлениях. Наш подход основан на введении адекватных ограничений на веса во время обучения, что позволяет нам концентрировать информацию о метках на небольшом подмножестве скрытых переменных. Эффективность подхода проиллюстрирована на четырёх примерах: наборе данных изображений лиц CelebA, двумерной модели Изинга, наборе данных рукописных цифр MNIST и таксономии семейств белков. Кроме того, мы показываем, как наша платформа позволяет аналитически вычислять стоимость (в терминах логарифмического правдоподобия данных), связанную с распутыванием их представлений. Смотреть еще 6 рисунков Рубрики по физике (PhySH) Сложные системы Обучение Физика вычислений Искусственные нейронные сети Машинное обучение Популярное резюме Автоматизированный поиск осмысленных представлений сложных данных — давняя цель машинного обучения. Представления должны содержать достаточно информации о данных, чтобы гарантировать высокую точность реконструкции, отбрасывать нерелевантные детали и иметь простые связи с важными признаками, лежащими в основе распределения данных. Методы распутывания представлений часто основаны на состязательной игре, в которой две нейронные сети соревнуются, взаимно улучшая свои характеристики. Однако этот подход, как правило, страдает от численной нестабильности и сложен в реализации на практике. Мы показываем, как распутывание может быть достигнуто с помощью одной модели с адекватно ограниченными параметрами. Мы иллюстрируем наш подход на примере ограниченных машин Больцмана (RBM) – простого типа сети с одним слоем для конфигураций данных и другим – для их представлений. RBM широко применяются во многих контекстах, где ограничения на количество доступных данных препятствуют использованию более сложных и глубоких архитектур. Простота RBM делает их пригодными для аналитических вычислений, что проясняет роль ограничений. Наш подход позволяет лучше понять затраты (с точки зрения качества генерируемых данных), связанные с распутыванием. Мы надеемся, что он также упростит контролируемую генерацию данных и обнаружение признаков в будущих приложениях. Помимо представленных здесь приложений к RBM, наша основанная на ограничениях структура в принципе может быть применена и к другим неконтролируемым архитектурам. Текст статьи I. ВВЕДЕНИЕ Неконтролируемое обучение включает в себя сопоставление точек данных с адекватными представлениями, где статистические характеристики, относящиеся к распределению данных, кодируются скрытыми переменными.[1]Примерами неконтролируемых архитектур являются ограниченные машины Больцмана.[2], вариационные автоэнкодеры[3]и генеративные состязательные сети[4], среди прочего. Однако сопоставление между активностью латентных переменных и соответствующими свойствами данных, как правило, сложно и нелегко поддается интерпретации (рис. 1), явление, называемое запутанностью представлений в машинном обучении или смешанной чувствительностью в вычислительной нейронауке[5]Запутанные представления трудно интерпретировать и манипулировать, например, для создания новых данных с желаемыми свойствами.[1,6]. ФИГ. 1. Запутанные и распутанные представления. Набор многомерных точек данных (внизу) отображается посредством неконтролируемого обучения на латентное представление (вверху). Данные окрашены в фиолетовый и оранжевый цвета в зависимости от двоичного атрибута, например, чётность или нечётность для изображений рукописных цифр MNIST. Слева: когда представления запутаны, разделение классов данных не совпадает с одним латентным направлением. Справа: когда представления распутаны, одно или несколько направлений в латентном пространстве (синее) разделяют помеченные классы, в то время как другие направления не коррелируют с меткой (красное). В последнее время поток литературы фокусируется на том, как обучать неконтролируемые модели для получения распутанных представлений, где информация об определенных свойствах сосредоточена в некоторых скрытых переменных и исключена из других.[7–13]или вообще отсутствуют в представлениях[14,15]Концентрация информации, в свою очередь, позволяет изменять значения нескольких переменных и генерировать точки данных с контролируемыми свойствами.[7]На практике обучение распутанных представлений часто осуществляется в состязательном подходе посредством оптимизации вариационных границ до труднооценимых величин, таких как взаимная информация между признаками данных и некоторой частью представлений. Несмотря на концептуальную привлекательность, этот подход может быть сложно реализовать с численной точки зрения из-за хорошо известных трудностей состязательного обучения.[16]. Кроме того, его сложность до сих пор препятствовала теоретическому анализу, оставляя без ответа важные вопросы, такие как стоимость распутывания представлений. В качестве конкретной иллюстрации, которую мы рассмотрим далее в этой работе, представьте себе обучение неконтролируемой модели на основе набора изображений лиц. После завершения обучения модель может быть использована для генерации множества новых лиц, обобщая признаки из обучающих данных. Сгенерированные изображения будут содержать улыбающиеся лица, лица в очках и лысые головы, то есть они будут характеризоваться набором атрибутов. С практической точки зрения, разделение представлений этих данных позволит в процессе генерации контролировать и изменять один из этих атрибутов, например, улыбаться или не улыбаться, оставляя остальные (общую форму лица) неизменными. С концептуальной точки зрения, координаты пространства представления явно связаны с различными атрибутами. Переход от одного лица с очками к «тому же» лицу без очков соответствует переносу вектора представления лица в низкоразмерном пространстве, определяемом несколькими координатами, связанными с атрибутом «очки», свойство, имеющее некоторую аналогию с кодированием векторов Word 2 .[17]. Целью настоящей работы является предложение метода распутывания представлений, эффективного на реальных данных и поддающегося математическому анализу. Мы рассматриваем ограниченные машины Больцмана (RBM) – простую неконтролируемую генеративную модель, реализующую дуальность данных и представлений.[18]. RBM используются в качестве строительных блоков для более глубоких сетей.[2]и конкурентоспособны с более сложными моделями в различных соответствующих ситуациях[19–21]Мы выводим условия для параметров RBM, которые полностью или частично исключают из представления информацию о метках данных. Эта процедура позволяет нам сконцентрировать информацию о метках в подмножестве скрытых единиц. Манипулирование этими единицами позволяет затем генерировать высококачественные данные с заданными значениями меток. Более того, простота нашей модели позволяет нам оценить потерю логарифмического правдоподобия, возникающую из-за требования распутывания, что тесно связано с теоремой Пуанкаре о разделении.[22]. Неформально говоря, эта потеря — плата за повышение интерпретируемости машины. Наша работа организована следующим образом. Сначала мы показываем, что стандартное обучение с использованием RBM в целом создаёт запутанные представления в четырёх приложениях, выбранных за их разнообразие и интересность: (1) набор данных изображений лиц CelebA.[23]аннотированная несколькими бинарными атрибутами, (2) двумерная модель Изинга, где конфигурации аннотируются знаком их намагниченности, (3) набор данных рукописных цифр MNIST[24], где цифры, представленные на каждом изображении, являются метками, и (4) семейства последовательностей белков из базы данных Pfam[25]Аннотированные на основе их таксономического происхождения. Затем мы демонстрируем, как наш подход обучается распутанным представлениям, и демонстрируем его эффективность при применении к трём перечисленным выше распределениям данных. Особое внимание уделяется физическому смыслу неконтролируемых моделей, соответствующих случаю модели Изинга. Затем мы рассчитываем затраты, связанные с распутыванием представлений. II. ПРЕДСТАВЛЕНИЯ СЛОЖНЫХ ДАННЫХ С ПОМОЩЬЮ ОГРАНИЧЕННЫХ МАШИН БОЛЬЦМАНА, КАК ПРАВИЛО, ЗАПУТАНЫ А. Неконтролируемое обучение с использованием RBM RBM представляют собой двудольные графические модели Нвидимые переменные в={в1,в2,…,вН}и Мскрытые (или латентные) переменные час={час1,час2,…,часМ}; см. рис. 2(а). Предполагается, что как видимые, так и скрытые переменные являются бернуллиевскими, то есть принимают значения 0 или 1. Два слоя связаны через весовые коэффициенты взаимодействия. Вям. RBM определяет совместное распределение вероятностей по ви часчерез П ( в , час ) = 1 С и - И ( в , час ) , (1) где Сявляется нормализующим фактором, а энергия Идается И ( в , час ) = - ∑ я = 1 Н г я в я - ∑ м = 1 М я м час м - ∑ м = 1 М я м ( в ) час м . (2) Параметры гяи ямлокальные поля, смещающие распределение отдельных единиц, и я м ( в ) = ∑ я = 1 Н В я м в я (3) это входные данные, полученные скрытым блоком мучитывая видимую конфигурацию. ФИГ. 2. Наборы данных, рассматриваемые в статье, и запутанность представлений. (a) Набор данных CelebA с изображениями лиц[23]; двумерная модель Изинга; МНИСТ0/1база данных рукописных цифр[24]; множественные выравнивания последовательностей из семейства Pfam PF00013 домена KH. (b) Образцы, полученные с помощью различных RBM, обученных на каждом наборе данных. См. Дополнительные материалы.[26]Приложение A 6 для архитектуры RBM, использованной в каждом случае. (c) Гистограмма абсолютного значения корреляций Пирсона между входными данными скрытых единиц и выбранной меткой; см. уравнение. (5)Улыбка или неулыбка для CelebA, признак намагниченности для модели Изинга, является ли цифра 0 или 1 для МНИСТ0/1и имеет ли последовательность KH бактериальное или эукариотическое происхождение. Маргинализация состояний скрытых единиц приводит к вероятности П(в)=(1/С)∑часи-И(в,час)видимых конфигураций, которые можно подобрать к данным. Учитывая набор точек данных, Д, веса и определяющие потенциал параметры RBM изучаются посредством градиентного восхождения логарифмического правдоподобия набора данных, Л = ⟨ бревно   П ( в ) ⟩ Д , (4) где средний ⟨·⟩Дберётся по точкам данных. На практике вычисление градиента Лтребует от нас оценки моментов видимых и/или скрытых переменных относительно распределения модели[18]Регуляризация весов также может быть легко включена в этот подход. Подробную информацию о вычислении градиента и процедуре обучения, реализованной в данной работе, можно найти в дополнительных материалах.[26]Приложение А. Б. Наборы данных Мы обучаем RBM на четырех наборах данных, проиллюстрированных четырьмя столбцами на рис. 2. 1. Набор данных изображений лиц CelebA Набор данных CelebA состоит из коллекции из 202 599 цветных изображений лиц знаменитостей, каждое из которых аннотировано 40 бинарными атрибутами, включая улыбку человека, ношение очков, наличие бороды и т. д.[23]Изображения в этом наборе данных охватывают значительные вариации поз и фоновую загромождённость. Рисунок 2(а)показывает пару черно-белых версий примеров CelebA; см. Дополнительный материал[26]Дополнительные примеры см. на рис. S1, а подробности обработки см. в Приложении B к дополнительным материалам. 2. Двумерная модель Изинга Далее мы рассмотрим модель Изинга.[27]на двумерном регулярном Л×Лквадратная сетка ( Л=32или 64) с равномерным положительным взаимодействием между ближайшими соседними спинами. Значения взаимодействия, или, что эквивалентно, обратной температуры, варьируются для исследования как парамагнитных (слабые взаимодействия), так и ферромагнитных (сильные взаимодействия) режимов. Данные представляют собой конфигурации модели Изинга, полученные методом Монте-Карло и помеченные в соответствии со знаком вего намагниченности м, т. е. различия между числами +[черные точки на рис. 2(а)] и -вращения (белые точки). 3. Рукописные цифры MNIST Набор данных MNIST[24]состоит из коллекции из 70 000 изображений 28×28  пикселиКаждый из них помечен рукописной цифрой от 0 до 9, которую он представляет. 16 из них показаны на рис. 2(а). Далее мы рассмотрим в частности (1)  МНИСТ0/1, упрощенная версия MNIST, состоящая только из изображений цифр 0 и 1 с двоичными метками в=0, 1, и (2)  МНИСТ0/1/2/3, множество всех изображений цифр от 0 до 3, с метками из четырех состояний в. В дополнительных материалах[26]На рис. S6 мы также рассмотрим дополнительный пример, состоящий только из нулевых цифр на черном или белом фоне (см. раздел VI B 3). 4. База данных Pfam последовательностей семейств белков Наконец, мы рассматриваем семейства белков в базе данных последовательностей Pfam.[25]Семейство белков состоит из набора гомологичных белковых последовательностей из разных организмов, то есть имеющих общее эволюционное происхождение и общие функциональные или структурные особенности. В качестве иллюстрации см. рис. 2(а)зарисовывает некоторые последовательности КДомен гомологии (KH) обнаружен в белках, связывающих нуклеиновые кислоты. Многие семейства включают последовательности, полученные из прокариотических и эукариотических организмов, и мы используем эту классификацию в качестве обозначения. вдля последовательностей в наборе данных. C. RBM обычно изучают запутанные представления Мы обучаем RBM с 200–400 скрытыми бинарными единицами на изображениях CelebA, двумерных конфигурациях модели Изинга, МНИСТ0/1цифры и последовательности белков домена KH (см. Дополнительный материал[26]Подробности см. в Приложении A 6). Соответствует предыдущим результатам на аналогичных наборах данных.[19,20,28,29]RBM точно соответствуют данным и генерируют высококачественные образцы в четырех случаях; см. рис. 2(б). Кроме того, обучение простых классификаторов прогнозированию метки на основе скрытых входных данных моделей даёт площади под кривой. (АУК)>0,9для всех случаев; см. Дополнительный материал[26]Подробности см. в Приложении E и на рис. S4. Эти результаты демонстрируют, что RBM автоматически собирает информацию, относящуюся к интересующим меткам. Подчеркнём, что во всех случаях RBM не имеет доступа к меткам во время обучения. Мы построили график на рис. 2(с)гистограмма корреляций Пирсона между меткой и входными данными скрытого блока, р м = ⟨ в ( в ) я м ( в ) ⟩ Д - ⟨ в ( в ) ⟩ Д ⟨ я м ( в ) ⟩ Д ⟨ я м ( в ) 2 ⟩ Д - ⟨ я м ( в ) ⟩ Д 2 ⟨ в ( в ) 2 ⟩ Д - ⟨ в ( в ) ⟩ Д 2 . (5) В некоторых наборах данных (например, последовательностях KH) скрытые единицы имеют низкую корреляцию с меткой. Изменение идентичности метки сгенерированных данных требует согласованного воздействия на состояния всех этих скрытых единиц. В других случаях, таких как модель Изинга и MNIST, ряд единиц демонстрируют более высокую корреляцию с метками; см. правые хвосты распределений на рис. 2(с)Однако, поскольку информация о метках, собранная RBM, распределена между этими единицами, манипулирования несколькими наиболее коррелированными единицами недостаточно для определения метки сгенерированных данных; см. Дополнительный материал.[26]Рис. S2. Хотя точное определение обучения с использованием распутанных представлений может быть предметом споров[6,13], общепринято, что интересные особенности должны отображаться в одном или нескольких измерениях в скрытом пространстве; см. рис. 1 [1]. Как мы показали выше, стандартное обучение RBM не приводит к формированию распутанных представлений. III. ИЗУЧЕНИЕ РАСПУТАННЫХ ПРЕДСТАВЛЕНИЙ Наша стратегия распутывания и манипулирования представлениями заключается в радикальном изменении распределения корреляций между скрытыми единицами и метками [рис. 2(с)] путем наложения соответствующих ограничений на веса взаимодействия на протяжении всего процесса обучения. В идеале ограничения должны подразумевать исчезновение взаимной информации, а не корреляций. В связи со сложностью вычисления взаимной информации мы сосредоточимся на корреляциях разного порядка в скрытых входных данных, поскольку они обеспечивают хороший компромисс между вычислительной эффективностью и производительностью. Сосредоточение на входных данных яма не на скрытых переменных часмЭто обусловлено двумя причинами. Во-первых, ограничениями на весовые коэффициенты. ВямВ результате исчезающих требований к корреляциям проще интерпретировать и выполнять с вычислительной точки зрения. Во-вторых, учитывая конфигурацию данных, в, часмявляется стохастической переменной, обусловленной ям. В силу неравенства обработки данных[30], взаимная информация между метками ви входы ямверхние границы его аналога между ви часми поэтому обеспечение низкого уровня взаимной информации между метками и входными данными немедленно подразумевает, что скрытые переменные неинформативны относительно меток. При этом можно преследовать две цели. (A) Максимально точное приближение распределения данных с максимальным удалением информации об их метках. Этого можно достичь с помощью архитектуры, в которой все скрытые элементы находятся под строгими ограничениями; см. рис. 3(а)Цель A приводит к обобщенному распределению модели, в котором признаки, связанные с метками, размыты, т.е. сложно определить, присутствуют они или отсутствуют. Напротив, другие «ортогональные» признаки хорошо отражаются этой моделью RBM. (B) Максимально точное воспроизведение распределения данных с концентрацией как можно большего количества информации об их метках на одном (или нескольких) скрытых элементах. Этого можно достичь с помощью архитектуры, в которой несколько скрытых элементов остаются без ограничений и называются освобожденными, в то время как все остальные находятся под строгими ограничениями; см. рис. 3(б)Цель B определяет распределение модели, в котором признаки, связанные с метками, либо присутствуют, либо отсутствуют, как в обучающих данных. Кроме того, представления данных можно легко изменять, чтобы сместить генерацию данных, например, преобразовать одну конфигурацию в другую, в которой значение метки изменилось, а другие признаки остались прежними. ФИГ. 3. Схема модели. (a) Ограничения, наложенные на все скрытые единицы, способствуют перекрывающимся скрытым входным распределениям двух классов. (b) Ограничения, наложенные на подмножество скрытых единиц (красный), способствуют разделению классов на оставшихся скрытых единицах (синий). Для простоты мы представляем подход на примере бинарных меток. в=0, 1 (эквивалентно, в=±1). Расширение до меток с более чем двумя значениями осуществляется немедленно и обсуждается в приложениях. A. Полностью ограниченные RBM Следуя цели А, мы требуем, чтобы все входы скрытых единиц ямне коррелируют с метками вСоответствующая архитектура представлена ​​на рис. 3(а)RBM, обученная с учетом этих ограничений, определяет распределение, в котором информация о метке ухудшается, если не полностью стирается, но другие определяющие данные признаки затрагиваются в минимальной степени. 1. Линейные ограничения В простейшей формулировке этот подход учитывает только линейные корреляции входных данных. Ограничение рм=0[см. уравнение (5)] можно переписать как ∑ я = 1 Н д я ( 1 ) В я м = 0 , (6) с д я ( 1 ) = ⟨ в ( в ) в я ⟩ Д - ⟨ в ( в ) ⟩ Д ⟨ в я ⟩ Д . (7) The Н-мерный вектор д(1)параллельна линии, соединяющей центры масс облаков точек данных, связанных, соответственно, с в=0и в=1; см. рис. 4(а). Внушительный рм=0для всех м=1,…,МТаким образом, это эквивалентно поиску RBM, максимизирующего логарифм правдоподобия Лв ур. (4)при ограничениях, которые все Мвесовые векторы Вмортогональны к д(1); это можно легко сделать, спроецировав градиент Лна пространство, ортогональное к д(1)после каждого обновления весов (см. Дополнительный материал[26]Приложение А (подробности). Другими словами, RBM не видит направления д(1)разделяя облака и моделируя только статистические характеристики данных в ( Н-1)-мерное пространство, ортогональное к д(1). ФИГ. 4. Ограничения первого и второго порядка. (а) Ограничение первого порядка(6)обеспечивает, что классы имеют одинаковые средние значения во входном пространстве, устанавливая ортогональность весов к вектору, разделяющему их центры масс в пространстве данных (красный). (b) Ограничения второго порядка(9)гарантировать, что два класса имеют одинаковую ковариацию во входном пространстве. Последствия Вм⊥д(1)Можно сформулировать это в состязательном контексте. Представьте, что линейный дискриминатор пытается предсказать метки. в(в)конфигураций данных воснованный на М-мерные наборы входных данных ям(в)На практике линейный дискриминатор параметризуется Мвеса ами присваивает вероятность п(∑мамям(в))чтобы, скажем, маркировать в=1(и вероятность 1-пк в=0) данный в, где ппредставляет собой некоторую сигмоидальную функцию, заключенную между 0 и 1. Параметры амподгоняются так, чтобы максимизировать вероятность того, что дискриминатор сделает правильный прогноз. В геометрическом смысле это эквивалентно нахождению гиперплоскости (ортогональной ав Мизмерения), разделяющие классы точек данных ясвязанный с в=0и в=1с наибольшей маржой[31]. Мы показываем в Дополнительном материале[26]Приложение C показывает, что при условиях, выраженных в уравнении. (6), лучший линейный дискриминатор не может превзойти случайное угадывание меток. Другими словами, наложение ограничений(6)эквивалентно требованию, чтобы никакой состязательный линейный дискриминатор, просматривающий входные данные скрытых единиц, не был способен предсказать метки, связанные с конфигурациями. 2. Квадратичные ограничения Даже если ни один линейный дискриминатор не может восстановить метку из входных данных ямболее сложные машины, такие как глубокие нейронные сети, все еще могут предсказать метку[32]если взаимная информация между ви я=(я1,я2,…,яМ)не равен нулю. Внушительный рм=0можно рассматривать как приближение первого порядка к более сильному условию, при котором взаимная информация (МИ) между меткой и входами исчезает, МНЕ(в,я)=0. Последнее подразумевает, что не только линейные корреляции, но и все связанные моменты более высокого порядка между ви яВ частности, корреляции второго порядка С м , н = ⟨ в ( в ) я м ( в ) я н ( в ) ⟩ Д - ⟨ в ( в ) ⟩ Д ⟨ я м ( в ) я н ( в ) ⟩ Д (8) также должно исчезнуть. Установка См,н=0для всех пар м, нв ур. (8)заставляет два класса данных, прикрепленных к в=0и в=1иметь идентичные ковариационные матрицы во входном пространстве. Эти ограничения подразумевают, что ни один состязательный дискриминатор на основе ядра, где ядро ​​является квадратичной функцией входных данных, не сможет предсказать значения меток (см. Дополнительный материал).[26]Приложение C для доказательства). В более общем смысле, ограничения более высокого порядка исключают возможность для противников дискриминатора с полиномиальными ядрами более высоких степеней успешно классифицировать данные.[33](см. Дополнительный материал[26]Приложение С)). На практике, установка См,н=0равносильно наложению квадратичного ограничения на весовые векторы: ∑ я , дж = 1 Н д я , дж ( 2 ) В я м В дж н = 0 , (9) где средняя разница между матрицами ковариации двух классов данных определяется через д я , дж ( 2 ) = ⟨ в ( в ) в я в дж ⟩ Д - ⟨ в ( в ) ⟩ Д ⟨ в я в дж ⟩ Д ; (10) см. иллюстрацию на рис. 4(б). Если провести физическую аналогию, то д(2)Матрица выглядит как квадрупольный тензор, разделяющий положительные и отрицательные зарядовые распределения в электростатике, в то время как д(1)аналогичен дипольному моменту. Для реализации ограничений(9)на практике мы возводим в квадрат левую часть уравнения. (9)и добавьте его к цели оптимизации во время обучения, чтобы получить большой штрафной член; см. Дополнительный материал[26]Подробная информация представлена ​​в Приложении А. Матрица д(2)определено в уравнении. (10)оценивается на основе эмпирических данных и подвержена влиянию шума выборки. На практике из конечных наборов данных можно извлечь достоверные оценки только для основных компонентов д(2), в то время как эмпирически наблюдаемые нижние компоненты будут находиться под влиянием шума. Закон Марченко-Пастура (МП)[34]Описание спектра корреляционных матриц в случае нулевой модели независимых переменных может быть использовано для оценки порогов между собственными значениями, в которых доминирует шум, и собственными значениями, отражающими наличие структуры в данных. Спектр МП предсказывает, что все собственные значения лрасположен в диапазоне [л-;л+]должны быть отброшены, с л±=(1±р)2, где рЭто отношение количества переменных и выборок. Например, для МНИСТ0/1набор данных, мы оцениваем л+≃1.6для цифр 0 и 1. Из 784 собственных значений д(2), только 60 (61) превышают эту границу для набора данных 0 (1). Приведённое выше обсуждение предполагает замену полной матрицы д(2)с низкоранговым приближением, фокусирующимся только на верхних компонентах. Версия с низким рангом д(2)также подразумевает, что веса имеют больше степеней свободы, поскольку уравнение (9)не влияет на компоненты весов, принадлежащие ядру д(2). На практике, штрафуя квадрат нормы левой части уравнения. (9)во время обучения автоматически придаёт больше веса ограничениям, связанным с верхними компонентами д(2)и пренебрегает низшими компонентами. B. Частично ограниченные RBM Теперь рассмотрим задачу B. Наша цель — сосредоточить информацию о метках на одном из нескольких освобождённых скрытых модулей. Для этого рассмотрим архитектуру, представленную на рис. 3(б). Веса, прикрепленные к этим освобожденным скрытым единицам, не ограничены во время обучения, в то время как другие веса подчиняются линейным или квадратичным ограничениям в уравнениях. (6)и(9), как в задаче А. Неформально говоря, эта стратегия преобразует большое количество слабых корреляций между входными данными и метками, обнаруженных в стандартных представлениях RBM [рис. 2(с)] на небольшое количество крупных корреляций ( ∝М) присутствует только на выпущенных скрытых единицах. 1. Манипулирование скрытыми единицами, определяющими метки В результате значения высвобождаемых скрытых единиц существенно влияют на условное распределение видимых конфигураций и действуют как регуляторы, которыми можно манипулировать для генерации данных с желаемыми метками. Манипулирование осуществляется следующим образом: для упрощения обозначений мы предполагаем, что одна скрытая единица, например, м=1, выпущен. Стоимость этой единицы час1фиксировано (0 или 1). Затем мы производим выборку оставшихся скрытых единиц (присоединённых к ограниченным весам) и видимых единиц, используя альтернативную выборку Гиббса (см. Дополнительный материал).[26]Приложение А). Видимые конфигурации взатем распределяются в соответствии с условной вероятностью П(в|час1)и охватывают класс данных, соответствующих определенному значению метки в. Переворачивание час1к 1-час1позволяет нам изменять класс и быстро преобразовывать конфигурацию данных в наиболее близкую конфигурацию с перевернутой меткой. 2. Стоимость распутывания Ограничение всех весовых векторов (цель А) ухудшает способность RBM воспроизводить распределение данных. Потеря производительности измеряется изменением логарифмов правдоподобия тестовых данных из-за частичного стирания информации о метках. Д Л частичное стирание = Л неконструированный - Л конструкция . (11) В уравнении выше, Лконструкцияобозначает логарифмическую вероятность данных, оцененных с помощью полностью ограниченной RBM, и Лнеконструированныйсоответствует стандартной (неограниченной) модели RBM. Как мы видим в последующих приложениях, эта разница, как правило, велика. Как только один или несколько скрытых блоков будут освобождены (цель B), логарифм правдоподобия теста увеличится до Лотн. Мы определяем стоимость распутывания представлений через Д Л сказать = Л неконструированный - Л отн . (12) Эта стоимость гарантированно будет неотрицательной, если обе RBM обучены с одинаковыми гиперпараметрами, например, если они имеют одинаковое количество скрытых единиц и регуляризаций веса. IV. ПРИМЕНЕНИЕ К ИЗОБРАЖЕНИЯМ ЛИЦА А. Обучение с использованием стандартных RBM Сначала мы проиллюстрируем наш подход на базе данных CelebA с изображениями лиц знаменитостей.[23]. Поскольку для простоты мы решили работать с двоичными RBM, мы сначала преобразуем изображения в двоичные черно-белые пикселы с разрешением 64×64, следуя процедуре, аналогичной Ref. [35]и подробно изложено в Дополнительном материале[26]Приложение B. Используя аннотации, доступные в наборе данных, мы выбираем наличие/отсутствие очков и улыбку/не улыбку в качестве меток. Мы вычисляем вектор допределяется уравнением. (7)для каждой из этих двух меток. Рисунок 5(а)показаны примеры изображений, расположенные по возрастанию значения их проекции вдоль этого вектора, а также гистограммы этих проекций по набору данных для каждой метки. ФИГ. 5. Применение к набору данных CelebA. Слева: метка соответствует наличию или отсутствию очков. Справа: метка соответствует улыбке или отсутствию улыбки. (a) Выбранные изображения из данных, упорядоченные по значению их проекции вдоль вектора. допределено в уравнении. (7)Ниже представлена ​​гистограмма этих проекций, рассчитанная для всех изображений в данных. На врезке показана тепловая карта вектора д. (b) Образцы, полученные с помощью неограниченной RBM, и гистограмма их проекций на вектор д. (c) Образцы, сгенерированные RBM, все скрытые единицы которой подчиняются ограничению в уравнении. (6)(пунктирная красная). Гистограмма (красная) проекций на дконцентрируется на промежуточных значениях. (d) Образцы, сгенерированные RBM, обученной в условиях ограничений(6)действующие на все, кроме одного выпущенного скрытого блока (пунктирная синяя линия) и гистограмма проекций вдоль д(синий). Подробную информацию об архитектуре и обучении RBM можно найти в дополнительных материалах.[26]Приложение А 6. Далее мы обучаем стандартную RBM на этом наборе данных. Следуя ссылке. [35]мы используем 5000 скрытых единиц (Дополнительный материал[26]Приложение B). После обучения мы генерируем 10 000 выборок, начиная со случайных двоичных конфигураций и выполняя выборку Гиббса в течение 5000 итераций. Некоторые конфигурации выборок показаны на рис. 5(б), а также гистограмма проекций по направлению д. Образцы разнообразны и охватывают различные классы, присутствующие в наборе данных, т. е. улыбающиеся и не улыбающиеся, носящие и не носящие очки, что указывает на то, что RBM является адекватной генеративной моделью для этого набора данных. B. Частичное стирание информации с помощью полностью ограниченной RBM Далее мы рассмотрим RBM с той же архитектурой и с ограничениями(6)Действуя на все скрытые единицы. Рисунок 5(с)показывает образцы из такой RBM (пунктирная красная линия). Эти образцы представляют собой узнаваемые лица, похожие на данные; следовательно, модель является генеративной. В проекции на д, они концентрируются на промежуточных значениях и, по-видимому, неоднозначны в отношении признака, связанного с этикеткой: глаза кажутся закрытыми или затемнёнными в случае с очками, а рот кажется слегка приоткрытым, но не полностью улыбающимся во втором случае. Эти результаты наглядно иллюстрируют влияние цели А. C. Манипулирование представлениями и атрибутами лица с помощью частично ограниченной RBM Теперь мы обучаем RBM с ограничениями(6)действующий на все, кроме одной скрытой единицы, скажем, час*. Веса, прикреплённые к этому блоку, коррелируют с вектором д(1)показано на рис. 5(а)(вставка). Модель является генеративной; репрезентативные выборки показаны на рис. 5(с), нижняя панель. Проекция этих образцов вдоль дНаправление бимодальное, с двумя пиками, соответствующими двум значениям освобожденной скрытой единицы час*. Проверка образцов показывает, что часкоррелирует с признаком, как показано ниже, в полном соответствии с целью B. Ценность часМожно манипулировать процессом выборки, чтобы сместить цепь Маркова в сторону того или иного класса. Это показано на рис. 6, где начальная выборка данных выбирается через эту модель, и значение часпереворачивается в середине цепочки выборки. В результате изображения лиц смещаются к ожидаемому значению метки. Переход плавный: сразу после переворота часбольшинство черт лица по-прежнему сохраняются, в то время как та, которая связана с меткой, изменяется (эффект морфинга). ФИГ. 6. Переходы между помеченными классами в наборе данных CelebA. RBM обучаются с учетом линейного ограничения, действующего на все, кроме первого скрытого блока, обозначенного час⋆. Образцы генерируются на основе замороженного значения час⋆, которая перевернута в центре цепи Маркова (обозначена пунктирными синими линиями). (a) Метка соответствует атрибуту «очки» CelebA. Образцы собираются каждые три итерации Гиббса. (b) Метка соответствует атрибуту «улыбка» CelebA. Образцы собираются каждые пять итераций Гиббса. V. ПРИЛОЖЕНИЕ К ДВУМЕРНОЙ МОДЕЛИ ИЗИНГА Двумерная модель Изинга определяется следующей энергетической функцией Н=Л2конфигурации спина в=(в1,в2,…,вН), И ( в ) = - ∑ ( я , дж ) в я в дж , (13) где сумма пробегает по парам (я,дж)ближайших соседей на двумерной квадратной сетке с Л×Лсайтов. Каждое вращение вяможет взять ±1Значения. Мы выбираем периодические граничные условия: точка (1,1) взаимодействует с точками (1,2), (2,1), (Л,1), и (1,Л). Модель присваивает вероятности, заданные законом Больцмана. ПИзинг(в)∝и-бИ(в)к конфигурациям в, где б— обратная температура; далее мы обозначаем среднее значение по Пк ⟨·⟩. В бесконечном- Лпределе, модель претерпевает фазовый переход из парамагнитной фазы ( б<бс) в котором намагниченность м = ⟨ | 1 Н ∑ я в я | ⟩ (14) исчезает, переходит в ферромагнитную фазу ( б>бс) в котором м>0 [27]. Переход происходит при критической обратной температуре. бс≈0,44точно вычислено Онзагером[36]; см. рис. 7. ФИГ. 7. Изучение RBM на основе данных двумерной модели Изинга. (a) Намагниченность и теплоёмкость как функции температуры для образцов, полученных с помощью модели Изинга.(13)(b) Намагниченность и теплоёмкость образцов, полученных с помощью RBM, обученной на данных Изинга. (c) Намагниченность и теплоёмкость образцов, полученных с помощью RBM с ограничением(6)Действуя на все скрытые единицы. (d) Намагниченность и теплоемкость образцов, полученных с помощью RBM с квадратичным ограничением(9)Действуя на все скрытые единицы. (c) Намагниченность и теплоемкость образцов, полученных с помощью RBM с линейными ограничениями(6)действующие на все скрытые единицы, кроме одной. (f) Максимальная AUC классификаторов, обученных предсказывать знак намагниченности образца на основе входных данных RBM. (g),(h) Типичные веса, усвоенные RBM при выбранных температурах ( 1/Т=0,35, 0,4, 0,46, 0,5) для неограниченной RBM и для RBM с ограничением первого порядка. (i) Свободные веса, прикрепленные к освобожденному скрытому блоку, по сравнению с 4браз больше намагниченности модели Изинга. А. Выборка модели Изинга в равновесии Мы начинаем с генерации до 106образцы из модели Изинга с помощью моделирования Монте-Карло (МК) при различных обратных температурах в диапазоне 0,35≤б≤0,5Для быстрого достижения равновесия при любых температурах цепочка MC включает как локальные обновления Metropolis, так и глобальные перемещения кластера Вольфа, которые, как известно, эффективны для выборки модели вблизи бс [37]; подробности о реализации можно найти в дополнительных материалах.[26]Приложение А. Намагничивание Ми теплоемкость С = б 2 Н ( ⟨ И 2 ⟩ - ⟨ И ⟩ 2 ) (15) показаны как функции обратной температуры на рис. 7(а)для двух размеров системы Л=32и Л=64. Дополнительные наблюдаемые параметры, такие как восприимчивость х = б Н [ ⟨ ( ∑ я в я ) 2 ⟩ - ⟨ | ∑ я в я | ⟩ 2 ] (16) и длина корреляции указаны в дополнительных материалах.[26]Рис. S3. Пик теплоёмкости (и восприимчивости) сигнализирует о переходе между двумя фазами, когда бприближается к бс, со сдвигом, который исчезает с увеличением Лкак и предсказывает теория конечных размерных эффектов. B. Обучение с использованием стандартной RBM Затем мы используем образцы MC в качестве обучающих данных для неограниченной RBM, при этом видимые единицы принимают ±1Для обеспечения глобальной симметрии знаков энергии, т.е. И(-в)=И(в)[см. уравнение (13)], мы выбираем скрытые единицы часм=±1(вместо 0,1, как в случае MNIST) и исчезающие смещения на обоих видимых ( гя=0) и скрытые ( ям=0) единиц. Таким образом, этап обучения заключается в определении весов RBM Вямтолько. Мы проверяем, что логарифм правдоподобия бревно П(в)тестовых данных MC, оцененных с помощью обученной RBM, коррелируют с энергией Изинга И(в)(Дополнительный материал[26]Рис. S7). Веса, изученные RBM, демонстрируют закономерности локализации (см. рис. 7(г)] при низких температурах, в соответствии с наблюдениями, опубликованными в предыдущих работах по одномерной модели Изинга[29]. Мы создаем образцы из этих RBM, изученных в разных бИспользуя альтернативную выборку Гиббса, можно оценить намагниченность, теплоёмкость и восприимчивость. Результаты согласуются с теми же величинами, рассчитанными по выборкам распределения модели Изинга; см. рис. 7(б)Это наблюдение согласуется с данными литературы.[28,38,39], где было показано, что RBM способны точно соответствовать моделям статистической физики, таким как модель Изинга. C. Частичное стирание информации с помощью полностью ограниченной RBM В дальнейшем мы выбираем, что метка в=±1связанный с конфигурацией спинов вявляется знаком его намагниченности, в ( в ) = знак ( ∑ я в я ) . (17) 1. Линейные ограничения По симметрии вектор д(1)в ур. (6)имеет однородные компоненты дя(1)=д(1)из-за трансляционной инвариантности решетки, возникающей из-за периодических граничных условий. Наложение линейного ограничения в уравнении (6)Таким образом, это равносильно требованию, чтобы все весовые векторы в сумме давали ноль, т.е. ∑яВям=0для м=1,…,М. Затем мы обучаем RBM на данных MC с этими ограничениями. Логарифмические правдоподобия тестовых конфигураций Изинга плохо коррелируют с энергиями модели Изинга в уравнении (1). (13); см. Дополнительный материал[26]Рис. S8. Кроме того, образцы, полученные методом RBM, не демонстрируют намагниченность при любой обратной температуре, даже при б>бс; см. рис. 7(с). Удивительно, однако, что другие наблюдаемые параметры, такие как теплоемкость [рис. 7(с)] или восприимчивость (Дополнительный материал[26]На рис. S3) наблюдается пик при температуре, обратной температуре кроссовера. Мы заключаем, что спиновые конфигурации, генерируемые с помощью ограниченной RBM, с нулевым первым моментом, но при этом со значительной частью корреляций более высокого порядка, по-прежнему корректно фиксируются и воспроизводятся. Мы вернемся к интерпретации эффективной энергии, соответствующей этой полностью ограниченной RBM, в разделе. В Е. 2. Квадратичные ограничения Далее мы применяем ограничения второго порядка.(9)ко всем весовым векторам RBM. Ввиду глобальной инвариантности энергии Изинга относительно переворота спина, д(2)=0соблюдая определение(10). Однако симметрия реверса снимается в присутствии произвольного малого однородного внешнего поля. Д, то есть, И(в)→И(в)-Д∑явя. Мы показываем в дополнительных материалах.[26]Приложение G, которое, в первую очередь, Д, д(2)≃12ДВ(2)с В я , дж ( 2 ) = ⟨ | ∑ к в к | в я в дж ⟩ Д - ⟨ | ∑ к в к | ⟩ Д ⟨ в я в дж ⟩ Д . (18) Тензор В(2)можно оценить численно и использовать для ограничения весовых векторов с помощью уравнения. (9). RBM, обученные в условиях этих квадратичных ограничений, генерируют конфигурации спинов с нулевой намагниченностью, как и в случае линейных ограничений; см. рис. 7(е)Примечательно, что удельная теплоемкость и восприимчивость не показывают пика, как бварьируется, что свидетельствует о том, что квадратичные ограничения на вес оказывают гораздо более сильное влияние на распределение спиновых конфигураций. Теплоёмкость, в частности, имеет тенденцию к умеренному монотонному росту с ростом б, достигая значений, близких к исходной модели, при низких и высоких температурах. Однако вывод знака намагниченности из скрытого представления всё ещё возможен, хотя и со снижением качества. Для каждой обратной температуры мы обучаем классификаторы различной сложности и измеряем их эффективность в прогнозировании меток. Полученные значения AUC показаны на рис. 7(ф)и находятся выше уровня вероятности (0,5) при высоком бЭто указывает на то, что корреляции более высокого порядка, предположительно, присутствуют во входных данных RBM с полными ограничениями (таких как кумулянт Биндера[40]) можно использовать для предсказания меток с некоторым успехом; мы сталкиваемся с подобной ситуацией в МНИСТ0/1случай. D. Манипулирование представлениями и конфигурациями спинов с помощью частично ограниченной RBM Теперь мы применяем ограничение(6)на всех скрытых блоках, кроме одного, при обучении RBM на данных Изинга. Освобожденный скрытый блок, далее именуемый час*, узнает вектор веса, который приблизительно пропорционален д(1); то есть, веса, соединяющиеся с часявляются однородными по видимому слою, с общим значением, далее называемым В. Результирующая RBM имеет один скрытый блок, который контролирует знак намагниченности сгенерированных образцов, в то время как остальные скрытые блоки фиксируют локальные коррелированные паттерны соседних спинов. Действительно, ограниченные веса демонстрируют локализованные паттерны, аналогичные паттернам неограниченной RBM [рис. 7(е)]. Кроме того, RBM воспроизводит поведение всех наблюдаемых величин при изменении обратной температуры [рис. 7(е)и дополнительные материалы[26]Рис. S3]. Эти результаты убедительно свидетельствуют о том, что ограничения на вектор веса (все, кроме одного), применяемые во время обучения, не влияют на способность подгонять данные, а служат лишь для реорганизации скрытых представлений. В дополнение к уравнению. (6), мы также можем наложить ограничения(9)по всем, кроме одного скрытого блока, с результатами, аналогичными указанным (не показано). E. Эффективная энергия, получаемая в результате ограничений Эвристический аргумент позволяет нам лучше понять природу распределения, выраженного полностью ограниченной RBM (линейный случай), в частности, почему сгенерированные конфигурации имеют нулевую намагниченность, кодируя нетривиальные спин-спиновые корреляции [рис. 7(с)]. Сначала отметим, что общее выражение для логарифмической вероятности видимой конфигурации вв показаниях RBM, из-за отсутствия смещений в единицах, бревно   П УКР ( в ) = ∑ м = 1 М бревно   дубинка ( ∑ я В я м в я ) , (19) С точностью до нерелевантной аддитивной константы. Эта формула применима, в частности, к выпущенной RBM-модели раздела. В Д, в котором все, кроме одного скрытого блока, скажем, м=1, ограничены для удовлетворения уравнения. (6)Основываясь на наших предыдущих выводах, что Вя,1≃В*, мы получаем бревно   П отн ( в ) ≃ ∑ м = 2 М бревно   дубинка ( ∑ я В я м в я ) + В * | ∑ я в я | , (20) где мы приближаемся бревно дубинка х≃|х|для больших аргументов хи снова пренебрегаем аддитивными константами. На основании уравнения. (20), мы можем действовать в два этапа. Во-первых, поскольку мы эмпирически обнаружили, что полученное RBM является хорошим приближением к истинному распределению Изинга, мы аппроксимируем бревно Потнс бревно ПИзинг. Во-вторых, первый член в правой части уравнения. (20)выражает логарифм вероятности ввычисляется с помощью RBM с весовыми векторами, ограниченными ортогональностью д(1)и, таким образом, может быть отождествлен с бревно Пконструкция. Мы заключаем, используя уравнение. (13), что эффективная функция энергии для спиновой конфигурации, закодированной полностью ограниченной RBM, приблизительно равна И конструкция ( в ) ≃ - ∑ ( я дж ) в я в дж + В * б | ∑ я в я | . (21) Эффект ограничений на вес заключается в том, чтобы ввести Л1-подобный штраф против намагниченных конфигураций, противодействующий энергии Изинга, которая стремится выровнять спины. Это объясняет как исчезновение намагниченности, так и остаточные корреляции, наблюдаемые на рис. 7(с). Мы также можем оценить стоимость ВВыбранная на основе изучения полностью ограниченной модели RBM с эвристическим обоснованием. Рассмотрим типичную конфигурацию модели Изинга при низкой температуре, то есть в ферромагнитном режиме, соответствующем намагниченности. м≠0. Эффективное поле, действующее на спин, скажем, я, читается, согласно ур. (21), г я эфф = ∑ дж ∈ Н я в дж - В * б знак   ( м * ) , (22) где Няотносится к окрестности спина яна квадратной сетке. Взяв среднее значение по спину я, получаем среднее значение эффективного поля ⟨ г эфф ⟩ = С м * - В * б знак   ( м * ) , (23) где С=4– координационное число на сетке. Мы заключаем, что эффективное поле исчезает, когда В * = б С | м * | . (24) Вышеприведенное выражение дает минимальную прочность Л1Штраф, способный компенсировать локальные взаимодействия, стремящиеся намагничивать спины. Ожидается, что он исчезнет в парамагнитном режиме. Более высокие значения нежелательны на этапе обучения RBM, поскольку они приведут к более высоким энергиям. Иконструкцияв ур. (21)к типичным намагниченным конфигурациям Изинга и, следовательно, к более низким вероятностям. Мы сравниваем эвристическую оценку для Вобеспечивается уравнением. (24)к численным результатам для Вполучено в результате обучения частично ограниченной RBM на двумерных данных Изинга на рис. 7(и)Несмотря на наличие эффектов конечного размера, мы наблюдаем хорошее согласие между уравнением. (24)и результаты моделирования. VI. ПРИМЕНЕНИЕ К ИЗОБРАЖЕНИЯМ РУКОПИСНЫХ ЦИФР MNIST Далее мы рассмотрим набор данных рукописных цифр MNIST.[24]Интенсивность пикселей бинаризуется с помощью порогового значения 0,5. Для простоты начнём с подмножества изображений, содержащих только цифры 0 и 1 ( МНИСТ0/1), для которого метка класса вявляется двоичным. А. Обучение с использованием стандартной RBM Мы обучаем стандартный RBM на МНИСТ0/1, с М=400двоичные скрытые единицы и Н=28×28видимых единиц, посредством максимизации логарифмического правдоподобия(4)(см. Дополнительный материал[26]Приложение А 6 (для получения более подробной информации). Рисунок 8(а)Показаны цепи Маркова выборок, полученные в результате гиббсовской выборки полученных моделей. Машина генерирует строки нулей или единиц, в зависимости от начальных условий, с очень редкими переходами между этими классами. Обратите внимание, что отсутствие переходов от 0 к 1 (или наоборот), вероятно, связано с сильными различиями между этими двумя цифрами в конфигурационном пространстве и отсутствием низкоэнергетических конфигураций, соединяющих их; обучение RBM на всех цифрах, как правило, связывает эти две моды и увеличивает частоту наблюдаемых переходов. ФИГ. 8. Манипулирование представлениями RBM, обученными на МНИСТ0/1(a) Образцы, сгенерированные RBM, инициализированной изображением данных (0 или 1). Две верхние строки показывают стандартную (неограниченную) RBM. Две нижние строки показывают образцы RBM, обученные с линейными (красный пунктир) и квадратичными (зелёный пунктир) ограничениями. В обоих случаях цепь Маркова генерируется с помощью выборки Гиббса (начиная с 0 или 1), и изображения сохраняются каждые 64 шага, пока не будет достигнуто общее количество образцов – 16, как показано на рисунке. (b) Нижняя граница Сэтикетка+Лсортк взаимной информации между входами и метками [см. уравнение. (25)] от ширины классификатора. Границы MI измеряются в битах и ​​показаны прерывистыми линиями. Цвета соответствуют различным моделям RBM. Черный: стандартная и без ограничений. Красный: полностью ограниченная линейными ограничениями; см. уравнение. (6). Зеленый: полностью ограничен квадратичными ограничениями; см. уравнение. (9)(c) Образцы из RBM, обученные с ограничением первого порядка, действующим на все скрытые элементы, кроме одного, который переворачивается в середине цепочки MC (синяя стрелка). Начиная с нулевого разряда данных, образцы сохраняются каждые 64 шага Гиббса. Верхняя панель показывает увеличенное изображение перехода, а изображения отображаются каждые три шага. Нижние панели показывают логарифм ненормализованной вероятности. пер П˜(в)=пер(∑часи-И(в,час))сгенерированных цифр ограниченными RBM, оцененных на RBM, обученных только на нулях (RBM0) или единицах (RBM1). Фиолетовая и оранжевая пунктирные линии соответствуют среднему значению перП˜(в)цифр данных 0 и 1. Чтобы количественно оценить информационное содержание входных данных о метках (цифровое значение), мы оцениваем взаимную информацию МНЕ(в,я(в))Хотя вычисление MI очень сложно, можно получить приемлемую нижнюю границу с помощью вариационного неравенства Гиббса.[30], МНЕ ( в , я ( в ) ) ≥ ∑ в , в П Д ( в , в ) пер   ( П сорт ( в | я ( в ) ) П Д ( в ) ) = С этикетка + Л сорт , (25) где ПД(в,в)является эмпирическим распределением маркированных данных, и Псорт(в|я(в))— это любое условное распределение, реализуемое здесь классификатором, пытающимся предсказать метку. Перестановка членов позволяет получить энтропию меток в данных ( Сэтикетка) плюс логарифм правдоподобия классификатора, усредненного по удерживаемым данным ( Лсорт). Эта нижняя граница ИМ показана на рис. 8(б)(черные полосы) для классификаторов возрастающей сложности, соответствующих двухслойным сетям со скрытым слоем возрастающей ширины (горизонтальная ось на рисунке); см. Дополнительный материал[26]Приложение E содержит подробную информацию об архитектуре и обучении этих классификаторов. Простейшая сеть — это линейный классификатор (персептрон, ширина=0), и уже достигает практически идеальной точности предсказания. Кроме того, веса этого оптимального линейного классификатора распределены по всем скрытым элементам, что свидетельствует о том, что информация о метке распределена по всему скрытому представлению. По мере увеличения ширины классификатора нижняя граница MI достигает значения, близкого к 1 биту, максимально возможного для двух классов меток, что указывает на то, что входы RBM содержат максимальную информацию о метках. Подчеркнём, что RBM не имеет прямого доступа к значениям меток во время обучения. B. Частичное стирание информации с помощью полностью ограниченной RBM Затем мы обучаем RBM с ограничением, применяемым к весовым векторам, прикрепленным ко всем скрытым единицам. 1. Линейные ограничения Фигура 8(а)(внизу, красный) показывает типичные конфигурации, созданные RBM, обученной с ограничениями(6). Как и ожидалось, эти конфигурации, как правило, представляют собой размытые смеси нулей и единиц. Простой линейный дискриминатор, просматривающий входы скрытых единиц, не способен предсказать метки этих цифр, что согласуется с состязательной интерпретацией уравнения. (6). Однако информация о классе цифр по-прежнему присутствует в RBM-представлениях посредством корреляций более высокого порядка. Достаточно сложные классификаторы способны восстанавливать метку цифр данных с максимальной точностью [рис. 8(б)] и дают нижние границы для MI, близкие к единице. Этот результат показывает, что, хотя условие(6)недостаточно просто стереть информацию о метке из представления, извлеченного RBM, это лишь затрудняет извлечение этой информации. 2. Квадратичные ограничения Наложение более сильных квадратичных ограничений в ур. (9)приводит к образцу худшего качества; см. зеленый ряд на рис. 8(а), внизу. Рисунок 8(б)показывает, что простые обученные классификаторы не способны предсказывать метки на основе входных данных. Интересно, что более сложные классификаторы достигают умеренной ненулевой точности прогнозирования, но дают существенно более низкие оценки взаимной информации, чем при обучении на RBM с линейными ограничениями (сравните зелёные и красные столбцы). Нижние границы MI, по-видимому, достигают значения значительно ниже 1 по мере увеличения ширины классификатора. Эти результаты указывают на то, что квадратичные ограничения стирают значительную часть информации о метках. 3. О генеративной мощности полностью ограниченной RBM Конфигурации, выбранные из полностью ограниченных RBM на рис. 8(а)(внизу) обычно представляют собой размытые смеси цифр (0 и 1). В данном случае данные фактически представляют собой смесь двух сильно разнесённых распределений, связанных с 0 и 1. Это напоминает конфигурации противоположной намагниченности в модели Изинга при низкой температуре в разделе. В Д, а выбранные размытые цифры аналогичны «промежуточным» конфигурациям нулевой намагниченности, которые полностью ограниченные образцы RBM в этом случае [рис. 7(с)верх] Однако мы видим, что в модели Изинга конфигурации, выбранные из полностью ограниченной RBM, по-прежнему несут важную информацию в статистиках более высокого порядка, например, как показано на примере поведения теплоемкости; см. рис. 7(с)нижний. Чтобы проиллюстрировать, насколько полно ограниченная RBM может генерировать выборки с содержательной информацией, представленной в статистике высшего порядка, на примере изображений рукописных цифр, рассмотрим следующий простой численный эксперимент. Для каждой цифры 0 из MNIST мы создаём дополнительное изображение, на котором цвета пикселей инвертированы (получаются чёрные нули на белом фоне), и определяем двоичную метку, кодирующую цвет фона. Затем мы обучаем полностью ограниченную RBM на этих данных. Сгенерированные выборки представлены в разделе «Дополнительные материалы».[26]Рис. S6. Полностью ограниченная RBM генерирует распознаваемые нулевые цифры, вкрапленные в шумный фон, где локальные участки штрихов цифр явно имеют тенденцию иметь одинаковый цвет, что указывает на сохранение общей структуры цифры благодаря корреляциям. C. Манипулирование представлениями и цифрами с помощью частично ограниченной RBM Теперь мы накладываем линейные ограничения(6)ко всем скрытым единицам, кроме одной (синей). Как указано в задаче B, наша цель — способствовать концентрации информации на этикетке этой высвобождаемой единицы; см. рис. 3(б)После обучения высвобождаемый вектор веса подобен (с точностью до глобального масштабного коэффициента) вектору д(1)(Дополнительный материал[26]Рис. S5), направление, запрещённое для других скрытых единиц. Следовательно, среднее значение единицы, обусловленное видимой конфигурацией (цифрой), является отличным предиктором соответствующей метки. Образцы, генерируемые RBM, представляют собой красивые нули или единицы, соответствующие состоянию освобождённого скрытого блока. Более того, манипулирование состоянием этого скрытого блока, то есть замораживание его до 0 или 1, помогает генерировать образцы с желаемыми метками. Мы показываем это на рис. 8(г)Численные эксперименты, иллюстрирующие эффекты таких манипуляций. Мы инициализируем RBM цифрой [0 на рис. 8(г)] извлечено из МНИСТ0/1Набор данных и выборка новых конфигураций с помощью альтернативных выборок Гиббса. Как и в стандартной RBM, выборки меняются со временем, но класс цифр остаётся неизменным. Затем мы меняем состояние скрытого блока [средняя часть рис. 8(г)]. В результате результирующая видимая конфигурация сходится к другому классу цифр после некоторого короткого переходного процесса (см. верхнюю часть панели). Чтобы оценить качество сгенерированных цифр, мы обучаем две RBM только на нулях или единицах соответственно и оцениваем логарифмические правдоподобия сгенерированных цифр на двух стандартных RBM: одна обучена только на нулях, а другая — только на единицах. Эти две машины дают ожидаемые референтные значения для нулей и единиц. Рисунок 8(е)показывает, что сгенерированные цифры имеют хорошее качество, а значения логарифмического правдоподобия сопоставимы со значениями данных. D. Случай более двух цифр Хотя до сих пор мы рассматривали случай бинарных меток, наш подход можно легко адаптировать к более чем двум классам. Мы рассмотрим случай Дклассы и используем прямое кодирование для меток; т.е. мы вводим Дэтикетки вд, по одному для каждого класса д=0,1,…,Д-1. Благодаря предписанию прямого кодирования каждая конфигурация данных втакова, что Д-1этикетки вд(в)исчезают, а единица равна 1. Аналогично ур. (6), мы определяем Двекторы (в Н-мерное пространство данных) д д ( 1 ) = ⟨ в д ( в ) в ⟩ Д - ⟨ в д ( в ) ⟩ Д ⟨ в ⟩ Д . (26) Затем мы обобщаем уравнение. (6)к нескольким классам, устанавливая, что весовые векторы должны быть ортогональны всем дд(1), с д=1,…,Д. Легко проверить, что Двекторы в уравнении. (26)В сумме получается ноль, что является следствием схемы прямого кодирования. Поэтому мы рассматриваем только последний Д-1векторы с индексами д=1,2,…,Д-1для получения линейно независимых ограничений, действующих на веса. На практике ограничения Вм⊥дд(1)реализуются посредством архитектуры, показанной на рис. 9(а)в котором набор Д-1скрытые единицы часдвыпускаются, каждый в отношении одного дд(1)и ограничены ортогональностью ко всем остальным Д-1векторов. Таким образом, при активации одного из этих скрытых модулей, скажем, м, соответствующая цифра д=мОжидается, что выборка будет производиться на видимом слое. Когда все первые Д-1скрытые единицы молчат, цифра д=0ожидается отбор проб. ФИГ. 9. Манипулирование представлениями RBM, обученной на МНИСТ0/1/2/3. (a) Эскиз ограничений, применяемых к весам скрытых единиц в случае множественных классов, здесь, Д=4. (б) Векторы дд(1)для классов цифр 0, 1, 2 и 3; см. уравнение. (26). (c) Входные данные, полученные тремя освобожденными скрытыми устройствами [синего цвета на панели (a)], когда представлены 6000-значные изображения в классах 0, 1, 2 и 3 ( хНа четвертой, нижней панели показаны входные данные, полученные случайным скрытым блоком из ограниченной группы (черный). (d) Веса Вямизучено выпущенными скрытыми единицами м=1, 2, 3. (e) Образцы, полученные этой машиной методом Гиббса (показанные изображения получены каждые 64 шага). Первый (верхний ряд) освобождённый модуль 1 активен, в то время как два других неактивны. Затем мы активируем модуль 2 (второй ряд), одновременно деактивируя модуль 1 (синяя стрелка), и аналогично для модуля 3 (третий ряд). В последнем ряду все три модуля неактивны. Мы иллюстрируем этот подход на примере Д=4цифр, с RBM, обученными с помощью МНИСТ0/1/2/3. Векторы дд(1)в ур. (26)показаны на рис. 9(б)После обучения RBM в условиях ограничений ортогональности, освобожденные скрытые единицы м=1, 2, 3 сильно активируются, соответственно, цифрами д=1, 2, 3. На рис. 9(с), мы показываем средние входные данные для этих скрытых единиц, когда цифры данных представлены на видимом слое RBM; соответствующие векторы веса изображены на рис. 9(г). При наличии цифры 0 на видимом слое три скрытых блока не активируются. Другие скрытые блоки слабо активируются другими цифрами и фиксируют информацию (небольшие растяжения, локальный контраст), критически важную для создания высококачественных цифр, но не связанную напрямую с их идентичностью; см. панель «Другое» на рис. 9(с). Затем мы манипулируем этими блоками, чтобы сгенерировать цифры одного из четырёх классов. Результат показан на рис. 9(е), где цепь Маркова инициализируется единичной цифрой из данных MNIST, а первый освобожденный скрытый блок ( м=1) включен, в то время как другие два ( м=2, 3) выключены. В этом состоянии выборка RBM генерирует строку единиц, как показано на рисунке. Выключение этого устройства и включение второго м=2теперь производит переход в видимом слое и генерирует цифры 2. Повторяя эту процедуру, мы генерируем 3 и, наконец, 0, отключая все освобожденные скрытые единицы [последняя строка на рис. 9(е)]. VII. ПРИЛОЖЕНИЕ К БЕЛКОВЫМ ПОСЛЕДОВАТЕЛЬНОСТЯМ С ТАКСОНОМИЧЕСКИМИ АННОТАЦИЯМИ Семейство белков – это группа белков, имеющих общее эволюционное происхождение, что отражается в их связанных функциях и сходстве последовательностей или структур.[25]Семейства белков часто организованы в иерархии, где белки, имеющие общего предка, подразделяются на более мелкие, более тесно связанные группы. В последние годы RBM успешно применяются для извлечения структурной, функциональной и эволюционной информации из последовательностей, связанных с семейством белков.[19,20,41]Наша цель здесь — использовать частично ограниченную RBM для выделения метки, определяющей таксономический домен (эукариоты или бактерии), к которому принадлежит последовательность белка, и манипулировать скрытой единицей, определяющей домен, для управления непрерывным переходом, или морфингом, между одним таксономическим доменом в другой во время выборки искусственных последовательностей. А.К-гомологический домен Для иллюстрации применения нашей модели мы выбрали модуль KH, распространённый мотив связывания нуклеиновых кислот в белках различных видов, как эукариотических, так и прокариотических. Структурно домены KH имеют глобулярную структуру, состоящую из трёх альфа-спиралей и трёх бета-слоёв.[42–44], как показано на рис. 10(а). Центральной особенностью домена KH является наличие характерного мотива Iso-Gly-XX-Gly [см. рис. 10(а)и10(б)] сохраняется во всем семействе, который в сотрудничестве с фланговыми спиралями образует щель, где происходит распознавание четырех нуклеотидов в одноцепочечной ДНК или цепях рибонуклеиновых кислот[44]Мутации в этих высококонсервативных остатках приводят к потере функции.[45]В частности, замена умеренно консервативного изолейцина после петли Gly-Gly (через два участка) на Asn в локусе домена KH гена умственной отсталости ломкой Х-хромосомы у людей вызывает синдром ломкой Х-хромосомы, ведущую наследственную причину умственной отсталости.[46]. ФИГ. 10. Таксономия семейств белков. (a) Логотипы последовательностей эукариотических (фиолетовый, вверху) и бактериальных (оранжевый, внизу) белков семейства PF00013. Мы используем следующую цветовую кодировку: зелёный для полярных остатков, синий для основных, красный для кислых и оранжевый для гидрофобных. Пробелы показаны чёрным. (b) Ленточная структура домена KH, показывающая расположение петли Gly-Gly и фланкирующих спиралей. Изображение получено с помощью Mol* Viewer.47 Логотипы последовательностей 100 000 сгенерированных последовательностей, когда освобожденный скрытый элемент установлен в 1 (вверху) или 0 (внизу). Чтобы гарантировать сбалансированность выборки, мы отслеживаем среднее значение и стандартное отклонение энергии выборок во времени и видим, что эти статистические данные практически постоянны примерно через 200 шагов, что позволяет предположить, что выборки можно собирать каждые 5000 шагов. (d) Веса освобожденного скрытого элемента. (e) Входные данные, полученные освобожденным скрытым элементом при предъявлении последовательностей из двух классов. (f) Цепь Маркова, начинающаяся с бактериальных (оранжевый) или эукариотических (фиолетовый) последовательностей из данных. На панели показана вероятность того, что последовательность является эукариотической или бактериальной, в классификаторе персептрона. Прерывистые линии представляют собой среднее значение для последовательностей данных каждого класса. Всего выполняется 1024 шага выборки Гиббса, и переворот часпроисходит на шаге 512 (синяя стрелка). (g) Увеличенный вид вблизи перехода, показывающий также логарифм ненормализованного маргинала [ бревно П˜УКР(в)] выборочных последовательностей (правая ось), оцененных на RBM, обученной на всем семействе. Мы выбрали это семейство в нашей работе, поскольку оно имеет достаточное количество эукариотических и бактериальных последовательностей, доступных в базе данных Pfam.[25]Семейство гомологичных последовательностей PF00013 включает около 11 000 бактериальных и около 38 000 эукариотических последовательностей домена KH. После выравнивания, удаления вставок и сохранения только столбцов с содержанием пробелов (делеций) менее 50% последовательности имеют общую длину Л=62Аминокислоты. Таксономическое происхождение каждой последовательности можно легко узнать через базу данных Uniprot.[48], мы определяем метку в=0и 1 для бактериальных и эукариотических белков соответственно. Чтобы уменьшить влияние общего происхождения, последовательности взвешиваются в соответствии с их отличием от других членов того же семейства.[49,50]: Вес, присваиваемый последовательности, обратно пропорционален количеству последовательностей в семействе с расстоянием Хэмминга менее 20% от длины последовательности. Мы также уравновешиваем общий вес эукариотических и бактериальных классов, чтобы оба класса имели равные веса. Фигура 10(а)Показаны логотипы последовательностей эукариотических (вверху) и бактериальных (внизу) генов этого семейства после выполнения описанных выше этапов предварительной обработки. Некоторые особенности являются общими для последовательностей доменов KH обоих подсемейств, например, хорошо консервативная петля Gly–Gly [рис. 10(б)]. Бактериальные последовательности имеют в целом большее содержание пробелов (делеций) относительно консенсусного выравнивания, что отражает различия в длине последовательностей в двух подсемействах. B. Изучение генеративной модели с помощью стандартной RBM Множественные выравнивания последовательностей представлены с помощью категориальных переменных или переменных Поттса, при этом каждый участок выравнивания имеет одно из 21 возможных значений (20 аминокислот и одно значение пробела). Пробелы необходимы для моделирования последовательностей различной длины.[49]. Используя прямое кодирование, конфигурация ввидимого слоя кодирует последовательность 21×Лединиц, где Лдлина последовательности. Сначала мы обучаем RBM на полном выравнивании, содержащем как эукариотические, так и бактериальные последовательности, следуя работе. [19]RBM собирает статистику выравнивания последовательностей, такую ​​как профили консервативности в каждом участке. Кроме того, простые линейные классификаторы, обученные на основе скрытого слоя RBM, достигают AUC 0,9 ​​при различении этих двух классов. C. Полностью ограниченные RBM по-прежнему способны генерировать складные последовательности. Затем мы обучаем RBM с ограничениями(6)Действуя на все скрытые единицы. Полученная модель продолжает соответствовать профилю консервативности MSA и генерирует разнообразные последовательности. Кроме того, мы проверяем сворачиваемость выбранных последовательностей с помощью альфа-складок. [51]. Как объяснено в Дополнительном материале[26]В Приложении F мы вычисляем оценку соответствия шаблону предсказанных структур выборочных последовательностей в сравнении с естественными последовательностями, получая значения >0,7Как для стандартной RBM, так и для полностью ограниченной RBM, что позволяет предположить, что эти последовательности способны принять ожидаемую трёхмерную структуру семейства. Этот результат согласуется с целью A: распределение модели должно сохранять все характеристики данных, не связанные с меткой. D. Изменение таксономического домена с помощью дизайна белка Затем мы применяем линейное ограничение ортогональности в уравнении. (6)ко всем векторам весов, кроме одного. Веса освобожденного скрытого блока после обучения показаны на рис. 10(г)и зафиксировать признаки, отличающие эти два класса. Например, бактериальные последовательности, как правило, имеют делеции (пробелы) в районе позиций 35–40 выравнивания, что указывает на то, что этот сегмент часто отсутствует в бактериальных последовательностях. Полученные данные ВяОтразите это различие, присвоив отрицательные веса символу пробела в этой области. В результате распределение входных данных, связанных с эукариотическими и бактериальными последовательностями, хорошо разделено в этой единице [рис. 10(е)]. Напротив, особенности, общие для эукариот и бактерий, такие как петля Gly-Gly или консервативный I22, игнорируются В*. Мы генерируем множество выборок из распределения RBM, каждая из которых приводится в состояние с фиксированным значением час*, соответствующий либо бактериальному ( час*=0) или эукариотических ( час*=1) классов. Логотипы последовательностей двух наборов сгенерированных последовательностей показаны на рис. 10(с); они практически соответствуют данным, полученным в ходе обучения. Список различий между логотипами, связанными с двумя доменами последовательностей, включает следующее: (1) За петлей Gly-Gly следует консервативный Lys19, который преимущественно встречается у бактерий, но не в эукариотических последовательностях. (2) Бактериальные последовательности сохраняют мотив Asp-Lys-Iso (позиции 8–10), который RBM с час*=0правильно излучает, но не так в час*=1случай. (3) Помимо двух остатков Gly, консервативных во всем семействе, эукариотические последовательности также сохраняют Gly49, участок, который, по-видимому, менее консервативен у бактерий, которые также допускают наличие Ala или Ser в этой позиции. RBM корректно регистрирует эти вариации. (4) Iso10 высококонсервативен у бактерий, тогда как у эукариот этот сайт неконсервативен, включая, в частности, Val, Ala. Эти примеры показывают, что RBM может производить выборку каждого подсемейства, в зависимости от значения час*. Затем мы выбираем RBM, начиная с одной бактериальной или одной эукариотической последовательности в наборе данных в качестве начального условия, и с часустановлено значение, соответствующее начальному условию. После нескольких шагов значение часпереворачивается, и мы отслеживаем динамику эволюции сгенерированных образцов. Рисунок 10(ф)показывает вероятность того, что сгенерированные последовательности являются эукариотическими или бактериальными, согласно линейному классификатору, достигающему АУК>0,9на данных отложенных испытаний (см. Дополнительный материал[26]Рис. S4). Фигура 10(г)показывает увеличенное изображение вероятностей классификатора и логарифмического правдоподобия в окрестности переключения скрытых единиц. Мы оцениваем логарифмическое правдоподобие выборок с помощью RBM, обученной на полном семействе (обозначается бревно П˜УКР(на рисунке). Переключение класса, измеряемое по оценке классификатора, происходит быстрее, чем динамика релаксации после часПереворот, измеряемый по правдоподобию. Это говорит о том, что выбранные последовательности сохраняют другие характеристики, не связанные с маркированным классом, которые релаксируют медленнее. VIII. УСТОЙЧИВОСТЬ К НЕХВАТУ МАРКИРОВАННЫХ ДАННЫХ Одним из важных преимуществ нашего подхода является то, что маркированные данные необходимы только для оценки вектора д(1) (7)используется в ограничении первого порядка(6), или матрица д(2) (10)в случае ограничения второго порядка(9). Определив д(1)или д(2)Обучение RBM выигрывает от использования дополнительных немаркированных данных, и в этом отношении наша модель является полуконтролируемой. Это свойство полезно во многих реальных приложениях, где метки назначаются людьми, их получение требует больших затрат и, следовательно, доступно лишь для небольшой части данных. Примером может служить набор данных о последовательностях белков домена KH, рассмотренный в разделе. VII, где мы можем собрать надежные таксономические метки только для 10% последовательностей. Чтобы лучше понять объём размеченных данных, необходимый для эффективности нашего подхода, мы проводим дополнительные численные эксперименты, в которых доля размеченных данных постепенно уменьшается. Ниже мы рассмотрим линейное ограничение и МНИСТ0/1Данные приведены для простоты. Аналогичные результаты для домена KH приведены в дополнительных материалах.[26]Рис. S10. С д(1)становится тривиально нулевым, когда в одном из классов меток нет данных, мы рассматриваем сбалансированные подвыборочные маркированные наборы данных с равным количеством маркированных примеров в каждом классе. Рисунок 11(а)показывает среднее перекрытие между векторами д(1)вычисляется на таком подвыборочном маркированном наборе данных (называемом дсуб(1)), и вектор д(1)вычисляется на полном маркированном наборе данных (обозначается как дполный(1)), как функция числа Бдоступных маркированных примеров, деленных на размерность данных Н. Здесь перекрытие определяется как ϕ = д полный ( 1 ) · д суб ( 1 ) | д полный ( 1 ) | | д суб ( 1 ) | . (27) Для каждого заданного количества помеченных примеров мы рассматриваем 100 случайных реализаций подвыборки помеченных наборов данных и оцениваем среднее значение ϕнад этими реализациями. Это видно из рис. 11(а)что перекрытие никогда не опускается ниже примерно 0,6. Этот результат можно понять, рассмотрев разделение между двумя классами данных (см. врезку на рисунке). Запись ковариационной матрицы, зависящей от метки класса С я дж ( в ) = ⟨ в я в дж | в ⟩ - ⟨ в я | в ⟩ ⟨ в дж | в ⟩ , (28) а также средний вектор данных, связанный с каждым классом в я ( в ) = ⟨ в я | в ⟩ , (29) мы можем вывести простую оценку, связанную со средним разделением между классами, в(0)-в(1)и дисперсии внутри каждого класса ТрС(0), ТрС(1)(см. Дополнительный материал[26]Приложение H для вывода), которое пишет ⟨ ϕ ⟩ ≈ ( 1 + 1 Б Тр ( С ( 0 ) + С ( 1 ) ) ∥ в ( 0 ) - в ( 1 ) ∥ 2 ) - 1 / 2 , (30) где Б— это общее количество помеченных примеров, а среднее значение берется по всем помеченным наборам данных с Б/2Примеров в каждом классе. Таким образом, перекрытие увеличивается с увеличением расстояния между классами ( в(0)-в(1)) и уменьшается, если классы имеют большие дисперсии ( ТрС(0), ТрС(1)), как показано на вставке рис. 11(а). Оценка(30)изображен на рис. 11(а)и прекрасно согласуется с эмпирическим средним перекрытием. ФИГ. 11. Полуконтролируемое обучение с использованием подвыборки помеченных данных. (a) Перекрытие(27)между дсуб(1)(вычислено на основе набора данных с подвыборкой и метками) и дполный(1)(вычислено на основе полного набора данных) отображено на графике как функция количества помеченных примеров в подвыборочном наборе данных, деленного на размерность ( 28×28=784(для MNIST). Берётся среднее значение более 100 случайных реализаций подвыборки данных. Сплошная чёрная кривая показывает эмпирический результат, а пунктирная зелёная кривая — теоретическую оценку.(30)На вставке показана диаграмма, показывающая, как разделение классов связано с перекрытием в связи с(30). (b) Для розовых и голубых точек (a) мы строим пример полученных векторов дсуб(1)по сравнению с дполный(1). (c) Манипулирование этикетками с использованием подвыборки дсуб(1)в двух случаях. (d) Гистограмма логарифмических правдоподобий обучающего и удерживаемого набора данных (с подвыборкой) для RBM, обученной на подмножестве из 0 (вверху) или 1 (внизу) цифр, соответствующих помеченным наборам данных, использованным в голубой точке на предыдущих панелях. Чёрные и зелёные вертикальные линии обозначают средние значения. (e) Гистограмма логарифмических правдоподобий обучающего и удерживаемого набора данных частично ограниченной RBM в голубой настройке на предыдущих панелях. Фигура 11(б)показывает диаграммы рассеяния компонентов двух примеров векторов дсуб(1)рассчитано на основе маркированных данных выборки в розовых и голубых точках, выделенных на рис. 11(а)против компонентов вектора дполный(1)вычисляется на основе всех помеченных данных. Используя эти векторы, дсуб(1), затем мы обучаем две RBM в соответствии с уравнением. (6)Действуя на все скрытые элементы, кроме одного. Затем мы пытаемся манипулировать выборкой данных, управляя этим освобождённым скрытым элементом. Результаты показаны на рис. 11(с)В обоих случаях RBM генерируют приемлемые данные и состояние освобожденного скрытого блока. часкоррелирует с выбранной цифрой, хотя в случае крайне субвыборочной выборки (розовый) цифры, как правило, более шумные. Чтобы ещё больше подчеркнуть преимущество нашего метода в отношении контролируемого обучения в ситуации с небольшим количеством размеченных данных, мы обучаем обычные RBM на размеченных данных из подвыборки, специализируясь только на цифрах 0 или 1. Как и ожидалось при небольшом объёме обучающих данных, эти модели склонны к переобучению. Это показано на гистограммах логарифмического правдоподобия, присвоенных обучающему и проверочному наборам данных, на рис. 11(г)(сверху для нулей и снизу для единиц). Разрыв в средних логарифмических правдоподобиях обучающих и проверочных данных (черные и зеленые вертикальные линии соответственно) довольно велик в обоих случаях, что указывает на переобучение. Напротив, частично ограниченная RBM (та же, что и голубая точка на предыдущих панелях рисунка) использует как небольшое количество размеченных данных, так и большое количество неразмеченных данных, чтобы избежать переобучения. Гистограммы логарифмических правдоподобий для обучающих и проверочных данных представлены на рис. 11(е). Согласие между двумя подмножествами превосходное, что свидетельствует об отсутствии переобучения этой модели. Подводя итог, можно сказать, что эти результаты свидетельствуют о том, что наш метод применим также и с ограниченными маркированными данными. IX. ОЦЕНКА СТОИМОСТИ ЧАСТИЧНОГО СТИРАНИЯ И РАСПУТЫВАНИЯ В этом разделе мы оцениваем затраты, связанные с распутыванием (см. раздел. III B 2), уделяя особое внимание влиянию линейных ограничений на весовые коэффициенты. Для оценки этих затрат мы используем как численные, так и аналитические методы. А. Численные оценки Вычисление правдоподобия требует оценки константы нормализации. Св ур. (2). Поскольку точный расчет Снеразрешима, мы используем алгоритм выборки с отожженным значением (AIS)[52]. Оценки AIS Спосредством ряда промежуточных «отожжённых» распределений, интерполирующих между исходным распределением RBM и более простой независимой моделью, допускающей точную выборку. Эта процедура обеспечивает стохастическую верхнюю границу правдоподобия, которая сходится к истинному значению по мере увеличения числа интерполируемых распределений. Стохастическую нижнюю границу можно получить с помощью обратной процедуры интерполяции.[53], который постепенно «переплавляет» RBM обратно в независимую модель; см. Дополнительный материал[26]Подробности в Приложении А. Объединение двух границ позволяет получить истинное значение правдоподобия и обеспечивает сходимость выборки. Результаты показаны для модели Изинга, МНИСТ0/1и наборы данных PF00013, рассматриваемые в этой работе в верхнем ряду рис. 12. Мы не рассматриваем CelebA для удобства вычислений. Сначала мы оцениваем стоимость правдоподобия. ДЛчастичное стирание[см. уравнение (11)] для того, чтобы сделать метки недоступными для линейных дискриминаторов с полностью ограниченной архитектурой (красные полосы или точки). Во всех наборах данных рассматриваемые метки соответствуют природе данных, а затраты (на конфигурацию данных), вызванные ограничениями на весовые коэффициенты, значительны; см. таблицу. я. ФИГ. 12. Расчёты правдоподобия. В первой строке показаны численные оценки логарифмического правдоподобия с использованием RBM со скрытыми двоичными единицами, а также затраты на применение уравнения. (6)В нижнем ряду показаны аналитические результаты, полученные в RBM с одним скрытым спиновым элементом и остальными гауссовыми скрытыми элементами (рис. 13). В первом столбце показана легенда: чёрный — для модели без ограничений, красный — для моделей, где все скрытые элементы ограничены, и синий — для моделей, где ограничение действует на все скрытые элементы, кроме одного. В последующих столбцах показаны результаты для трёх рассмотренных наборов данных: МНИСТ0/1, двумерная модель Изинга ( Л=64) и домен белка KH. Прерывистые стрелки на первой панели показывают вероятность частичного стирания метки (красный) и распутывания (синий). ТАБЛИЦА I. Уменьшение логарифмических правдоподобий, соответствующих частичному стиранию метки при полностью ограниченной RBM ДЛчастичное стираниеи распутывания с частично ограниченной RBM ДЛсказатьИзменения логарифмических правдоподобий выражены для каждой конфигурации данных и для каждого пикселя. МНИСТ0/1, на спин для 2D Изинга и на сайт белка для домена KH. Модель Этикетка ДЛчастичное стирание % неограниченного логарифмического правдоподобия ДЛсказать % неограниченного логарифмического правдоподобия МНИСТ0/1 0 или 1 0,016 30% 0,005 10% 2D Изинг Знак 0,18 40% ≃0 ≃0% (Л=64,б=0,44) намагничивание Домен KH Бактерии или эукариотические 0,09 6% 0,04 3% Связь между релевантностью метки и стоимостью правдоподобия наглядно представлена ​​в двумерном наборе данных модели Изинга. При низком уровне бДанные по существу случайны, и намагниченность практически не имеет значения для определения вероятности конфигурации. В этом режиме стирание информации о метках имеет небольшие затраты на правдоподобие. По мере повышения обратной температуры намагниченность становится более значимой, и для достижения хорошего правдоподобия модели необходимо её учитывать. Следовательно, частичное стирание намагниченности в этом режиме приводит к значительной потере правдоподобия. Верхний ряд рис. 12Кроме того, показаны значения логарифмических правдоподобий после освобождения одного скрытого блока (синие столбцы и точки). Потеря логарифмического правдоподобия относительно неограниченной RBM. ДЛсказатьв ур. (12)гарантированно неотрицательна. На практике, для МНИСТ0/1и наборов данных модели Изинга, и в меньшей степени для домена KH, мы оцениваем эту стоимость как небольшую; см. Таблицу яЭти результаты согласуются со способностью выпущенной RBM подгонять и генерировать высококачественные данные в трёх случаях, как показано в предыдущих разделах. Б. Аналитические оценки Мы можем получить некоторое аналитическое представление об источнике затрат на частичное стирание и распутывание следующим образом. Чтобы сделать наши модели RBM математически проверяемыми, мы теперь предполагаем, что все видимые и скрытые элементы RBM имеют действительные значения и распределены по гауссову закону, за исключением одного скрытого элемента, похожего на спин, час*=час1=±1(Предполагается, что в конечном итоге она будет опубликована для более концентрированной информации, связанной с метками). Эта модель RBM определяет бимодальное гауссовское распределение смеси с двумя модами, связанными с классами меток. в=±1; см. рис. 13(а)и13(б). ФИГ. 13. RBM с гауссовым спином. (a) RBM с гауссовым спином имеет одну скрытую единицу, подобную спину. час*=час1=±1, тогда как все остальные скрытые единицы являются гауссовыми. (b) Скрытая единица спина (синяя) разделяет два помеченных класса. Гауссовские скрытые единицы (красные) моделируют внутриклассовую изменчивость. (c) Иллюстрация теоремы Пуанкаре. Функция энергии в этой модели RBM с гауссовым спином (GS) записывается следующим образом: И ГС ( в , час ) = ∑ я в я 2 2 с я 2 - ∑ я г я в я + ∑ м ≥ 2 час м 2 2 - ∑ я ∑ м ≥ 2 В я м в я час м - ∑ я В я * в я час 1 , (31) где сяпараметризуют стандартные отклонения видимых единиц, а видимые единицы связаны с гауссовыми скрытыми единицами через веса Вями к скрытому блоку вращения через Вя*. Сначала мы обучаем RBM без каких-либо ограничений на весовые коэффициенты. Данные характеризуются эмпирической корреляционной матрицей. Си вектор д(1)разделяющие центры масс классов; см. рис. 2(с). Максимизация правдоподобия данных даёт несколько условий для векторов веса, которые мы перечислим ниже. (1) Масштабные веса Вямсядля м≥2являются собственными векторами матрицы С˜=Д(С-д(1)(д(1))⊤)Д, с соответствующими собственными значениями лм=1/(1-∑яВям2ся2); здесь, Дэто диагональная матрица с элементами 1/ся2. На практике, верхняя часть М-1собственные значения С˜(больше единицы) должны быть выбраны для максимизации правдоподобия. (2) Веса Вна скрытый блок м=1даются С-1д(1), где С=(Д-ВВ⊤)-1обозначает условную ковариационную матрицу, предсказанную моделью внутри каждого класса, и В— это матрица весовых векторов Вямс м≥2. (3) Смещения видимых единиц таковы, что модель соответствует независимым частотам участков: г=С-1(⟨в⟩Д-д(1)). Подробную информацию о происхождении можно найти в дополнительных материалах.[26]Приложение D. Логарифм правдоподобия показывает Л ГС = 1 2 ∑ м ( л м - 1 - бревно   л м ) - бревно   дубинка   ( г · д ( 1 ) ) , (32) где лм's — это выбранные собственные значения С˜, и мы игнорируем нерелевантные аддитивные термины. Далее мы рассмотрим обучение RBM по методу максимального правдоподобия при наличии ограничений ортогональности, действующих на гауссовские веса, при этом Вяне имеет ограничений; см. уравнение. (6). Определим оператор проектирования на подпространство, ортогональное к д(1), П = я - д ( 1 ) ( д ( 1 ) ) ⊤ | д ( 1 ) | 2 . (33) Легко понять, что условия(6)эквивалентны ПВ=В. Следовательно, обсуждение случая неограниченного обучения, приведенное выше, применимо к случаю с ограничениями при условии, что корреляционная матрица С˜заменяется спроецированной матрицей С˜⊥=ПС˜П. Собственные значения проецируемой матрицы С˜⊥имеют точное упорядоченное отношение к собственным значениям исходной матрицы С˜известная как теорема Пуанкаре об отделении (см. теорему 11.11 работы [22]). Обозначая через л1,…,лНсобственные значения исходной матрицы и л1⊥,…,лН⊥собственные значения проецируемой матрицы, отсортированные в порядке убывания, имеем л 1 ≥ л 1 ⊥ ≥ л 2 ≥ л 2 ⊥ ≥ … ≥ л Н ≥ л Н ⊥ = 0 , (34) где лН⊥=0из-за запрещенного направления д(1), что приводит к снижению ранга матрицы. Более того, пробелы ля-ля⊥связаны с углом между запрещенным направлением д(1)и собственные векторы исходной корреляционной матрицы. Рисунок 13(с)показывает пример малой размерности, в котором трехмерный эллипсоид, символизирующий С˜проецируется в пространство, ортогональное одному из показанных векторов. Рассмотрим два вектора, расположенных под разными углами к главной оси эллипсоида, которые определяют проецируемый эллипс. С˜⊥. Вероятность высвобождения RBM с гауссовым спином определяется той же формулой, что и для модели без ограничений [см. уравнение (32)] при замене лм→лм⊥. Поскольку функция монотонна по собственным значениям (когда они больше единицы), теорема Пуанкаре о разделении в уравнении (34)гарантирует, что вероятность уменьшается при наложении ограничений на веса. Наконец, когда ограничение ортогональности(6)Действует на все веса, модель не учитывает разделение классов. Мы получаем правдоподобие ограниченного RBM, просто заменяя д(1)в приведенном выше расчете с нулевым вектором, и, следовательно, Вя*=0также. Нижний ряд рис. 12Показаны оценки логарифмического правдоподобия, полученные в результате этого приближенного расчета в случаях без ограничений, с ограничениями и без ограничений. Хотя абсолютные значения логарифмического правдоподобия невозможно напрямую сравнить с настройками двоичной RBM, мы видим, что относительные изменения от неограниченного к ограниченному состоянию, связанные со стоимостью частичного стирания, и от ограниченного к освобожденному состоянию, определяющие стоимость распутывания, достаточно точно соответствуют значениям, вычисленным с помощью отожженной выборки по важности на двоичных RBM. X. ОБСУЖДЕНИЕ В данной работе мы предлагаем вычислительно эффективные методы обучения RBM с помощью распутанных представлений. В свою очередь, эти представления могут быть использованы для генерации выборок с желаемыми свойствами, например, с одним измененным атрибутом, в то время как остальные признаки остаются неизменными. Эта цель обсуждалась в литературе.[7–9,11]с глубокими нейронными сетями, преимущественно с вариационными автоэнкодерами (ВАЭ)[3,54]и враждебные сети[4,7,11]Несмотря на широкий успех состязательного обучения и его важность в практическом применении[7]Глубокие нейронные сети трудно интерпретировать, и для их обучения требуются большие объёмы данных. Вариационные автоэнкодеры[3]обеспечить непрерывное отображение данных в гауссовское распределение, что не всегда подходит, например, если данные состоят из отдельных пиков[55]. Наконец, состязательная подготовка страдает от нестабильности, которая пока не до конца изучена, что затрудняет ее реализацию на практике. Наш подход использует простоту архитектуры RBM. Несмотря на ограниченное количество слоёв, гибкость потенциалов скрытых единиц позволяет RBM выражать сложные распределения представлений, в отличие от VAE, которым требуются более глубокие архитектуры для отображения распределения данных на гауссовские латентные переменные. Мы выводим явные ограничения, применяемые к весам RBM в процессе обучения, чтобы отдавать предпочтение распутанным представлениям. Эти ограничения гарантируют, что представления данных, соответствующие различным классам меток, приблизительно неразличимы. Точнее, мы накладываем линейные и квадратичные ограничения на веса RBM, которые (частично) декоррелируют метку класса от действий скрытых единиц. Как и в состязательной модели, наложение этих ограничений на подмножество скрытых единиц позволяет нам манипулировать образцами, генерируемыми моделью, управляя состоянием оставшихся скрытых единиц. Полученный алгоритм обучения легко реализуем и быстр, поскольку состоит из двух этапов. Во-первых, мы оцениваем требуемые ограничения на основе размеченных данных. Важно отметить, что это единственный этап, требующий разметки. Во-вторых, мы обучаем RBM с помощью стандартных процедур обучения.[56], гарантируя, что после каждого обновления градиента веса проецируются в подпространство, удовлетворяющее ограничениям. Результирующая процедура имеет вычислительные затраты, аналогичные стандартному обучению RBM. Поэтому она устойчива и не страдает от нестабильности, связанной с максимизацией-минимизацией функции стоимости, возникающей в схемах состязательного обучения. Мы вновь подчеркиваем, что наш подход сочетает неконтролируемую природу RBM с ограничениями, вытекающими из размеченных данных. Следовательно, нашу модель можно назвать полуконтролируемой. Мы показываем, как эта синергия приводит к тому, что модель способна работать в режиме с ограниченным количеством размеченных данных. Этот результат важен, поскольку во многих случаях получение маркированных данных обходится гораздо дороже, чем получение немаркированных данных: данные должны быть аннотированы людьми (например, в наборе данных PF00013 последовательностей домена KH таксономические метки доступны менее чем для 10% последовательностей), или должны быть проведены дорогостоящие эксперименты для получения метки (это касается большинства биологических данных, которые часто требуют сложной биофизической или биохимической характеристики). Мы демонстрируем эффективность этого подхода на четырех наборах данных из разных областей: наборе данных CelebA с изображениями лиц[23], модель Изинга из статистической физики, коллекция изображений рукописных цифр MNIST[24]и белковые последовательности семейства доменов KH[25]. Знаменитость[23]и МНИСТ[24]являются популярными эталонными наборами данных в машинном обучении. В MNIST метки напрямую связаны с идентичностью цифр. На этом наборе данных мы показываем, что RBM можно обучить связывать один или несколько управляющих скрытых элементов с каждым классом цифр, которые можно использовать для выборки и перехода между классами. В CelebA метки соответствуют тонким атрибутам изображений лиц, таким как выражение лица (улыбка или отсутствие улыбки) или украшения (наличие очков). Даже для такого сложного набора данных RBM могут выбирать привлекательные изображения и концентрировать эти атрибуты на нескольких скрытых элементах. Двумерная модель Изинга — хорошо изученная система в статистической физике с точно описанным фазовым переходом, контролируемым температурой. Стандартная модель RBM способна воспроизводить поведение наблюдаемых величин, таких как намагниченность, теплоёмкость, восприимчивость и корреляционная длина. Затем мы накладываем линейное ограничение на веса [см. уравнение (1)]. (6)], декорреляция скрытого представления со знаком намагниченности и вынуждая RBM создавать галлюцинации новой системы с интересными физическими свойствами. Примечательно, что ограниченная RBM генерирует конфигурации с нулевой суммарной намагниченностью, сохраняя при этом структуру корреляций между спинами, что очевидно из наблюдаемых величин второго порядка, таких как теплоёмкость и корреляционная длина. Используя эвристический аргумент, мы предлагаем гамильтониан для описания физических свойств этой системы, содержащий неаналитический штрафной член для глобальной намагниченности, напоминающий неаналитические потенциалы Ландау, недавно предложенные для описания неравновесных стационарных состояний изинговского магнетика.[57–59]. Высвобождение одной скрытой единицы затем восстанавливает способность модели генерировать намагниченные конфигурации, воспроизводя всю статистику исходной модели Изинга. Наше последнее применение – это проектирование белков на основе обучения моделям на основе данных последовательностей. Эта область приобрела особую значимость в биоинженерии после недавних впечатляющих достижений в области технологий секвенирования.[60]. RBM-ы, обученные на КСемейство доменов гомологии при линейных ограничениях, декорреляцирующее подмножество скрытых входных данных из таксономии последовательностей, эффективно концентрирует таксономическую информацию в контрольной скрытой единице. Условная выборка воспроизводит тонкие статистические различия между эукариотическими и бактериальными подсемействами. Переход между двумя классами происходит за более короткое время, чем общее время декорреляции, что позволяет предположить, что последовательности могут менять класс, сохраняя при этом память о других, не зависящих от класса, атрибутах. Концентрация информации о важных характеристиках данных в одном или нескольких скрытых блоках RBM может априори негативно сказаться на способности модели подгонять данные по двум причинам. Во-первых, ожидается, что введение ограничений на веса повлияет (уменьшит) на логарифмическое правдоподобие данных, генерируемых RBM. Мы оцениваем потери логарифмического правдоподобия вследствие частичного стирания и распутывания для нескольких наборов данных. Стоимость частичного стирания связана с релевантностью метки, что наглядно иллюстрирует зависимость от температуры в данных модели Изинга. Примечательно, что мы обнаружили, что распутывание достигается с небольшой относительной потерей правдоподобия, что свидетельствует об устойчивости подхода. Более того, когда данные можно аппроксимировать смесью двух гауссовых распределений, мы показываем, как можно аналитически рассчитать потери логарифмического правдоподобия, и устанавливаем связь между затратами правдоподобия на стирание или распутывание и теоремой Пуанкаре о разделении. Во-вторых, несколько (часто одиночные) высвобождаемых скрытых единиц кодируют признаки, связанные с метками, прототипическим способом. В случае линейных ограничений высвобождаемые веса согласуются с д(1)вектор, равный относительной разнице между центрами масс двух классов меток; см. рис. 5(а)для иллюстрации на CelebA. Однако широко распространено мнение, что прототипоподобные представления хуже композиционных, в которых множество признаков, связанных со множеством скрытых единиц, могут быть комбинаторно объединены для создания высококачественных и разнообразных данных.[61]С этой точки зрения, принуждение некоторых скрытых модулей к генерации прототипов может показаться контрпродуктивным. Тем не менее, это очень эффективный способ стимулировать переключение классов; см., например, рис. 6. Кроме того, все важные признаки, определяющие распределение данных, изучаются огромным количеством других (ограниченных) скрытых единиц, которые, в свою очередь, могут быть объединены для совместного участия в процессе генерации данных. Мы также подчеркиваем, что, хотя несколько скрытых единиц фиксируют достаточное количество признаков, связанных с меткой, для управления и управления значениями метки, это не означает, что они концентрируют всю информацию о метке. Как наглядно показано на рис. 7(ф)для Изинга и рис. 8(б)для МНИСТ0/1, в ограниченных скрытых единицах, доступных глубоким декодерам, сохраняется существенная информация о метке. Следовательно, признаки, связанные с меткой, кодируются остаточно комбинаторным способом с помощью RBM. Хотя распутывание и манипулирование представлениями с помощью нашего подхода с «частично ограниченными» RBM обеспечивает явные преимущества с точки зрения удобства использования и интерпретируемости, другая архитектура, рассматриваемая в данной работе, так называемая «полностью ограниченная» RBM, также может представлять интерес для практических приложений. Неформально говоря, полностью ограниченные RBM подходят для моделирования признаков в данных, ортогональных признакам, связанным с рассматриваемой меткой. Мы показываем, что полностью ограниченные RBM сохраняют генеративность в двух примерах (CelebA и PF00013), где выборки напоминают конфигурации данных с неоднозначной идентичностью классов. В МНИСТ0/1Однако в примерах модели Изинга и модели Изинга полностью ограниченная RBM генерирует выборки, заметно отличающиеся от данных (нулевая намагниченность в случае Изинга и размытые смеси нулей и единиц в случае MNIST). Мы объясняем это тем, что в этих последних случаях наборы данных, соответствующие двум значениям метки, сильно разнесены. Однако, как мы показали в случае Изинга, информация сохраняется в моментах более высокого порядка выборок (например, теплоёмкость). Другой пример приведён в разделе «Дополнительные материалы».[26]На рис. S6 полностью ограниченная RBM, обученная на нулевых цифрах из MNIST на чёрном или белом фоне, генерирует нули, закодированные в корреляциях между соседними пикселями. В качестве потенциального будущего направления для полностью ограниченных RBM, наши результаты, полученные в области KH, открывают путь к реконструкции предковых (отстающих в эволюционном развитии) белков, которые, возможно, были более функционально неоднородными, чем их современные аналоги. Было бы очень интересно применить наш подход для реконструкции предполагаемых древних белков, например, когда информация о специфичности связывания стирается, а другие функции (стабильность, активность и т. д.) сохраняются. Подводя итог, можно сказать, что в нашей работе предлагается гибкая полуконтролируемая структура для обучения распутанных представлений, легко реализуемая и поддающаяся приближённым аналитическим вычислениям. Мы надеемся, что наш подход упростит контролируемую генерацию данных и обнаружение признаков в будущих приложениях. Наконец, помимо представленных здесь приложений к RBM, было бы интересно перенести нашу структуру, основанную на ограничениях, на другие архитектуры, поскольку принцип наложения ограничений на веса в процессе обучения является довольно общим. Коды, необходимые для воспроизведения результатов, представленных в этой работе, доступны на[62]. БЛАГОДАРНОСТИ Работы J. F.-d.-C.-D., S. C. и R. M. поддержаны грантами № ANR-19 Decrypted CE30-0021-01 и № ANR-21 Locomat CE16-0037. Дополнительный материал Дополнительные данные и информация о реализации, выводе sup.pdf Ссылки (62) Y. Bengio, Глубокое изучение представлений для неконтролируемого и трансферного обучения, в трудах семинара ICML по неконтролируемому и трансферному обучению (PMLR, 2012), стр. 17–36. Р. Салахутдинов и Г. Хинтон, Глубокие машины Больцмана, в трудах 12-й Международной конференции по искусственному интеллекту и статистике (PMLR, 2009), стр. 448–455. Д. П. Кингма и М. Веллинг, Автоматическое кодирование вариационного байесовского алгоритма, arXiv:1312.6114 . И. Дж. Гудфеллоу, Дж. Пуже-Абади, М. Мирза, Б. Сюй, Д. Уорд-Фарли, С. Озаир, А. Курвиль и И. Бенжио, Генеративные состязательные сети, arXiv:1406.2661 . W. J. Johnston, S. E. Palmer и D. J. Freedman, Нелинейная смешанная селективность поддерживает надежные нейронные вычисления, PLoS Comput. Biol. 16 , e1007544 (2020) . Ф. Локателло, С. Бауэр, М. Лучич, Г. Рэтч, С. Гелли, Б. Шёлькопф и О. Бахем, «Оспаривание распространенных предположений при неконтролируемом обучении распутанных представлений», в трудах 36-й Международной конференции по машинному обучению (PMLR, 2019), стр. 4114–4124. G. Lample, N. Zeghidour, N. Usunier, A. Bordes, L. Denoyer и M. Ranzato, Fader Networks: Manipulation Images by Sliding Attributes, arXiv:1706.00409 . Х. Ким и А. Мних, Распутывание с помощью факторизации, в трудах 35-й Международной конференции по машинному обучению (PMLR, 2018), стр. 2649–2658. Q. Hu, A. Szabó, T. Portenier, P. Favaro и M. Zwicker, Разделение факторов вариации путем их смешивания, в Трудах конференции IEEE по компьютерному зрению и распознаванию образов (IEEE, Нью-Йорк, 2018), стр. 3399–3407. Б. Эсмаили, Х. Ву, С. Джейн, А. Бозкурт, Н. Сиддхарт, Б. Пейдж, Д. Х. Брукс, Дж. Дай и Дж.-В. Минт, «Структурированные распутанные представления», в трудах 22-й Международной конференции по искусственному интеллекту и статистике (PMLR, 2019), стр. 2525–2534. Z. He, W. Zuo, M. Kan, S. Shan и X. Chen, attgan : Редактирование атрибутов лица путем изменения только того, что вы хотите, IEEE Trans. Обработка изображений. 28 , 5464 (2019) . Y. Shen, J. Gu, X. Tang и B. Zhou, Интерпретация скрытого пространства GANS для семантического редактирования лиц, в Трудах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (IEEE, Нью-Йорк, 2020), стр. 9243–9252. Дж. Заиди, Дж. Буайяр, Г. Ганьон и М.-А. Карбонно, Измерение распутывания: обзор показателей, arXiv:2012.09276 . C. Feutry, P. Piantanida, Y. Bengio и P. Duhamel, Изучение анонимизированных представлений с помощью состязательных нейронных сетей, arXiv:1802.09386 . Р. Земель, Й. Ву, К. Сверски, Т. Питасси и К. Дворк, Изучение справедливых представлений, в трудах 30-й Международной конференции по машинному обучению (PMLR, 2013), стр. 325–333. М. Арджовски и Л. Ботту, К принципиальным методам обучения генеративно-состязательных сетей, arXiv:1701.04862 . Т. Миколов, К. Чен, Г. Коррадо и Дж. Дин, Эффективная оценка представлений слов в векторном пространстве, arXiv:1301.3781 . Г. Э. Хинтон, Практическое руководство по обучению ограниченных машин Больцмана, в книге «Нейронные сети: секреты торговли» (Springer, Нью-Йорк, 2012), стр. 599–619. J. Tubiana, S. Cocco и R. Monasson, Изучение конститутивных мотивов белков на основе данных о последовательностях, eLife 8 , e39397 (2019) . B. Bravi, J. Tubiana, S. Cocco, R. Monasson, T. Mora и A. M. Walczak, RBM-MHC: метод полуконтролируемого машинного обучения для специфичного для образца прогнозирования презентации антигена с помощью аллелей HLA-I, Cell Syst. 12 , 195 (2021) . Р. Салахутдинов, А. Мних и Г. Хинтон, Ограниченные машины Больцмана для совместной фильтрации, в трудах 24-й Международной конференции по машинному обучению (PMLR, 2007), стр. 791–798. К. М. Абадир и Дж. Р. Магнус, Матричная алгебра (Издательство Кембриджского университета, Кембридж, Англия, 2005), т.  1 . Z. Liu, P. Luo, X. Wang и X. Tang, Глубокое обучение определению признаков лица в дикой природе, в трудах Международной конференции по компьютерному зрению (2015), https://openaccess.thecvf.com/content_iccv_2015/html/Liu_Deep_Learning_Face_ICCV_2015_paper.html . Л. Дэн, База данных изображений рукописных цифр MNIST для исследований в области машинного обучения, IEEE Signal Process. Mag. 29 , 141 (2012) . S. El-Gebali, J. Mistry, A. Bateman, S. R. Eddy, A. Luciani, S. C. Potter, M. Qureshi, L. J. Richardson, G. A. Salazar, A. Smart и др. , База данных семейств белков Pfam в 2019 г., Nucleic Acids Res. 47 , D427 (2019) . Подробности реализации, дополнительный текст и рисунки см. в дополнительных материалах по адресу http://link.aps.org/supplemental/10.1103/PhysRevX.13.021003 . Р. Дж. Бакстер, Точно решенные модели в статистической механике (Elsevier, Нью-Йорк, 2016). Д. Йевик и Р. Мелко, Точность ограниченных моделей машины Больцмана для систем Изинга, Comput. Phys. Commun. 258 , 107518 (2021) . M. Harsh, J. Tubiana, S. Cocco и R. Monasson, Возникновение «ячейки места» и изучение инвариантных данных с помощью ограниченных машин Больцмана: нарушение и динамическое восстановление непрерывных симметрий в весовом пространстве, J. Phys. A 53 , 174002 (2020) . Т. М. Кавер, Элементы теории информации (John Wiley & Sons, Нью-Йорк, 1999). А. Энгель и К. Ван ден Брок, Статистическая механика обучения (Издательство Кембриджского университета, Кембридж, Англия, 2001). Н. Бреннер, В. Биалек и Р. д. Р. Ван Стевенинк, Адаптивное масштабирование максимизирует передачу информации, Neuron 26 , 695 (2000) . Б. Шолкопф и А. Дж. Смола, Обучение с использованием ядер: машины опорных векторов, регуляризация, оптимизация и не только (MIT Press, Кембридж, Массачусетс, 2018). В. А. Марченко и Л. А. Пастур, Распределение собственных значений для некоторых наборов случайных матриц, Матем. сб. 114 , 507 (1967) . A. Decelle, C. Furtlehner и B. Seoane, Равновесные и неравновесные режимы в обучении ограниченных машин Больцмана, Adv. Neural Inf. Process. Syst. 34 , 5345 (2021) . Л. Онзагер, Статистика кристаллов. I. Двумерная модель с переходом порядок-беспорядок, Phys. Rev. 65 , 117 (1944) . М. Э. Ньюман и Г. Т. Баркема, Методы Монте-Карло в статистической физике (Clarendon Press, Оксфорд, 1999). Н. Ёсиока, Ё. Акаги и Х. Кацура, Преобразование обобщенных моделей Изинга в машины Больцмана, Phys. Rev. E 99 , 032113 (2019) . G. Cossu, L. Del Debbio, T. Giani, A. Khamseh и M. Wilson, Определение динамических параметров с помощью машинного обучения: случай модели Изинга, Phys. Rev. B 100 , 064304 (2019) . W. Selke, Критический кумулянт связующего двумерных моделей Изинга, Eur. Phys. J. B 51 , 223 (2006) . К. Шимагаки и М. Вайгт, Выбор мотивов последовательностей и генеративные модели Хопфилда-Поттса для семейств белков, Phys. Rev. E 100 , 032128 (2019) . Н. В. Гришин, KH-домен: один мотив, две складки, Nucleic Acids Res. 29 , 638 (2001) . Б. М. Лунде, К. Мур и Г. Варани, РНК-связывающие белки: модульная конструкция для эффективного функционирования, Nat. Rev. Mol. Cell Biol. 8 , 479 (2007) . Р. Вальверде, Л. Эдвардс и Л. Реган, Структура и функция доменов KH, FEBS J. 275 , 2712 (2008) . G. Musco, G. Stier, C. Joseph, M. A. C. Morelli, M. Nilges, T. J. Gibson и A. Pastore, Трехмерная структура и стабильность домена KH: молекулярный анализ синдрома ломкой X-хромосомы, Cell 85 , 237 (1996) . У. Т. О'Доннелл и С. Т. Уоррен, Десятилетие молекулярных исследований синдрома ломкой Х-хромосомы, Annu. Rev. Neurosci. 25 , 315 (2002) . Д. Сенал, С. Биттрих, М. Дешпанде, Р. Свободова, К. Берка, В. Базгер, С. Веланкар, С.К. Берли, Дж. Коча и А.С. Роуз, Mol* Viewer: современное веб-приложение для 3D-визуализации и анализа крупных биомолекулярных структур, нуклеиновых кислот Res. 49 , W431 (2021) . Консорциум T. U., UniProt: Универсальная база знаний о белках в 2021 г., Nucleic Acids Res. 49 , D480 (2020) . S. Cocco, C. Feinauer, M. Figliuzzi, R. Monasson и M. Weigt, Обратная статистическая физика белковых последовательностей: обзор ключевых вопросов, Rep. Prog. Phys. 81 , 032601 (2018) . F. Morcos, A. Pagnani, B. Lunt, A. Bertolino, D. S. Marks, C. Sander, R. Zecchina, J. N. Onuchic, T. Hwa и M. Weigt, Прямой анализ коэволюции остатков с помощью связывания фиксирует нативные контакты во многих семействах белков, Proc. Natl. Acad. Sci. USA 108 , E1293 (2011) . М. Мирдита, К. Шютце, Ю. Мориваки, Л. Хео, С. Овчинников и М. Штайнеггер, colabfold : Делаем фолдинг белка доступным для всех, Nat. Методы 19 , 679 (2022) . Р. Нил, Отожженная выборка по значимости, Департамент статистики, Технический отчет Университета Торонто № 9805 (пересмотренный), 1998. Y. Burda, R. Grosse и R. Salakhutdinov, Accurative and Conservative Estimates of MRF Log-Likelihood Using Reverse Annealing, в Трудах 18-й Международной конференции по искусственному интеллекту и статистике (PMLR, 2015), стр. 102–110, http://proceedings.mlr.press/v38/burda15.html . I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed и A. Lerchner, beta vae : изучение базовых визуальных концепций с использованием ограниченной вариационной структуры, в трудах 5-й Международной конференции по обучению представлениям, 2017. S. Goldt, B. Loureiro, G. Reeves, F. Krzakala, M. Mézard и L. Zdeborová, Гауссовская эквивалентность генеративных моделей для обучения с помощью неглубоких нейронных сетей, в трудах 2-й конференции по математическому и научному машинному обучению (PMLR, 2022), стр. 426–471. Т. Тилеман, Обучение ограниченных машин Больцмана с использованием приближений к градиенту правдоподобия, в трудах 25-й Международной конференции по машинному обучению (PMLR, 2008), стр. 1064–1071. Д. Белиц, Т. Р. Киркпатрик и Т. Войта, Как универсальная масштабная инвариантность влияет на квантовые и классические фазовые переходы, Rev. Mod. Phys. 77 , 579 (2005) . C. Aron и M. Kulkarni, Неаналитическая неравновесная теория поля: стохастический повторный нагрев модели Изинга, Phys. Rev. Res. 2 , 043390 (2020) . C. Aron и C. Chamon, Теория Ландау для неравновесных стационарных состояний, SciPost Phys. 8 , 074 (2020) . H. T. Rube, C. Rastogi, S. Feng, J. F. Kribelbauer, A. Li, B. Becerra, L. A. Melo, B. V. Do, X. Li, H. H. Adam и др. , Прогнозирование сродства связывания белок-лиганд на основе данных секвенирования с интерпретируемым машинным обучением, Nat. Biotechnol. 40 , 1520 (2022) . J. Tubiana и R. Monasson, Возникновение композиционных представлений в ограниченных машинах Больцмана, Phys. Rev. Lett. 118 , 138301 (2017) . https://github.com/cossio/AdvRBMs.jl

  1. Набор данных изображений лиц CelebA Набор данных CelebA состоит из коллекции из 202 599 цветных изображений лиц знаменитостей, каждое из которых аннотировано 40

Or you can use the CITATION.bib file.

Реализация бозонного антиферромагнетика

Квантовые антиферромагнетики представляют широкий интерес в физике конденсированного состояния, поскольку они предоставляют платформу для изучения экзотических многочастичных состояний1 , включая спиновые жидкости2 и высокотемпературные сверхпроводники3 . Здесь мы сообщаем о создании одномерного антиферромагнетика Гейзенберга с ультрахолодными бозонами. В двухкомпонентной системе Бозе-Хаббарда мы меняем знак спин-обменного взаимодействия и реализуем изотропную антиферромагнитную модель Гейзенберга в расширенной цепочке из 70 узлов. Начиная с низкоэнтропийного упорядоченного по Неелю состояния, мы используем оптимизированный адиабатический переход, чтобы приблизиться к бозонному антиферромагнетику. Мы демонстрируем установление антиферромагнетизма, исследуя эволюцию заторможенной намагниченности и спиновых корреляций системы. По сравнению с системами конденсированного состояния ультрахолодные газы в оптических решетках можно микроскопически проектировать и измерять, что дает замечательные преимущества для исследования бозонного магнетизма и спиновой динамики4