• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Cовместный семинар департамента экономики и прикладной математики и бизнес-информатики

Рады сообщить о предстоящем совместном семинаре департамента экономики и  прикладной математики и бизнес-информатики СПб ШЭМ НИУ ВШЭ,  на котором с докладом  «Термодинамический подход к результатам тематического моделирования» выступит Кольцов Сергей Николаевич (к.ф.-м. н., заместитель руководителя Лаборатории Интернет исследований, доцент департамента прикладной математики и бизнес-информатики НИУ ВШЭ). Семинар состоится 14 декабря в 16:50 по адресу: Кантемировская улица, д.3, корп. 1, лит. А, ауд. 354. Ждем всех заинтересовавшихся преподавателей, исследователей, студентов.

Аннотация:

Термодинамический формализм, реализованный на основе минимизации свободной энергии, успешно применяется в различных областях, таких как обработка изображений, нейронные сети, кластерный анализ. Существенное развитие методов кластеризации произошло в рамках тематического моделирования. В ТМ решается задача восстановления исходного многомерного распределения в виде смеси мультиномиальных распределений со скрытыми параметрами. Одной из нерешенных проблем в ТМ является выбор числа распределений в смеси. Причем эта проблема возникает как в кластерном анализе, сетевом анализе, так и при исследовании фазовых переходов веществ с различной пространственной структурой. Другой проблемой ТМ является семантическая стабильность, которая, с одной стороны зависит от типа модели ТМ, с другой стороны, зависит от числа тем.
В рамках данного доклада рассматривается подход к анализу зависимости ТМ от числа кластеров на основе идей из статистической физики. ТМ представляет как мезоскопическая информационная термодинамическая система, поведение которой определяется параметром ‘число тем’. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Тсаллиса. Кроме того, в докладе будут представлены результаты расчетов семантической стабильности по 4 моделям (PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA(Gibbs sampling))  в диапазоне тем [2-320],  с шагом 2 темы.