Новости

12.04.2024

Поздравляем с Днём космонавтики!

08.03.2024

Поздравляем с Международным Женским Днем!

Подробнее

23.02.2024

Поздравляем с Днем Защитника Отечества!

Подробнее

Оплата онлайн

При оплате онлайн будет
удержана комиссия 3,5-5,5%

Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

Главная
Проблемы и достижени..
СЕКЦИЯ №2. ИНФОРМАТИ..

ВЕРОЯТНОСТНЫЕ МОДЕЛИ ДЛЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА. КРАТКИЙ ОБЗОР МОДЕЛИ СМЕСЕЙ

Авторы:

Федюшкин Н.А.

Федосин С.А.

Город:

Саранск

ВУЗ:

Мордовский государственный университет имени Н.П. Огарева

Дата:

20 мая 2018г.

Аннотация. В данной статье приведен краткий обзор вероятностной модели для интеллектуального анализа текста, называемой моделью смесей. Модели смесей используются для кластеризации элементов данных, где каждый компонент является распределением для данного кластера, и каждый элемент данных принадлежит одному кластеру с определенной вероятностью. Модели конечной смеси требуют, чтобы пользователь указывал количество кластеров. Типичные сферы применения модели смеси в интеллектуальном анализе текста включают тематические модели, такие как PLSA и LDA.

Ключевые слова: вероятностные модели, модель смесей, кластеризация, тематическое моделирование, интеллектуальный анализ текста.

1. Модели смесей

Модель смеси (англ. mixture model) – это вероятностная модель, первоначальна предложенная для решения мультимодальной проблемы в области работы с данными. Теперь она часто используется для задачи кластеризации в интеллектуальном анализе данных, машинном обучении и статистике. Как правило, модель смеси определяет распределение случайной величины, которая содержит несколько компонентов, и каждый компонент представляет собой различное распределение по одному и тому же семейству распределений, но с разными параметрами. Количество компонентов в данной статье указывается пользователем, и такие модели смесей называются конечными моделями смесей. Для того, чтобы изучить модель, необходимо изучить не только вероятное включение для каждого наблюдаемого элемента данных, но также и набор параметров для каждого компонента. В этом статье представлены базовая структура моделей смесей, их вариации и сферы применения в области интеллектуального анализа текста.

1.1 Общая схема модели смеси.

В модели смеси элементы рассматриваются как экземпляр набора случайных величин, которые следуют из данной модели смеси, учитывая набор элементов данных (например, высоту людей в конкретном регионе). Затем, согласно наблюдаемым элементам данных, можно изучить параметры модели смеси. Например, мы можем узнать математическое ожидание и стандартное отклонение для распределений высоты среди женщин и мужчин, если мы моделируем высоту людей, как модель смеси двух распределений Гаусса. Формально, предположим, что мы имеем 𝑛 независимых одинаково распределенных (англ. i.i.d. – independent and identically-disturbed) величин 𝑋1, 𝑋2, … , 𝑋𝑛 с событиями 𝑥1, 𝑥2, … , 𝑥𝑛 следующими из модели смесей с 𝐾 компонентами. Пусть каждая 𝑘 − я компонента является распределением следующим из семейства распределений с параметрами (𝜃𝑘 ) и имеет вид 𝐹(𝑥|𝜃𝑘 ), и пусть 𝜋𝑘 ( 𝜋𝑘 ≥ 0 и Σ𝑘 𝜋𝑘 = 1 – это весовой коэффициент для 𝑘 − ой компоненты, обозначающий вероятность, что событие генерируется из компонента. Тогда вероятность события 𝑥𝑖 может быть записана как:

1.2 Вариации и сферы применения
Наиболее частым вариантом структуры общих моделей смесей является добавление всех видов приоритетов к параметрам, которые иногда называются байесовскими (конечными) моделями смесей.
Тематические модели PLSA и LDA являются одними из самых известных сфер применения. Далее следует краткое описание их с точки зрения моделей смесей. Также рассматриваются некоторые другие области применения в интеллектуальном анализе текста, такие, как сравнительный интеллектуальный анализ текста, контекстный интеллектуальный анализ текста и тематический анализ мнений.

1.2.1 Модели тем (тематические модели)
▪ PLSA. PLSA (ВЛСА – вероятностный латентно-семантический анализ) – также известен, как вероятностное латентно-семантическое индексирование (PLSI – probabilistic latent semantic indexing) [3]. В отличие от смеси униграмм, где каждый документ 𝑑𝑖 соединяется с одной латентной переменной 𝑍𝑖 , в PLSA, каждый наблюдаемый термин 𝜔𝑗 в 𝑑𝑖 соответствует разной латентной переменной 𝑍𝑖,𝑗 . Тогда вероятность наблюдения термина 𝜔𝑗 в 𝑑𝑖 определяется смесью следующим образом:

1.1.1 Другие области применения

В этой части статьи кратко представлены некоторые другие области применения моделей смесей в интеллектуальном анализе текста.

▪ Сравнительный интеллектуальный анализ текста. Сравнительный интеллектуальный анализ текста (CTM, англ. Comparative text mining). Есть набор сопоставимых коллекций текста (например, обзоры на различные марки или бренды ноутбуков), задача сравнительного интеллектуального анализа текста состоит в том, чтобы выявить любые латентные (скрытые) общие темы для всех коллекций, а также специальные темы в рамках одной коллекции. Идея состоит в том, чтобы смоделировать каждый документ, как модель смеси фоновой темы, общих тем, которые пересекают различные коллекции, и специфических тем в рамках конкретной коллекции, где тема – это тематическое распределение по терминам, такое же, как в тематических моделях [2].

▪ Контекстный интеллектуальный анализ текста. Контекстный интеллектуальный анализ текста (CtxTM, англ. Contextual text mining), в котором излагаются тематические модели из коллекции текста с контекстной информацией (например, время и местоположение) и моделируются вариации тем в различном контексте. Идея состоит в том, чтобы смоделировать документ в виде модели смеси тем, где тематическое покрытие в документе будет представлять смесь покрытия тем, ориентированного на конкретные документы, и покрытия тем, ориентированного на конкретный контекст.

▪ Тематический анализ мнений. Тематическая смесь мнений (TSM, англ. Topic Sentiment Mixture), которая направлена на моделирование аспектов и мнений в интернет-блогах. Идея состоит в том, чтобы смоделировать статью блога, как модель смеси модели фонового языка, набора моделей языковых тем, и двух (положительной и отрицательной) моделей языковых мнений. Таким образом, не только темы, но и их мнения могут быть обнаружены одновременно для коллекции интернет-блогов. Под мнениями следует понимать положительную или отрицательную оценку конкретной темы.

Заключение.

В настоящее время в интеллектуальном анализе текста широко используются вероятностные модели. Сферы их применения варьируются от тематического моделирования, языкового моделирования, классификации документа и кластеризации до извлечения информации. Модель смесей является одной из наиболее известных вероятностных моделей, применимой в данной области.

Список литературы

1. Yizhou Sun, Hongbo Deng, Jiawei Han. MINING TEXT DATA. PROBABILISTIC MODELS FOR TEXT MINING — 123 p.

2. Федюшкин Н.А., Федосин С.А. Краткий обзор методов и моделей интеллектуального анализа текста— Проблемы и достижения в науке и технике. Сборник научных трудов по итогам международной научно-практической конференции — № 4 — г. Омск — 2017 — 102 с.

3. Федюшкин Н.А., Савинов И.А., Федосин С.А. Латентно-семантический анализ текста — Актуальные проблемы технических наук в России и за рубежом. Сборник научных трудов по итогам международной научно-практической конференции — № 5 — г. Новосибирск — 2018 — 111 с.

Главная Конференции Редколлегия Учреждения Документация Авторы Новости Контакты

Наверх

Цитаты
великих
людей

«Где высоко стоит наука, стоит высоко человек»

Александр Полежаев

ГОРОДА: Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Самара, Челябинск, Омск, Ростов-на-Дону, Уфа, Красноярск, Пермь, Волгоград, Воронеж, Владивосток, Ярославль, Обнинск, Калининград, Орел, Тюмень, Томск, Тамбов, Тверь, Улан-Удэ, Смоленск, Саранск, Сочи, Ставрополь, Сыктывкар, Рязань, Пенза, Оренбург, Набережные Челны, Новгород Великий, Новороссийск, Магадан, Магнитогорск, Липецк, Калуга, Кемерово, Краснодар, Ижевск, Иваново, Иркутск, Забайкальск, Владимир, Вологда, Белгород, Брянск

Разработка и
продвижение: AdHeads