Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

АНАЛИЗ КАЧЕСТВА БОЛЬШИХ БАЗ МЕДИКО-СТАТИСТИЧЕСКИХ ДАННЫХ

Авторы:
Город:
Москва
ВУЗ:
Дата:
27 августа 2016г.

Органы управления здравоохранением Российской Федерации располагают системой государственной медицинской статистики, содержащей в себе данные о состоянии общественного здоровья, ресурсах лечебно-профилактических учреждений и результативности их деятельности. Её унифицированность дает возможность получать и анализировать сопоставимую информацию в масштабе всей страны. Однако наряду с достоинствами, эта система имеет недостатки, главный из которых заключается в том, что данные государственной статистики могут быть в той или иной степени искажены под влиянием «человеческого» фактора. Действительно, известно немало случаев, когда в угоду политическим, групповым или иным интересам информация подвергалась произвольным корректировкам. Другим недостатком, повышающим неопределенность данных статистики, является наличие неизбежных при создании больших баз пропусков информации и технических ошибок. В связи с этим возникает вопрос – может ли официальная медицинская статистика служить надежной основой для подготовки управленческих решений?

Поскольку названные выше недостатки характерны для всех сколько- нибудь значительных систем мониторинга, не следует считать, что можно создать идеальную, независимую от влияния человека базу данных. В связи с этим усилия должны быть направлены на повышение качества уже имеющейся статистической информации, как за счет проведения соответствующих организационных мероприятий, так и использования специальных методов контроля.

Частым дефектом является наличие пропусков информации, и это требует принятия соответствующих решений, поскольку большинство известных математических методов не рассчитано на обработку баз данных, имеющих пробелы. Для этого используются разные методы восстановления пропущенных значений, или, точнее, заполнения пропусков:

1.      заполнение пропуска значением соответствующего признака из соседней строки.

2.      заполнение пропуска средним значением величин, находящихся в соответствующем столбце базы данных.

3.      заполнение пропуска методом ближайшего соседа. Суть состоит в том, что среди всех строк таблицы ищется ближайшая к строке, содержащей заполняемый пробел. В качестве меры близости строк таблицы обычно используют евклидово расстояние между ними в пространстве используемых признаков. Пробел заполняется значением соответствующего признака из ближайшей строки.

4.      заполнение пропуска методом многомерной линейной регрессии. Для предсказания пропущенного значения используется линейная регрессионная модель зависимости признака-столбца, содержащего данный пробел, от значений остальных признаков-столбцов.

Существуют и более сложные методы заполнения пропусков, использующие корреляционный и кластерный анализ [3], лингвистические методы [1], нейросетевые алгоритмы [5].

Наиболее полно проблема заполнения пропусков информации в таблицах наблюдений была изучена Н.Г.Загоруйко [3,2]. Широко известно семейство алгоритмов ZET, в основе которых лежит предположение об информационной избыточности массивов числовой информации, организованных в виде таблиц. Наличие такой избыточности во многих случаях позволяет достаточно успешно предсказывать значения отдельных отсутствующих элементов таблицы.

Подобные алгоритму ZET методы могут быть использованы не только для заполнения пропусков значений признаков, но и для оценки достоверности содержащихся в таблицах данных. Для этого в программных реализациях таких алгоритмов организуется режим контроля, называемый иногда режимом редактирования, при котором несколько элементов таблицы по очереди или даже все её элементы «объявляются» пропусками, и с помощью алгоритма предсказываются их значения. Наличие существенных отличий предсказанных значений от реальных может служить основанием для сомнений в достоверности содержащихся в базе данных.

Результатом работы таких алгоритмов в режиме контроля является информация об ошибках предсказания отдельных элементов, а также усредненных ошибках по столбцам, строкам и всей таблице в целом. Под ошибкой предсказания элемента таблицы понимается процентное отношение модуля разности между реальным и предсказанными значениями к величине диапазона изменения значения соответствующего признака. Подобный контроль статистических данных позволяет оценить их качество и принять решение о возможности использования в процессе управления.

Материал и методы

Объектом   служили   базы   данных   медицинского   информационно-

 

аналитического центра (МИАЦ) Свердловской области за 2011-2014 гг. Анализ качества содержащихся в них данных проводился с помощью алгоритма SPACE [4], который является модификацией рассмотренного выше алгоритма ZET. Оценка количества пропусков и степени достоверности данных охватывала 60 муниципальных образований и следующие группы медико-статистических показателей: характеризующие состояние популяционного здоровья (смертность, заболеваемость) - 18 показателей; характеризующие ресурсы муниципальных систем здравоохранения – 7 показателей; характеризующие деятельность муниципальных систем здравоохранения – 14 показателей.

Результаты и обсуждение

 

На первом этапе была проведена оценка полноты данных, содержащейся в базах МИАЦ Свердловской области. В период 2011-2013 гг. из 39 показателей по 29-30 пропусков не было отмечено, еще по 8-9 имелось по одному пропуску, и только по 1-2 показателям таковых было 2 и более. Однако в 2014 г. количество пропусков данных возросло: лишь по 23 статистическим показателям они отсутствовали, по 10 имелся 1 пропуск и по

6 их было более двух. Согласно полученным результатам наименьшая заполненность данными стабильно отмечалась по блоку показателей, характеризующих результативность деятельности муниципальных систем здравоохранения.

Результаты оценки полноты данных применительно к муниципальным образованиям приведены в таблице 1. Как видно из них, в 2011-2014 гг. из 60 территорий по 53-57 пропуски отсутствовали и еще по 2-4 имелся лишь один. В то же время, обращает на себя внимание то, что в 2014 г. от 2 до 7 пропусков информации было отмечено в 5 муниципальных системах здравоохранения.

Таблица 1 - Количество пропусков данных по муниципальным образованиям в базах данных МИАЦ Свердловской области, 2011-2014 гг.

 

 

Год

Количество муниципальных образований, по которым имеются

 

пропуски данных

Нет пропусков

1 пропуск

2 и более пропусков

2011

56

3

1

2012

54

4

2

2013

57

2

1

2014

53

2

5

 

 

На втором этапе был проведен анализ достоверности содержащейся в рассматриваемых базах данных статистической информации. Согласно полученным результатам в период 2011-2014 гг. по 27-28 показателям из 39 величина средней ошибки была невелика (до 10%), а по 18-20 вообще не превышала 5%. Тем не менее, по части из них (11-12 показателей) различия между предсказанными значениями и содержащимися в базах данных составляли 11-19%. К этой категории относились показатели, характеризующие смертность населения и величину функции врачебной должности разных специалистов поликлиник.

Результаты оценки достоверности статистической информации применительно к муниципальным образованиям приведены в таблице 2. Как видно из них, из 60 территорий лишь по 3-10 средняя ошибка была выше 10%. Вместе с тем, обращает на себя внимание увеличение количества таких муниципальных образований в 2014 году.

Таблица 2 – Оценка достоверности статистической информации по муниципальным образованиям, содержащейся в базах данных МИАЦ Минздрава Свердловской области, 2011-2014 гг.

 

Год

Количество показателей, имеющих величину средней ошибки

до 5%

5-10%

более 10%

2011

10

46

5

2012

12

43

4

2013

11

45

3

2014

4

46

10

 

 Резюмируя итоги оценки качества статистической информации, содержащейся в базах МИАЦ Свердловской области, можно сделать заключение о в целом достаточно высокой её надежности. Вместе с тем, в результате анализа была выявлена группа муниципальных образований, статистические данные по которым отличаются повышенной неопределенностью. Таким образом, использование программных средств позволило получить объективные результаты, свидетельствующие о возможности использования этого источника статистической информации для корректного анализа и подготовки обоснованных управленческих решений.



Список литературы

 

 

1.     Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.: Наука, 1983. - 464с.

2.     Загоруйко  Н.   Г.   Прикладные  методы   анализа  данных  и   знаний.Новосибирск. - Издательство Института математики, 1999. - 270с.

 3.     Загоруйко Н. Г., Ёлкина В. Н., Лбов Г. С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, 1985. – 110с.

4.     Казанцев В.С. Математические методы и новые информационные технологии в решении медицинских задач.- Екатеринбург, 2002.- 79 с.

5.     Россиев А.А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах // Методы нейроинформатики: сборник научных трудов / Под ред. А.Н.Горбаня. – Красноярск: КГТУ, 1998, - с.6-22.