Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

СОВРЕМЕННАЯ ИНФОРМАТИКА КАК ОСНОВА НАУЧНЫХ ИССЛЕДОВАНИЙ И ПРИКЛАДНЫХ РАЗРАБОТОК

Авторы:
Город:
Москва
ВУЗ:
Дата:
12 марта 2016г.

Целью проведенной работы было создание наиболее удобного лингвистического инструмента для пользователей научно-технической литературой в области физики и техники для поиска и систематизации информации с использованием имеющихся наиболее востребованных отечественных и зарубежных классификационных систем. На основе сравнительного анализа этих систем разработан классификационный (терминологический) словарь, позволяющий ускорить поиск и систематизацию информации и использовать его в автоматизированных системах.

Управление запасами научного знания и оценка достижений научных исследований требуют согласования рубрикаторов информационных систем, хранящих сведения о научных разработках в виде публикаций и квалификационных работ (диссертаций). Соответственно этой задаче разработана система сопоставления рубрик следующих классификаций [1]:

-       Государственный рубрикатор научно-технической информации (ГРНТИ) – Довольно простая классификационная система, охватывающая весь универсум знаний, согласованная с традиционной структурой народного хозяйства России. Обязателен для обозначения тематического содержания всех научных материалов в автоматизированных системах.

-     Универсальная десятичная классификация  (УДК) – Наиболее развитая  классификационная система универсального охвата, используемая библиотеками всего мира, в России обязательна для индексирования всех печатных изданий и научно-технических информационных ресурсов.

-     Библиотечно-библиографическая классификация (ББК) – Национальная российская классификация, используемая большинством библиотек, обязательная для индексирования содержания печатных изданий.

-    Международная патентная классификация (МПК) – Классификация, используемая для систематизации фондов патентной информации во всемирном масштабе.

-       Общероссийский классификатор специальностей высшей научной квалификации (ОКСВНК) – Классификация, определяющая области компетенции специалистов высшего уровня и систематизирующая фонды сведений об их научных достижениях, отраженных в диссертациях. Используется Высшей аттестационной комиссией. В дальнейшем этот классификатор будем обозначать условным наименованием «Номенклатура ВАК».

-    Классификация областей науки Организации экономического содействия и развития (ОЭСР) – Схема построения международной статистической отчётности о состоянии и достижениях в области науки и образования

-     Классификация библиографической системы Web of Science (WoS) – Схема организации данных о наиболее авторитетных в мире научных публикациях, их авторах, организациях и вкладе их в научных прогресс. Используется в России для оценки эффективности научной деятельности.

-    Классификация библиографической системы Scopus – Схема организации данных в наиболее полном банке библиографических сведений о мировом потоке научной информации.

-   Классификация Российского индекса научного цитирования (РИНЦ) – Схема организации данных в банке библиографических сведений о научных трудах российских исследователей, их авторах, организациях и вкладе их в научных прогресс. Используется для оценки эффективности научной деятельности. Классификация должна совпадать с ГРНТИ.

-   Классификатор Российского научного фонда (РНФ) – Схема данных об организации, финансировании и результатах исследований, поддержанных Российским научным фондом.

-      Классификатор Российского фонда фундаментальных исследований (РФФИ) – Схема данных об организации, финансировании и результатах исследований в области фундаментальных наук, поддержанных Российским фондом фундаментальных исследований.

-    Классификатор Российского гуманитарного научного фонда (РГНФ) – Схема данных об организации, финансировании и результатах исследований в области гуманитарных наук, поддержанных Российским гуманитарным научным фондом.

Целью формирования системы соответствий между различными классификаторами в сфере НТИ является выработка рекомендаций для развития системы тематической классификации НТИ в целях интенсификации информационного обмена в научно-технической и инновационной сферах и повышения результативности сектора исследований и разработок.

Цель установления соответствий ГРНТИ с другими классификациями состоит в том, чтобы получить систему таблиц соответствия классификаторов ГРНТИ – ОЭСиР, ГРНТИ – WoS, ГРНТИ – SCOPUS, ГРНТИ – УДК, ГРНТИ – ББК, ГРНТИ – РНФ, ГРНТИ – РФФИ, ГРНТИ – РГНФ, ГРНТИ – МПК. Таблицы должны быть составлены с учётом необходимой глубины классификации международной статистики по науке и технике (ОЭСиР), а также сведений о вкладе коллективов и лиц в научные данные (WoS).

Для установления соответствий классификационных систем была сформирована реляционная база данных классификационных рубрик, которые имеют следующие атрибуты: (а) код рубрики, (б) наименование рубрики, (в) справочно-ссылочный аппарат рубрики. Между рубриками различных классификаций установлены соответствия, обладающие атрибутами: (а) тип соответствия, (б) вес соответствия, (в) версия. Тип соответствия выбирается путём интеллектуальной оценки из числа четырёх возможностей: (а) эквивалентность, совпадение объёмов понятий, (б) вхождение объёма понятия рубрики ГРНТИ в сопоставленную рубрику, (в) вхождение объёма понятия сопоставленной рубрики в рубрику ГРНТИ, (г) существенное пересечение объёмов понятий рубрик. Вес соответствия устанавливается при процедуре сопоставления на основе совместной встречаемости; его значение равно числу документов, которые имеют индексы обеих рубрик. Атрибут «версия» должен идентифицировать исполнителя, принцип определения соответствия, исходные материалы и этап выполнения работы.

Для дальнейшего формирования терминологических словарей в реляционной базе данных были предусмотрены также следующие категории сущностей:

-   Термины, связанные один ко многим с рубриками, словарными статьями, словарями-источниками

- Словари-источники со следующими атрибутами: наименование, библиографическое описание, URL (если есть).

- Словарные статьи, связанные однозначно со словарем-источником и термином.

Основным механизмом формирования системы соответствий между различными классификаторами в сфере НТИ является интеллектуальный анализ смыслового соответствия рубрик.

Интеллектуальный анализ смыслового соответствия рубрик проводится при установлении соответствия ГРНТИ рубрикам УДК; ББК; МПК; WoS и ОЭСР; SCOPUS; РНФ; РФФИ; РГНФ; РИНЦ; ОКСВНК, а также при

проверке соответствий, установленных автоматически.

Для рассматриваемой рубрики ГРНТИ в каждой сопоставляемой классификации отыскиваются рубрики в определённой мере соответствующие по смыслу. Устанавливается три меры смыслового соответствия:

-   эквивалентность по содержанию (совпадение объёмов понятия),

-    иерархическая подчинённость (включение объёма рубрики ГРНТИ в сопоставленную рубрику, либо наоборот)

-   ассоциативная связь (значительное пересечение объёмов понятий).

В качестве соответствующих указывается одна рубрика, наиболее точно охватывающая содержание рассматриваемой рубрики ГРНТИ, и перечень включённых рубрик, наиболее полно исчерпывающих содержание данной рубрики ГРНТИ и не включённых друг в друга. Охватывающая рубрика получает статус «вышестоящая», а включённые рубрики получают статус «нижестоящая». В случае отсутствия охватывающих рубрик рубрике ГРНТИ сопоставляются только нижестоящие рубрики. В исключительных случаях могут быть указаны две или три (не более) охватывающие рубрики, получающие статус вышестоящих, а также может быть указано две или более рубрик, пересекающихся по содержанию с данной рубрикой ГРНТИ, и объединение которых полностью включает в себя её содержание. Такие пересекающиеся рубрики получают статус «ассоциативные». Этот статус получают также рубрики, существенно пересекающиеся по содержанию с рассматриваемой рубрикой ГРНТИ, которые указываются как соответствующие рубрике ГРНТИ при отсутствии у неё вышестоящих и нижестоящих рубрик.

Интеллектуальный анализ является единственным инструментом установления соответствия рубрик ГРНТИ рубрикам классификаторов РФФИ, РНФ, РГНФ, ОЭСР, WoS и SCOPUS. Методами интеллектуального анализа находятся соответствия другим классификациям в первую очередь для рубрик верхних уровней ГРНТИ. Для рубрики ГРНТИ в каждой сопоставляемой классификации отыскиваются рубрики в определённой мере соответствующие по смыслу.

Общее число рубрик ГРНТИ – около 8000. Из них на первом уровне имеется 69, а на втором – около 500 рубрик.

В УДК и ББК в зависимости от издания насчитывается до 100 000 рубрик в каждой классификации. Объём Номенклатуры ВАК оценивается числом в 2 000 рубрик. Объём МКИ – около 80 000 рубрик. Из этого числа должно быть выбрано для сопоставления в среднем не менее двух рубрик в каждой из четырёх больших классификаций на каждую из 8 тысяч рубрик ГРНТИ. Следовательно, общее число сопоставленных пар рубрик должно превосходить 40 000.

Порядок проведения работ характеризовался следующими этапами.

Этап «А». Определение круга словарей-источников, которые будут использованы для поиска определений терминов по данной тематике. В число словарей-источников всегда входит Большая российская (советская) энциклопедия и база данных стандартизованной терминологии Росстандарта. Кроме того, в круг словарей источников должен входить специализированный терминологический словарь по тематике, наиболее близкой тематике словаря.

Этап «Б». Анализ рубрик ГРНТИ. На этом этапе выявлены термины, входящие в наименование (и дополнительные сведения) рубрики ГРНТИ, для которой формируется словарь, а также в наименования подчинённых рубрик второго уровня, затем – в наименования рубрик верхнего уровня других классификаций, соответствующих данной рубрике ГРНТИ.

Этап «В». Выявленные термины поочерёдно подают в качестве лексического запроса на поиск в массивах словарей-источников и обнаруженные там словарные статьи заносят в список статей формируемого терминологического словаря с указанием дополнительно словаря-источника каждой статьи. Если по некоторому термину ни в одном словаре-источнике не обнаружено словарной статьи, то этот термин включают в специальный список дополнительных ключевых слов данной рубрики ГРНТИ.

Этап «Г». Список словарных статей является заготовкой для формируемого терминологического словаря. Он форматируется подходящим текстовым редактором для дальнейшей обработки и получения выходных форм.

Этап «Д». В списке выявленных словарных статей устраняют дублирование, объединяя идентичные словарные статьи, полученные из разных словарей-источников (если такие дублеты обнаруживаются).

Этап «Е». Если число выявленных словарных статей не достигло 15 (ожидаемый средний объём формируемых терминологических словарей), то производят анализ наименований рубрик ГРНТИ третьего уровня, подчинённых заглавной рубрике данного терминологического словаря и подчинённых рубрик сопоставленных классификаций. Новые термины проходят обработку согласно пунктам «В», «Г», «Д» последовательно.

Этап «Ж». После выполнения пункта «Е» набор статей терминологического словаря считается достаточным, и производят его редактирование, располагая словарные статьи в алфавитном порядке заглавных терминов и оформляя их в едином стиле. Дополнительные ключевые слова также сортируются по алфавиту, но оставляя в конце словаря после списка словарных статей.

Этап «З». Упорядоченный список словарных статей оформляют метаданными, включающими:

-   наименование сформированного терминологического словаря, код и наименование рубрики ГРНТИ для тематики словаря, список идентификаторов словарей-источников,

-   идентификатор (имя) исполнителя, необходимое для контроля и управления работой,

-   дата последнего изменения в словаре, для указания на этап работ по формированию словаря,

-   оглавление, содержащее указания на начальные страницы словарных статей для каждого термина.

Для обеспечения работ по формированию словарей разработана компьютерная система формирования словарей, которая оперирует реляционной базой данных.

Пример реализации такого подхода приведен в [2].

Работа проводилась в соответствии с контрактом и заданием Минобрнауки РФ (уникальный идентификатор проекта 2014-14-573-0024-001).

 

Список литературы

1.     Белоозеров В.Н. Технология разработки словарей по лексике классификационных систем //  XIX научно-практический семинар «Информационное обеспечение науки: новые технологии» (Таруса, 24- 28 августа 2015 г.).

2.     Белоозеров В.Н., Бубякин Г.Б., Верная Л.А., Крутова В.Г. Разработка терминологического словаря по физике в системе сопоставления информационных классификаций // II Международная научно- практическая конференция «Основные проблемы естественных и математических наук» (г.Волгоград, 10 октября 2015 г.)