Выступление: "Формирование системы анализа больших данных на основе базы знаний ИЭОПП СО РАН"

Выступление состоялось в рамках прошедшей 22-24 марта 2023 г. V-й Всероссийской научно-практической конференции «Анализ и прогнозирование развития экономики России», организованной ИНП РАН и ИЭОПП СО РАН.

Презентация

Тезисы

Опубликованы в сборнике Экономическая политика России в межотраслевом и пространственном измерении : материалы конференции ИНП РАН и ИЭОПП СО РАН по межотраслевому и региональному анализу и прогнозированию (22-24 марта, Россия, Московская область). Том 5

Формирование системы анализа больших данных на основе базы знаний ИЭОПП СО РАН^[1]

Для решения задач анализа социально-экономического развития Азиатской России на основе синергии транспортной доступности и системных знаний о природно-ресурсном и промышленном потенциалах возникает необходимость расширения традиционного инструментария и создания единой Базы Знаний (БЗ). Такая БЗ разрабатывается в Институт экономики и организации промышленного производства Сибирского отделения Российской академии наук.

Создание БЗ проходит в несколько этапов:

определение целей и задач её формирования,
выстраивания архитектуры БЗ,
создания Базы Данных (БД) и настройка её автоматического пополнения,
формирование инструментария и модельного аппарата, для создания новых знаний с последующим их сохранением в системы БЗ,
разработка веб-интерфейса.

Последующее расширение БЗ проходит в рамках развития последних трех направлений. Текущее наполнение БД является интенсивным и возникают проблемы, связанные с обработкой больших данных. Особенно это касается данных о компаниях, которые содержат информацию о 14.5 млн. компаний, включая бухгалтерскую отчетность, ОКВЭД и Гис-координаты. В ходе анализа данных, были выявлены ошибки и неточности, которые искажают результаты их аналитики.

В ходе интервью с экспертами было выявлено, что основной ошибкой при работе с данными из используемых нами источников при формировании базы данных компаний был резкий прирост выручки более чем в 100 или даже в 1000 раз за год. Также в ходе разведывательного анализа данных был выявлен ряд ошибок в других показателях отчётности компании. Предположительно, данные ошибки появились в следствии некорректно внесённой информации первоисточником. Для выявления ошибок, был разработан “Модуль по оценки уровня достоверности данных о финансовой отчётности компаний”, в рамках которого находятся компании с темпом прироста выручки превышающем 1000 раз и отклонением показатели отчётности от агрегированных показателей.

Были сформированы следующие этапы разработки программного модуля для реализации метода проверки темпов прироста компании:

Загрузка необходимых библиотек,
Загрузка данных в программу,
Получение уникального списка id компаний по региону,
Реализация функции для определения значения параметра,
Реализация функции для расчета суммы параметров компании,
Реализация функции для расчета темпов прироста,
Реализация функции для нахождения ошибок в других показателях отчетности компании,
Реализация цикла для расчета темпов прироста и проверки прочих показателей отчетности.

В результате работы программы получено однозначное соответствие компании и параметра, который определяет степень достоверности данных:

0 – все отлично, ошибок нет,

1 – темп прироста больше 100,

2 – темп прироста больше 1000,

3 – ошибка в показателях отчетности,

13 – ошибка в темпах прироста и показателях отчетности,

23 – ошибка в темпах прироста и показателях отчетности.

Данные значения параметров не являются конечным выводом, это лишь маркером для экспертов, которые будут осуществлять дальнейшую проверку показателей компании.

Финальным этапом реализации рассмотренного алгоритма является его добавление в базу данных компаний. Это позволяет в процессе анализа или пропустить компании с недостоверными данными или их индивидуально обработать. В целом, доля компаний с ошибками баланса составляет 4.46%, а с всплесками 0.52%. Не смотря на небольшой процент компаний с всплесками, 1000 кратное завышение показателей создает сильное смешение аналитических результатов.

Но работа с большими данными не останавливается только на поиске ошибок, а заключается в анализе и прогнозировании, поэтому на следующем этапе был сформирован Модуль по обработке, выявлению взаимосвязей и прогнозированию экономических панельных данных.

Методика проведения исследования включала несколько этапов. В начале была разработана система подготовки данных для применения алгоритмов машинного обучения. В рамках этого этапа проводился разведывательный анализ данных, обработка пропущенных значений и проведение тестов на стационарность и гетероскедастичность. Для дополнительной проверки необходимости логарифмирования показателей был разработан алгоритм, реализованный в рамках комплексной экспертной тестово-аналитической системы.

Следующим шагом был поэтапный процесс поиска взаимосвязей в данных. Были построены матрицы коинтегрированных показателей, а также матрица связанных показателей на основе теста Гренджера, в которой определена статистически значимая связь между соответствующими показателями, где один показатель является причиной, а другой – следствием. Затем было проведено моделирование и прогнозирование показателей с использованием алгоритмов машинного обучения и нейронных сетей.

В модельный пул были включены следующие модели машинного обучения и нейронных сетей:

Рекуррентная нейронная сеть (RNN),
Рекуррентная нейронная сеть c долгой краткосрочной памятью (LSTM),
Градиентный бустинг (Gradient boosting).

В результате была разработана система автоматического поиска взаимосвязей и прогнозирования, которая была реализована в виде программного продукта. Она обладает высокой степенью автоматизации и позволяет более эффективно находить взаимосвязи между различными переменными и предсказывать будущие прогнозные значения на основе имеющихся данных.

Работа с большими данными требует не только системы их прогнозирования, но и модульных блоков их агрегирования и анализа. Поэтому в рамках развития БЗ, были разработаны аналитические блоки данных об инвестиционных проектах, компаниях и таможенной статистике, где после выбора отраслей, регионов и интересующих вас показателей пользователю предоставляются аналитические материалы в виде графиков и таблиц. Привязка всех показателей к ГИС-координатам позволяет развивать блоки ГИС-моделирования и генерировать аналитическую информацию по конкретной территории, выделенной пользователем на карте.

Все рассматриваемые модули направлены на преодоление проблем анализа больших данных и являются вспомогательными инструментами исследователя.
[1] Работа выполнена по результатам исследования, проводимого при финансовой поддержке Министерства науки и высшего образования России в рамках крупного научного проекта «Социально-экономическое развитие Азиатской России на основе синергии транспортной доступности, системных знаний о природно-ресурсном потенциале, расширяющегося про-странства межрегиональных взаимодействий». Соглашение № 075-15-2020-804 от 02.10.2020 (грант № 13.1902.21.0016).

Презентация

Тезисы

Формирование системы анализа больших данных на основе базы знаний ИЭОПП СО РАН[1]

Формирование системы анализа больших данных на основе базы знаний ИЭОПП СО РАН^[1]