Выступление состоялось в рамках прошедшей 22-24 марта 2023 г. V-й Всероссийской научно-практической конференции «Анализ и прогнозирование развития экономики России», организованной ИНП РАН и ИЭОПП СО РАН.
Презентация
Тезисы
Формирование системы анализа больших данных на основе базы знаний ИЭОПП СО РАН[1]
Для решения задач анализа социально-экономического развития Азиатской России на основе синергии транспортной доступности и системных знаний о природно-ресурсном и промышленном потенциалах возникает необходимость расширения традиционного инструментария и создания единой Базы Знаний (БЗ). Такая БЗ разрабатывается в Институт экономики и организации промышленного производства Сибирского отделения Российской академии наук.
Создание БЗ проходит в несколько этапов:
- определение целей и задач её формирования,
- выстраивания архитектуры БЗ,
- создания Базы Данных (БД) и настройка её автоматического пополнения,
- формирование инструментария и модельного аппарата, для создания новых знаний с последующим их сохранением в системы БЗ,
- разработка веб-интерфейса.
Последующее расширение БЗ проходит в рамках развития последних трех направлений. Текущее наполнение БД является интенсивным и возникают проблемы, связанные с обработкой больших данных. Особенно это касается данных о компаниях, которые содержат информацию о 14.5 млн. компаний, включая бухгалтерскую отчетность, ОКВЭД и Гис-координаты. В ходе анализа данных, были выявлены ошибки и неточности, которые искажают результаты их аналитики.
В ходе интервью с экспертами было выявлено, что основной ошибкой при работе с данными из используемых нами источников при формировании базы данных компаний был резкий прирост выручки более чем в 100 или даже в 1000 раз за год. Также в ходе разведывательного анализа данных был выявлен ряд ошибок в других показателях отчётности компании. Предположительно, данные ошибки появились в следствии некорректно внесённой информации первоисточником. Для выявления ошибок, был разработан “Модуль по оценки уровня достоверности данных о финансовой отчётности компаний”, в рамках которого находятся компании с темпом прироста выручки превышающем 1000 раз и отклонением показатели отчётности от агрегированных показателей.
Были сформированы следующие этапы разработки программного модуля для реализации метода проверки темпов прироста компании:
- Загрузка необходимых библиотек,
- Загрузка данных в программу,
- Получение уникального списка id компаний по региону,
- Реализация функции для определения значения параметра,
- Реализация функции для расчета суммы параметров компании,
- Реализация функции для расчета темпов прироста,
- Реализация функции для нахождения ошибок в других показателях отчетности компании,
- Реализация цикла для расчета темпов прироста и проверки прочих показателей отчетности.
В результате работы программы получено однозначное соответствие компании и параметра, который определяет степень достоверности данных:
0 – все отлично, ошибок нет,
1 – темп прироста больше 100,
2 – темп прироста больше 1000,
3 – ошибка в показателях отчетности,
13 – ошибка в темпах прироста и показателях отчетности,
23 – ошибка в темпах прироста и показателях отчетности.
Данные значения параметров не являются конечным выводом, это лишь маркером для экспертов, которые будут осуществлять дальнейшую проверку показателей компании.
Финальным этапом реализации рассмотренного алгоритма является его добавление в базу данных компаний. Это позволяет в процессе анализа или пропустить компании с недостоверными данными или их индивидуально обработать. В целом, доля компаний с ошибками баланса составляет 4.46%, а с всплесками 0.52%. Не смотря на небольшой процент компаний с всплесками, 1000 кратное завышение показателей создает сильное смешение аналитических результатов.
Но работа с большими данными не останавливается только на поиске ошибок, а заключается в анализе и прогнозировании, поэтому на следующем этапе был сформирован Модуль по обработке, выявлению взаимосвязей и прогнозированию экономических панельных данных.
Методика проведения исследования включала несколько этапов. В начале была разработана система подготовки данных для применения алгоритмов машинного обучения. В рамках этого этапа проводился разведывательный анализ данных, обработка пропущенных значений и проведение тестов на стационарность и гетероскедастичность. Для дополнительной проверки необходимости логарифмирования показателей был разработан алгоритм, реализованный в рамках комплексной экспертной тестово-аналитической системы.
Следующим шагом был поэтапный процесс поиска взаимосвязей в данных. Были построены матрицы коинтегрированных показателей, а также матрица связанных показателей на основе теста Гренджера, в которой определена статистически значимая связь между соответствующими показателями, где один показатель является причиной, а другой – следствием. Затем было проведено моделирование и прогнозирование показателей с использованием алгоритмов машинного обучения и нейронных сетей.
В модельный пул были включены следующие модели машинного обучения и нейронных сетей:
- Рекуррентная нейронная сеть (RNN),
- Рекуррентная нейронная сеть c долгой краткосрочной памятью (LSTM),
- Градиентный бустинг (Gradient boosting).
В результате была разработана система автоматического поиска взаимосвязей и прогнозирования, которая была реализована в виде программного продукта. Она обладает высокой степенью автоматизации и позволяет более эффективно находить взаимосвязи между различными переменными и предсказывать будущие прогнозные значения на основе имеющихся данных.
Работа с большими данными требует не только системы их прогнозирования, но и модульных блоков их агрегирования и анализа. Поэтому в рамках развития БЗ, были разработаны аналитические блоки данных об инвестиционных проектах, компаниях и таможенной статистике, где после выбора отраслей, регионов и интересующих вас показателей пользователю предоставляются аналитические материалы в виде графиков и таблиц. Привязка всех показателей к ГИС-координатам позволяет развивать блоки ГИС-моделирования и генерировать аналитическую информацию по конкретной территории, выделенной пользователем на карте.
Все рассматриваемые модули направлены на преодоление проблем анализа больших данных и являются вспомогательными инструментами исследователя.
[1] Работа выполнена по результатам исследования, проводимого при финансовой поддержке Министерства науки и высшего образования России в рамках крупного научного проекта «Социально-экономическое развитие Азиатской России на основе синергии транспортной доступности, системных знаний о природно-ресурсном потенциале, расширяющегося про-странства межрегиональных взаимодействий». Соглашение № 075-15-2020-804 от 02.10.2020 (грант № 13.1902.21.0016).