Концепция Хранилищ Данных


Сегодня, СОД реализованные на самой различной основе, работают и при этом порождают многочисленные многотомные электронные архивы. Основное назначение таких систем — оперативная обработка и данные хранятся всего несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД. А т.к., в любой организации функционирует несколько различных несвязанных или слабо связанных СОД, их данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют и источники их получения.

В результате, огромные архивные массивы, накопленные за годы эксплуатации СОД и содержащие самую разнообразную жизненно важную для организации информацию, остаются невостребованными и не могут быть непосредственно использованы в задачах анализа.

Но данные, порожденные в результате функционирования корпоративных СОД — это только часть информации необходимой для принятия корректного бизнес решения. Необходимо включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы, т.к. любое решение принятое исключительно на основе внутренних данных, окажется не вполне корректным.

Автором концепции Хранилищ Данных (Data Warehouse) является Б.Инмон, который определил Хранилища Данных, как: “предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления”, призванные выступать в роли “единого и единственного источника истины” обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.

В основе концепции Хранилищ Данных лежат две основополагающие идеи:

Интеграция ранее разъединенных детализированных данных: исторические архивы, данные из традиционных СОД, данные из внешних источников в едином Хранилище Данных, их согласование и возможно агрегация.

Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа.

Цель концепции Хранилищ Данных — прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.

Таблица 1. Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных

Характеристика

Операционные

Аналитические

"Частота обновления

Высокая частота, маленькими порциями

Малая частота, большими порциями

Источники данных

В основном внутренние

В основном внешние

Объемы хранимых данных

Сотни мегабайт, гигабайты

Гигабайты и терабайты

Возраст данных

Текущие (за период от нескольких месяцев до одного года)

Текущие и исторические (за период в несколько лет, десятки лет)

Назначение

Фиксация, оперативный поиск и преобразование данных

Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование

Предметом концепции Хранилищ Данных являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационной систем.

Таблица 2. Основные требования к данным в Хранилище Данных

Предметная ориентированность

Все данные о некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме.

Интегрированность

Все данные о разных бизнес объектах, взаимно согласованы и хранятся в едином общекорпоративном Хранилище

Не изменчивость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения

Поддержка хронологии

Данные хронологически структурированы и отражают историю, за достаточный, для выполнения задач бизнес анализа и прогнозирования, период времени.

Концепция Хранилищ Данных — это не концепция анализа данных, скорее это концепция подготовки данных для анализа.

Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.

Концепция Хранилищ Данных предполагает не просто единый логический взгляд данные организации, а реализацию единого интегрированного источника данных.

Кроме единого справочника метаданных, средств выгрузки, агрегации и согласования данных, концепция Хранилищ Данных подразумевает: интегрированность, не изменчивость, поддержку хронологии и согласованность данных. Два первых свойства (интегрированность и не изменчивость) влияют на режимы анализа данных , а последние два (поддержка хронологии и согласованность), существенно сужают список решаемых аналитических задач.

Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций.

Основным требованием аналитика, является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.