Сегодня, СОД реализованные на самой различной основе, работают и при этом порождают многочисленные многотомные электронные архивы. Основное назначение таких систем — оперативная обработка и данные хранятся всего несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД. А т.к., в любой организации функционирует несколько различных несвязанных или слабо связанных СОД, их данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют и источники их получения.
В результате, огромные архивные массивы, накопленные за годы эксплуатации СОД и содержащие самую разнообразную жизненно важную для организации информацию, остаются невостребованными и не могут быть непосредственно использованы в задачах анализа.
Но данные, порожденные в результате функционирования корпоративных СОД — это только часть информации необходимой для принятия корректного бизнес решения. Необходимо включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы, т.к. любое решение принятое исключительно на основе внутренних данных, окажется не вполне корректным.
Автором концепции Хранилищ Данных (Data Warehouse) является Б.Инмон, который определил Хранилища Данных, как: “предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления”, призванные выступать в роли “единого и единственного источника истины” обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.
В основе концепции Хранилищ Данных лежат две основополагающие идеи:
Интеграция ранее разъединенных детализированных данных: исторические архивы, данные из традиционных СОД, данные из внешних источников в едином Хранилище Данных, их согласование и возможно агрегация.
Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа.
Цель концепции Хранилищ Данных — прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.
Таблица 1. Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных
Характеристика |
Операционные |
Аналитические |
"Частота обновления |
Высокая частота, маленькими порциями |
Малая частота, большими порциями |
Источники данных |
В основном внутренние |
В основном внешние |
Объемы хранимых данных |
Сотни мегабайт, гигабайты |
Гигабайты и терабайты |
Возраст данных |
Текущие (за период от нескольких месяцев до одного года) |
Текущие и исторические (за период в несколько лет, десятки лет) |
Назначение |
Фиксация, оперативный поиск и преобразование данных |
Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование |
Предметом концепции Хранилищ Данных являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационной систем.
Таблица 2. Основные требования к данным в Хранилище Данных
Предметная ориентированность |
Все данные о некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме. |
Интегрированность |
Все данные о разных бизнес объектах, взаимно согласованы и хранятся в едином общекорпоративном Хранилище |
Не изменчивость |
Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения |
Поддержка хронологии |
Данные хронологически структурированы и отражают историю, за достаточный, для выполнения задач бизнес анализа и прогнозирования, период времени. |
Концепция Хранилищ Данных — это не концепция анализа данных, скорее это концепция подготовки данных для анализа.
Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.
Концепция Хранилищ Данных предполагает не просто единый логический взгляд данные организации, а реализацию единого интегрированного источника данных.
Кроме единого справочника метаданных, средств выгрузки, агрегации и согласования данных, концепция Хранилищ Данных подразумевает: интегрированность, не изменчивость, поддержку хронологии и согласованность данных. Два первых свойства (интегрированность и не изменчивость) влияют на режимы анализа данных , а последние два (поддержка хронологии и согласованность), существенно сужают список решаемых аналитических задач.
Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций.
Основным требованием аналитика, является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.