Способы аналитической обработки данных


Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки.

Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются в литературе Информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статических СППР, оборачивается значительной потерей гибкости.

Динамические СППР, напротив, ориентированы на обработку нерегламентированных запросов аналитиков к данным. Наиболее глубоко требования к таким системам рассмотрел E. F. Codd в статье [11], положившей начало концепции OLAP. Работа аналитиков с этими системами заключается в интерактивной последовательности формирования запросов и изучения их результатов.

Таблица 3. Сравнение характеристик статического и
динамического анализа

Характеристика

Статический анализ

Динамический анализ

Типы вопросов

Сколько? Как? Когда?

Почему? Что будет если?

Время отклика

Не регламентируется

Секунды

Типичные операции

Регламентированный отчет, диаграмма

Последовательность интерактивных отчетов, диаграмм, экранных форм. Динамическое изменение уровней агрегации и срезов данных.

Уровень аналитических требований

Средний

Высокий

Тип экранных форм

В основном определенный заранее, регламентированный

Определяемый пользователем

Уровень агрегации данных

Детализированные и суммарные

В основном суммарные

Возраст данных

Исторические и текущие и прогнозируемые

Исторические, текущие и прогнозируемые

Типы запросов

В основном предсказуемые

Непредсказуемые, от случаю к случаю

Назначение

Регламентированная аналитическая обработка

Многопроходный анализ, моделирование и построение прогнозов

Но динамические СППР могут действовать не только в области оперативной аналитической обработки (OLAP); поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах.

Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных.

Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP). Здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной БД.

Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных (ИАД, Data Mining), главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

В отдельную область может быть выделен анализ отклонений (например, в целях отслеживания колебаний биржевых курсов). В качестве примера может быть приведен статистический анализ рядов динамики. Чаще, однако, этот тип анализа относят к области закономерностей.

Полная структура информационно-аналитической системы, построенной на основе хранилища данных, показана на рис. 1. В конкретных реализациях отдельные компоненты этой схемы часто отсутствуют.

Способы аналитической обработки данных

Концепция Витрин Данных (Data Mart) была предложена Forrester Research ещё в 1991. По мысли авторов, Витрины Данных: — множество тематических БД содержащих информацию, относящуюся к отдельным аспектам деятельности организации, должны были стать реальной альтернативой Информационным Хранилищам (Information Warehouse) фирмы IBM.

Концепция Витрин Данных имеет ряд несомненных достоинств:

Аналитики видят и работают только с теми данными, которые им реально нужны.

Целевая БД Витрины Данных, максимально приближена к конечному пользователю.

Витрины Данных обычно содержат тематические подмножества заранее агрегированных данных, их проще проектировать и настраивать.

Для реализации Витрин Данных не требуются высоко мощная вычислительная техника.

Именно Витрины Данных имел в виду Э.Кодд, когда использовал термин “OLAP Server”.

Но, концепция Витрин Данных имеет и очень серьёзные пробелы. По существу, здесь предполагается реализация территориально распределённой информационной системы с мало контролируемой избыточностью, но, не предлагается способов, как обеспечить целостность и непротиворечивость хранимых в ней данных.

Идея соединить две концепции — Хранилищ Данных и Витрин Данных, принадлежит М.Демаресту (M.Demarest), который, предложил объединить две концепции и использовать Хранилище Данных в качестве единого интегрированного источника данных для Витрин Данных.

Именно такое многоуровневое решение:

первый уровень — общекорпоративная БД на основе РСУБД с нормализованной или слабо де нормализованной схемой (детализированные данные);

второй уровень — БД уровня подразделения (или конечного пользователя), реализуемые на основе МСУБД (агрегированные данные);

третий уровень — рабочие места конечных пользователей, на которых непосредственно установлен аналитический инструментарий,

позволяет наиболее полно реализовать и использовать достоинства каждого из подходов.

Загрузка...