Хранилище данных и киоск данных

Оценить
(0 голоса)

Хранилище данных может быть определено как база данных, которая включает корпоративные данные и может быть постоянно доступной пользователям. Это краткое определение; объяснение понятия хранилища данных гораздо более сложное. Предприятие обычно имеет большой объем данных, хранящихся в разное время в различных базах данных (или в файлах данных), которые управляются различными СУБД. Эти системы управления базами данных не обязательно являются реляционными: на некоторых предприятиях все еще существуют базы данных, управляемые иерархическими или сетевыми системами баз данных. Особая группа специалистов по программному обеспечению проверяет исходные базы данных (и файлы данных) и конвертирует их в целевое место сохранения: в хранилище данных. В дополнение к этому, конвертированные данные в хранилище данных должны быть консолидированы, потому что они хранят информацию, которая является ключевой для операционной обработки в корпорации. (Консолидация данных означает, что все эквивалентные запросы к хранилищу данных, выполненные в различное время, дают один и тот же результат.) Консолидация данных в хранилище данных выполняется в несколько этапов:

♦ сборка данных из различных источников (также называется выделением данных);

♦ очистка данных (другими словами - выполнение трансформации данных);

♦ поддержка качества данных.

Данные должны быть аккуратно собраны из разных источников. В этом процессе данные выделяются из источников, конвертируются в промежуточную схему и перемещаются во временную рабочую область. Для выделения данных вам нужны инструменты, которые выделяют в точности именно те данные, которые должны сохраняться в хранилище данных.

Очистка данных гарантирует целостность данных, которые должны сохраняться в целевой базе данных. Например, очистка данных должна быть выполнена для некорректных полей данных, таких как адреса или несовместимые типы данных, используемые для определения дат в различных источниках. Для выполнения этого процесса группе очистки данных требуется специальное программное обеспечение. Пример поможет более четко объяснить процесс очистки данных. Предположим, что существуют два источника данных, которые хранят персональные данные о служащих, и эти две базы данных имеют атрибут Gender (пол). В первой базе данных этот атрибут определен как char и значениями данных являются «female» (женский) и «male» (мужской). Тот же самый атрибут во второй базе данных определен как char со значениями «Р и «т». Значения в обоих источниках данных являются корректными, однако для целевой базы данных вы должны выполнить очистку данных, т. е. представить значения этого атрибута в унифицированном виде.

Последняя часть консолидации данных- поддержка качества данных - включает процесс проверки данных, при котором определяются данные, к которым конечный пользователь должен иметь доступ. По этой причине конечный пользователь должен быть тесно вовлечен в этот процесс консолидации. Когда процесс консолидации данных завершается, данные должны загружаться в хранилище данных.

По своей природе (в качестве общего склада для всех данных предприятия) хранилище данных содержит огромный объем данных. (Некоторые хранилища данных содержат десятки терабайт и даже петабайт данных.) Кроме того, поскольку эти данные охватывают все предприятие, реализация обычно занимает очень много времени, которое зависит от размера предприятия. Из-за этого недостатка многие компании начинают с меньших решений, которые называются киоском данных.

Киоск данных - это склад данных, который включает все данные на уровне отдела и поэтому предоставляет пользователям доступ к данным, относящимся только к одной части их организации. Например, отдел маркетинга хранит все данные, связанные с маркетингом, в своем собственном киоске данных, отдел исследований помещает экспериментальные данные в киоск данных исследований и т. д. В связи с этим киоск данных имеет несколько преимуществ перед хранилищем данных:

♦ суженная область приложения;

♦ сокращение времени разработки и меньшая стоимость;

♦ простота поддержки данных;

♦ разработка снизу вверх.

Как уже было сказано, киоск данных включает только ту информацию, которая нужна одной части организации, обычно отделу. Поэтому данные, предназначенные для использования на такой малой единице организации, могут быть гораздо проще подготовлены для потребностей конечного пользователя.

Время разработки хранилища данных в среднем составляет два года и стоит 5 млн долларов. С другой стороны, стоимость киоска данных в среднем 200 тыс. долларов, и такой проект занимает от трех до пяти месяцев. По этим причинам разработка киоска данных является предпочтительной, особенно если это первый проект бизнес-аналитики в вашей организации.

Тот факт, что киоск данных содержит значительно меньший объем данных, чем хранилище данных, помогает вам сократить и упростить все задачи, такие как выделение данных, очистка данных и поддержка качества данных. Точно так же в этом случае проще проектировать решения для отдела, чем для целой организации. (Более подробную информацию о проектировании бизнес-аналитики и о пространственной модели см. в следующем разделе)

Если вы проектируете и разрабатываете несколько киосков данных в вашей организации, то есть возможность со временем объединить их всех в одном большом хранилище данных. Этот процесс проектирования снизу вверх имеет несколько преимуществ перед проектированием «с нуля» хранилища данных: во-первых, каждый киоск данных может содержать идентичные таблицы, которые можно унифицировать на уровне соответствующего хранилища данных. Во-вторых, некоторые задачи являются логическими задачами на уровне предприятия, например, такая задача, как сбор финансовой информации для бухгалтерского отдела. Если существующие киоски данных будут объединены вместе для создания хранилища данных на уровне предприятия, то потребуется глобальный репозитарий (т. е. каталог данных, который содержит информацию обо всех данных, хранящихся как в исходных базах данных, так и в целевой базе данных).


Проектирование хранилища данных с использованием пространственной модели
Кубы и их архитектура
Агрегаты
Сколько можно агрегировать?
Физическое хранение кубов

Добавить комментарий


Защитный код
Обновить

Авторизация



© 2021 serversql.ru. Все права защищены.