본문 바로가기
정보처리기사

정처기 #17 물리 데이터 베이스 설계

by 싼쵸 2022. 2. 10.
반응형

1 ) 파티션 종류

  • Range 분할 : 지정한  칼럼 값을 기준으로 분할
  • Hash 분할 : 해시 함수에 따라 데이터를 분할
  • Composite(조합) 분할 : 범위 분할 후 해시 분할로 다시 분할

 

2 ) 반정규화(De-Normalization)

  • 정규화된 엔티티, 속성, 관계를 시스템의 성능 향상과 개발 운영의 단순화를 위해 중복, 통합, 분리(분할) 등을 수행하는 데이터 모델링 기법
  • 중복 테이블 추가 용도 : 다량의 범위를 자주 처리하는 경우나 특정 범위의 데이터만 자주 처리되는 경우에 활용
  • 중복 테이블 추가 방법: 집계 테이블을 추가하는 방법, 진행 테이블을 추가하는 방법, 특정 부분만 포함하는 테이블을 추가하는 방법
  • 테이블 분할 용도는 열(Column) 별로 사용 횟수가 차이가 많은 경우나 사용자마다 사용하는 특정한 부분이 있는 경우에 활용
  • 중복 분할 : 수평 분할, 수직 분할, 갱신 위주의 열 분할, 조회 빈도가 높은 열 분할, 크기가 매우 큰 열 분할, 보안 적용 열 분할

3 ) 분산 데이터베이스 관리 시스템

  • Transparency(투명성) : 복수의 분할된 물리적 데이터베이스를 논리적으로 단일화된 베이스처럼 인식하려면 사용자들이 데이터의 물리적 배치와 특정 지역 사이트의 데이터에 대한 액세스 방법을 별도로 알 필요 없음
  • Fragmentation Transparency(분할 투명성) : 분할 투명성은 사용자에게 전역 스키마의 분할 상태를 알려주는 역할
  • Location Transparency(위치 투명성) : 위치 투명성은 사용자나 애플리케이션에서 어떤 작업을 수행하기 위해 분산 데이터베이스 상에 존재하는 어떠한 데이터의 물리적인 위치도 알 필요 없음
  • Replication Transparency(중복 투명성) : 중복 투명성은 중복된 데이터가 무엇인지와 저장 위치 등에 대한 정보를 사용자가 별도로 인지할 필요 없음
  • Failure Transparency(장애 투명성) : 장애 투명성은 데이터베이스의 분산된 물리적 환경에서 특정 지역의 컴퓨터 시스템이나 네트워크에 장애가 발생해도 데이터 무결성이 보장
  • Concurrency Transparency(병행 투명성) : 병행 투명성은 다수의 트랜잭션이 동시에 수행되는 경우에도 결과의 일관성이 유지

 

4 ) 데이터웨어하우스

  • 기업의 정보 자산을 효율적으로 활용하기 위한 하나의 패러다임으로서  기업의 전략적 관점에서 효율적인 의사결정을 지원하기 위해 데이터의 시계열적 축적과 통합을 목표로 하는 기술의 구조적, 통합적 환경
비교 항목 기존의 데이터베이스 데이터웨어하우스
기능 업무 데이터 의사 결정

데이터 형태 기능별 상세 데이터 주제별 요약 데이터
연산 명령 SELECT, INSERT, UPDATE, DELETE SELECT
목표 신속한 처리 다양한 분석 정보제공
  • 온라인 분석 시스템(OLAP) : 온라인으로 다양한 분석 정보를 제공하는 시스템으로 OLAP 도구를 활용하여 대규모 데이터를 실시간으로 분석 처리
연산 설명
roll-up 구체적인 상세 데이터로부터 요약된 형태의 데이터로 접근
drill-down 요약된 형태의 데이터로부터 구체적인 상세 데이터로 접근한다.
pivoting 보고서의 차원(행, 열, 페이지)을 변경해서 조회
slicing 데이터 항목들을 다양한 형태로 조회하고 자유롭게 비교
dicing slicing보다 더 구체적으로 구분하여 조회하고 비교
  • Data Mining : 빅데이터 분석 기술 중 대략의 데이터를 분석하여 데이터 속에 내재되어 있는 변수 사이의 상호 관례를 규명하여 일정한 패턴을 찾아내는 기법

 

5 ) Big Data

  • 빅데이터를 구현하기 위한 대표적인 프레임워크에는 오픈소스 형태의 Hadoop, NoSQL, 오픈소스 통계 설루션

Hadoop 

  • 오픈소스를 기반으로 한 분산 컴퓨팅 플랫폼
  • 일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성
  • 다양한 소스를 통해 생성된 빅데이터를 효율적으로 저장하고 처리
  • 하둡의 필수 핵심 구성요소는 맵리듀스와 하둡 분산 파일 시스템

 

MapReduce

  • 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델
  • Google에 의해 고안된 기술로서 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법을 제공
  • 임의의 순서로 정렬된 데이터를 분산 처리하고 이를 다시 합치는 과정을 진행
  • Map : 데이터가 텍스트 형태로 입력되면 64kb로 분할, 텍스트 안에 단어를 분류하여 카운트
  • Reduce : 각 텍스트에서 정리된 맵들을 결합하여 동일한 단어를 카운트
출처 이기적 정보처리기사
반응형

댓글