반응형
1 ) 파티션 종류
- Range 분할 : 지정한 칼럼 값을 기준으로 분할
- Hash 분할 : 해시 함수에 따라 데이터를 분할
- Composite(조합) 분할 : 범위 분할 후 해시 분할로 다시 분할
2 ) 반정규화(De-Normalization)
- 정규화된 엔티티, 속성, 관계를 시스템의 성능 향상과 개발 운영의 단순화를 위해 중복, 통합, 분리(분할) 등을 수행하는 데이터 모델링 기법
- 중복 테이블 추가 용도 : 다량의 범위를 자주 처리하는 경우나 특정 범위의 데이터만 자주 처리되는 경우에 활용
- 중복 테이블 추가 방법: 집계 테이블을 추가하는 방법, 진행 테이블을 추가하는 방법, 특정 부분만 포함하는 테이블을 추가하는 방법
- 테이블 분할 용도는 열(Column) 별로 사용 횟수가 차이가 많은 경우나 사용자마다 사용하는 특정한 부분이 있는 경우에 활용
- 중복 분할 : 수평 분할, 수직 분할, 갱신 위주의 열 분할, 조회 빈도가 높은 열 분할, 크기가 매우 큰 열 분할, 보안 적용 열 분할
3 ) 분산 데이터베이스 관리 시스템
- Transparency(투명성) : 복수의 분할된 물리적 데이터베이스를 논리적으로 단일화된 베이스처럼 인식하려면 사용자들이 데이터의 물리적 배치와 특정 지역 사이트의 데이터에 대한 액세스 방법을 별도로 알 필요 없음
- Fragmentation Transparency(분할 투명성) : 분할 투명성은 사용자에게 전역 스키마의 분할 상태를 알려주는 역할
- Location Transparency(위치 투명성) : 위치 투명성은 사용자나 애플리케이션에서 어떤 작업을 수행하기 위해 분산 데이터베이스 상에 존재하는 어떠한 데이터의 물리적인 위치도 알 필요 없음
- Replication Transparency(중복 투명성) : 중복 투명성은 중복된 데이터가 무엇인지와 저장 위치 등에 대한 정보를 사용자가 별도로 인지할 필요 없음
- Failure Transparency(장애 투명성) : 장애 투명성은 데이터베이스의 분산된 물리적 환경에서 특정 지역의 컴퓨터 시스템이나 네트워크에 장애가 발생해도 데이터 무결성이 보장
- Concurrency Transparency(병행 투명성) : 병행 투명성은 다수의 트랜잭션이 동시에 수행되는 경우에도 결과의 일관성이 유지
4 ) 데이터웨어하우스
- 기업의 정보 자산을 효율적으로 활용하기 위한 하나의 패러다임으로서 기업의 전략적 관점에서 효율적인 의사결정을 지원하기 위해 데이터의 시계열적 축적과 통합을 목표로 하는 기술의 구조적, 통합적 환경
비교 항목 | 기존의 데이터베이스 | 데이터웨어하우스 |
기능 | 업무 데이터 | 의사 결정 |
데이터 형태 | 기능별 상세 데이터 | 주제별 요약 데이터 |
연산 명령 | SELECT, INSERT, UPDATE, DELETE | SELECT |
목표 | 신속한 처리 | 다양한 분석 정보제공 |
- 온라인 분석 시스템(OLAP) : 온라인으로 다양한 분석 정보를 제공하는 시스템으로 OLAP 도구를 활용하여 대규모 데이터를 실시간으로 분석 처리
연산 | 설명 |
roll-up | 구체적인 상세 데이터로부터 요약된 형태의 데이터로 접근 |
drill-down | 요약된 형태의 데이터로부터 구체적인 상세 데이터로 접근한다. |
pivoting | 보고서의 차원(행, 열, 페이지)을 변경해서 조회 |
slicing | 데이터 항목들을 다양한 형태로 조회하고 자유롭게 비교 |
dicing | slicing보다 더 구체적으로 구분하여 조회하고 비교 |
- Data Mining : 빅데이터 분석 기술 중 대략의 데이터를 분석하여 데이터 속에 내재되어 있는 변수 사이의 상호 관례를 규명하여 일정한 패턴을 찾아내는 기법
5 ) Big Data
- 빅데이터를 구현하기 위한 대표적인 프레임워크에는 오픈소스 형태의 Hadoop, NoSQL, 오픈소스 통계 설루션
Hadoop
- 오픈소스를 기반으로 한 분산 컴퓨팅 플랫폼
- 일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성
- 다양한 소스를 통해 생성된 빅데이터를 효율적으로 저장하고 처리
- 하둡의 필수 핵심 구성요소는 맵리듀스와 하둡 분산 파일 시스템
MapReduce
- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델
- Google에 의해 고안된 기술로서 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법을 제공
- 임의의 순서로 정렬된 데이터를 분산 처리하고 이를 다시 합치는 과정을 진행
- Map : 데이터가 텍스트 형태로 입력되면 64kb로 분할, 텍스트 안에 단어를 분류하여 카운트
- Reduce : 각 텍스트에서 정리된 맵들을 결합하여 동일한 단어를 카운트
출처 이기적 정보처리기사
반응형
'정보처리기사' 카테고리의 다른 글
정처기 #18 프로그래밍 언어 활용 (0) | 2022.02.11 |
---|---|
정처기 #16 논리 데이터베이스 설계 (0) | 2022.02.09 |
정처기 #15 데이터베이스의 개요 (0) | 2022.02.08 |
정처기 #14 애플리케이션 테스트 관리 (0) | 2022.02.06 |
정처기 #13 통합구현 (0) | 2022.02.06 |
댓글