분류 전체보기(223)
-
Project2 - ElasticSearch
현재 진행하는 프로젝트에서 빅데이터 플랫폼은 ElasticSearch에 데이터를 적재 할 것이고, 거기서 가져와서 쓰면 된다고 전해 들었다. 그래서 일단 데이터 상태 확인을 위해 빅데이터 플랫폼팀이 올려둔 raw 데이터라던지, 전처리한 데이터 확인을 위해 ElasticSearch에 접근하는 방법을 알아볼 필요가 있었다. ElasticSearch이란, 현재 가장 대중적인 엔터프라이즈 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 검색 엔진을 제공한다. 이는 자바로 개발되어 있으며, 공식 클라이언트들은 자바/파이썬/PHP/그루비/C#등 수많은 언어로 이용 가능하다. Multitenat 소프트웨어 아키텍처의 하나를 가리키며, 하나의 소프트웨어 인스..
2021.08.15 -
Project1_BeautifulSoup & Selenium VER2
보호되어 있는 글입니다.
2021.05.18 -
6주차: 데이터사이언스의 미래
데이터 사이언스의 악용 가능성 - 데이터가 수집된 방법 & 수집된 이유 & 데이터의 한계 & 방법의 한계를 신경쓰지 않으면, 악용 될 수 있다. - 데이터의 이해가 제대로 되지 않으면 잘못된 가정 또는 무의미한 진술을 할 수 있다. - 프라이버시가 보호되고, 투명성을 보장해야한다. 10년 후 데이터 사이언스의 전개 - 대기업들이 쇼핑 거래 분석을 수행하고 공급망과 공급방식을 합리화하는 방법을 찾을 것이다. - 미래에는 우리의 생활 방식, 건강, 우리의 가정환경, 소비하는 에너지, 우리가 하는 요리, 식료품이나 연료의 관점에서 우리가 주문하는 자원과 얻어내는 방법들이 변화할 것이다. - 우리의 삶과 삶의 방식, 문화, 사회에 걸친 컴퓨터와 스마트폰 뿐만 아니라 모든 종류의 센서 및 데이터 제작자와 데이터에..
2021.05.18 -
5주차 강의: 데이터 시각화
데이터 시각화의 목적과 데이터 사이언스 내의 역할에 대해 설명한다. 탐색 및 설명 시각화의 차이점을 설명한다. 여러 데이터 유형과 사용할 수 있는 시각화 유형을 비교한다. 시각적으로 데이터를 인코딩하는 과정과 사용할 수 있는 다양한 인코딩을 설명한다. 특정 데이터 인코딩의 효율성을 평가한다. Python(Bokeh)을 사용해 시각화를 제작한다. 데이터 시각화의 정의 통계 그래프, 플롯(plot) 및 정보 그래픽을 사용해 명확하고 효율적으로 정보를 전달하는 것 By Tufte. 데이터가 보여주는 것을 취하는 방법, 최선의 방법으로 전달하는 도구 -> 즉 데이터의 주요 특징들을 매우 빠르게 파악할 수 있게 한다. 따라서 보는 사람들이 데이터를 통해 전달되는 흥미로운 통찰력을 찾도록한다. 데이터 시각화의 역할..
2021.05.13 -
Project1_BeautifulSoup & Selenium VER1
보호되어 있는 글입니다.
2021.05.12 -
3주차 강의: 통계 및 머신러닝
데이터 사이언스 응용 프로그램에서 사용하기 위한 다양한 데이터 소스 설명이 가능하다. 데이터에 대한 다양한 라이선스 옵션 비교가 가능하다. 데이터 수집을 위한 API의 역할 설명이 가능하다. 데이터 정리의 역할을 설명할 수 있다. 데이터 수집 기술을 적용해 MongoDB에 데이터 저장 및 관리가 가능하다. 여러 출처에서 데이터를 수집하는데 따른 이점 및 문제점을 평가 할 수 있다. MongoDB에서 데이터를 추출하기 위한 쿼리 작성이 가능하다. 데이터 사이언스 파이프라인 데이터 수집 -> 데이터 처리 -> 데이터 클리닝 및 통합 데이터 및 데이터 수집 소스 데이터 전처리와 통합 데이터 저장 및 관리(물리적 로컬 시스템 사용에 대한 클라우드 기반 저장 및 처리) 데이터 수집 및 데이터 소스 웹상의 데이터 ..
2021.04.28