close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

참여자 : 황중원, 김지혜, 유용빈

  • 9월 6일부터 진행하는 외부 데이터 분석 의뢰의 신청내용들을 리뷰하고 효과적으로 홍보할수 있는 방안에 대한 토의
  • 예상보다 신청이 저조할 경우 진행할 Plan B에 대한 토의
  • 토의 과정에서 들어온 첫번째 신청에 대한 리뷰

1 NLP 형태소 분석 워드 클라우드 프로젝트 사례 소개

  • 유용빈 개인 프로젝트로 진행했던 내용을 간략하게 데모와 함께 사례 소개
  • perl 의 Spreadsheet::XLSX 모듈을 요구사항 엑셀을 읽고 필요한 영역을 추출하는 스크립트에대한 코드 리뷰
  • docker 를 이용해 elasticsearch + 은전한잎 + 기타 추가 형태소 분석에 필요한 patch + REST API 이미지를 설치한 과정 소개
  • :Tiny 모듈을 이용해 추출한 텍스트를 REST API 호출로 명사성분 분석한 코드 리뷰
  • 생성된 단어 빈도 자료를 바탕으로 R의 wordcloud 모듈 및 외부 폰트를 활용해 wordcloud 이미지 생성예제 코드 리뷰
  • 전반적인 프로젝트 자동화 관련 기법 소개

2 데이터 분석을 위한 웹 스크래핑 사례 소개

  • 유용빈 개인 프로젝트로 진행했던 내용을 간략하게 데모와 함께 사례 소개
  • 매년 참가하고 있는 대관령 힐 클라이밍 대회의 기록의 연도별 추이나 그룹/성별간 차이, 날씨등 외부변수와 상관관계가 궁금해서 시작
  • Mojo::DOM의 CSS selector 를 이용해 클라이밍 대회 공식 홈페이지에 있는 2008년 부터 2016년 사이의 각 그룹별 기록 및 순위 정보를 저장 코드 소개
  • Template::Extract를 통해 간편한 방법으로 HTML 내에 필요한 기록 정보를 JSON형식으로 추출 코드 소개
  • 2016년 한정으로 한시적으로 제공되는 좀 더 상세한 기록정보(퍼레이드 구간 통과시간, 시작시간, 종료시간) 정로 제공사이트의 추가 스크래핑 코드 소개

 

종료후 치킨집에서 간단하게 근황을 나눔