본문 바로가기

데이터분석7

[프로젝트] HR_면접자 정보 맞추기 프로젝트 (1) 논문 읽는 학회에 멤버로 참여해 매주 논문을 하나씩 읽어보면서 공부했던 시절에는 매주 블로그 소재가 하나씩 생겼는데 이 활동이 끝나니까 블로그 소재가 뚝 떨어졌네요.. ㅠㅠ 그래서 새로운 주제, 소재를 찾아서 복귀했습니다! 바로바로 다양한 도메인의 다양한 Task를 여러 모델과 데이터를 다뤄보면서 미니 프로젝트 진행하기! 사실 어느 분야, 도메인이든 AI를 서비스에 잘 활용하기 위해서 많은 노력이 이루어지고 있습니다. 그리고 나름 도메인 몰입력이 좋은 저로서는 다양한 도메인을 접해보면서 잘 할 수 있는, 재밌어하는 도메인을 탐색하고 싶은 마음도 있었구요. 그래서 지금부터 다양한 도메인의 데이터를 하나씩 다뤄보면서 이런저런 재밌는 Task를 진행해보려고 합니다. 개인 미니 프로젝트 느낌이죠  1. 주제 선.. 2024. 10. 1.
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (2) 2024년 1학기 텍스트 데이터 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 NLP, 데이터 분석이 되겠다.이번 포스팅에서는 실질적인 텍스트 데이터 분석 내용을 담았다.https://github.com/junhoeKu/Game-Company-Analysis.github.io GitHub - junhoeKu/Game-Company-Analysis.github.io: 국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 |국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 | 정형 | NLP | 데이터분석) - junhoeKu/Game-Company-Analysis.github.iogithub.com 분석 기법은 총 3가지를 사용했다.. 2024. 7. 12.
[프로젝트] 자전거 교통사고 원인 분석 프로젝트 리뷰 2023년 2학기 다변량 통계 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 데이터 분석, 시계열이 되겠다. 주제 선정 배경요새 주변을 보면 전통킥보드, 전기자전거 등의 교통수단을 이용하는 사람이 많다. 그래서 실제로 자전거 수요량과 교통량을 조사해본 결과 자전거의 수요가 증가하고 있음을 확인했다. 자전거 이용량이 많아짐에 따라 자전거 사고 수도 증가하고 있음을 알게 되었다. 자전거는 자동차에 비해 사고가 났을 때 몸을 보호해줄 수 있는 보호장치, 안전수단이 부족하기 때문에 만약 사고가 발생했을 시 그 피해가 더 심각할 수 있다. 따라서 이 문제를 조금이라도 해결해보고자 자전거 사고를 다양한 시각에서 분석해보기로 하였다.사용한 데이터 및.. 2024. 7. 9.
[NLP] Similarity, 문서 유사도 측정 검색 엔진, 추천시스템 등 굉장히 다양한 분야의 데이터에서 문서 유사도 개념은 중요하다.하지만 컴퓨터는 자연어, 즉 텍스트 데이터를 이해하지 못한다.때문에 벡터 표현으로 변형된 데이터를 컴퓨터가 인식하게 되는데 이 때 우리는 이 벡터 표현을 가지고 유사도를 측정할 수 있다.어떤 방법으로 어떻게 측정할 수 있는지 이제 한 번 알아보자. Document Term Matrix (DTM) 다음 예시와 같이 문서 4개가 있을 때 각 단어가 몇 개 들어 있는지에 대한 행렬을 나타낼 수 있다.이를 DTM이라고 부른다. 과일이길고노란먹고바나나사과싶은저는좋아요문서1000101100문서2000110100문서3011020000문서4100000011 그리고 이러한 행렬이 있을 때 우리는 유사도를 구할 수 있는데 이번 포스팅에.. 2024. 7. 6.
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (1) 2024년 1학기 텍스트 데이터 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 NLP, 데이터 분석이 되겠다.이번 포스팅에서는 주제 선정 배경, 데이터 수집, 데이터 전처리까지의 내용을 담았다.https://github.com/junhoeKu/Game-Company-Analysis.github.io GitHub - junhoeKu/Game-Company-Analysis.github.io: 국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 |국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 | 정형 | NLP | 데이터분석) - junhoeKu/Game-Company-Analysis.github.iogithub.com  주제 선.. 2024. 7. 5.
[NLP] Text Data Preprocessing 데이터 직무에 있는 모든 사람들은 데이터를 잘 활용할 수 있도록 전처리, 후처리 등 가공해야 할 일이 많다.가장 일반적인 전처리 기법들이라고 한다면1. 결측치 처리2. 이상치 처리등이 있겠으나, 오늘은 데이터 중 텍스트 데이터에 집중해서 텍스트 데이터 전처리 기법에 대해 얘기해보려고 한다.자연어 (Natural Language)텍스트 데이터, 즉 사람이 사용하는 말은 '문자'로 구성되어 있고 단어나 문장 등을 생성하는 방식이다.하지만 컴퓨터는 자연어 형식을 이해하지 못하기 때문에 우리는 텍스트 데이터를 벡터 형식으로 바꿔줄 필요가 있다.이를 어떻게 구체적으로 하는지 알아보자.텍스트 데이터 전처리 과정전처리 기법의미Tokenization, 토큰화텍스트 데이터를 '토큰'으로 쪼개는 작업Pos Tagging,.. 2024. 7. 2.
[NLP] Web Scraping, BeautifulSoup What is Web Scraping??정의단일 웹페이지에서 원하는 정보를 추출하는 행위Web Crawling vs Web ScrapingWeb Crawling : URL을 탐색해 반복적으로 링크를 찾고 정보를 가져오는 과정으로, 특정 웹페이지를 목표로 하지 않음Web Scraping : 우리가 정한 특정 웹페이지에서 데이터를 추출Web Scraping Process1)  웹페이지 열기요청 (Request) : 클라이언트 혹은 사용자가 특정 서버에 리소스나 서비스를 요청하는 과정응답 (Response) : 요청한 사항에 대해 서버가 클라이언트 혹은 사용자에게 리소스나 서비스를 제공하는 과정2) Client서버에서 제공하는 서비스를 받는 입장데스크탑, 태블릿과 같은 장비일 수 있음Chrome, firefo.. 2024. 6. 27.