본문 바로가기

분류 전체보기52

[논문리뷰] CLIP 논문 리뷰 오늘은 CLIP 논문 리뷰를 가져왔습니다. 해당 논문은 2021년에 OpenAI에서 발표한 논문입니다.Learning Transferable Visual Models From Natural Language Supervision저자 : Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever[1] Introduction & Background1) Image Classification컴퓨터 비전 (CV) 분야의 Task 중 하나인 Image Cl.. 2024. 7. 10.
[프로젝트] 자전거 교통사고 원인 분석 프로젝트 리뷰 2023년 2학기 다변량 통계 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 데이터 분석, 시계열이 되겠다. 주제 선정 배경 요새 주변을 보면 전통킥보드, 전기자전거 등의 교통수단을 이용하는 사람이 많다. 그래서 실제로 자전거 수요량과 교통량을 조사해본 결과 자전거의 수요가 증가하고 있음을 확인했다. 자전거 이용량이 많아짐에 따라 자전거 사고 수도 증가하고 있음을 알게 되었다. 자전거는 자동차에 비해 사고가 났을 때 몸을 보호해줄 수 있는 보호장치, 안전수단이 부족하기 때문에 만약 사고가 발생했을 시 그 피해가 더 심각할 수 있다. 따라서 이 문제를 조금이라도 해결해보고자 자전거 사고를 다양한 시각에서 분석해보기로 하였다.사용한 데이터 .. 2024. 7. 9.
[딥러닝] CNN, 합성곱 신경망 이번에 소개할 내용은 합성곱 신경망의 개념과 등장 배경, 구성 요소 등에 대한 내용이다. 합성곱 신경망이 등장하기 이전 딥러닝 모델은 MLP (Multi-layer Perceptron), 즉 퍼셉트론을 다층으로 쌓아서 사용했었다. 하지만 MLP 모델의 특성상 입력층, 출력층 모두 1차원이어야 하기 때문에 이미지 등 위치 정보가 중요한 데이터를 다루기에 적합하지 않다는 문제가 발생한다. 이 때 위치 정보를 살리기 위해서 합성곱 아이디어를 신경망 모델에 적용한 모델이 CNN이다. 합성곱 신경망 개요 오늘날 사용되는 많은 CNN 구조의 기본 뿌리는 LeNet에서 유래했다.  이미지 input을 받아서 행렬곱을 통해 위치적으로 중요한 부분에 더 큰 가중치를 두어 계산하는 방식으로 위치 정보를 보존하고 채널과 층.. 2024. 7. 8.
[NLP] Similarity, 문서 유사도 측정 검색 엔진, 추천시스템 등 굉장히 다양한 분야의 데이터에서 문서 유사도 개념은 중요하다.하지만 컴퓨터는 자연어, 즉 텍스트 데이터를 이해하지 못한다.때문에 벡터 표현으로 변형된 데이터를 컴퓨터가 인식하게 되는데 이 때 우리는 이 벡터 표현을 가지고 유사도를 측정할 수 있다.어떤 방법으로 어떻게 측정할 수 있는지 이제 한 번 알아보자. Document Term Matrix (DTM) 다음 예시와 같이 문서 4개가 있을 때 각 단어가 몇 개 들어 있는지에 대한 행렬을 나타낼 수 있다.이를 DTM이라고 부른다. 과일이길고노란먹고바나나사과싶은저는좋아요문서1000101100문서2000110100문서3011020000문서4100000011 그리고 이러한 행렬이 있을 때 우리는 유사도를 구할 수 있는데 이번 포스팅에.. 2024. 7. 6.
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (1) 2024년 1학기 텍스트 데이터 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 NLP, 데이터 분석이 되겠다.이번 포스팅에서는 주제 선정 배경, 데이터 수집, 데이터 전처리까지의 내용을 담았다. GitHub - junhoeKu/Game-Company-Analysis.github.io: 국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 |국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 | 정형 | NLP | 데이터분석) - junhoeKu/Game-Company-Analysis.github.iogithub.com  주제 선정 배경처음에 과제를 받았을 때 어떤 주제를 선정해야 할지 막막했다.어떤 주제든 좋으니 텍스트 데이터 최소.. 2024. 7. 5.
[프로젝트] 딥러닝을 활용한 치매 예측 및 예방 프로젝트 리뷰 2024년 1학기 딥러닝 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 아이디어 기획 프로젝트이고 분야는 CV, Multi-Modal 이 되겠다. 주제 선정 배경사실 어떤 주제로 프로젝트를 시작해볼까에 대해 많은 고민이 있었다.주로 재미있어 보이는 주제로 할 것인가, 사회적으로 영향이 있고 의미있는 주제로 할 것인가에 대한 고민이었다.하지만 의료 분야를 한 번쯤은 다뤄보고 싶었고 얼마 전에 진행되었던 D & A 학회 선배 초청 강연회에서도의학 분야가 아무래도 인공지능이 들어서기에는 불확실성의 여지가 많아 발전이 더디고 있다는 말을 들어 관심이 더욱 갔다.그래서 사회적인 의미도 챙기면서 의학 분야에 대한 연구도 하면서 꿩먹고 알먹고 도랑치고 가재잡고 일석이조 계획을 세웠다. .. 2024. 7. 4.
[논문리뷰] XL-Net 논문 리뷰 오늘은 XL-Net 논문 리뷰를 가져왔습니다. 해당 논문은 2019년에 발표된 논문입니다. XLNet: Generalized Autoregressive Pretraining for Language Understanding저자 : Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le[1] Introduction기존 언어 모델 Pre - training은 크게 AR과 AE로 나눌 수 있음Auto Regressive(AR)이전 Token을 참고해 다음에 나올 Token이 무엇일지 예측대표적으로 ELMO, GPT-1이 이에 해당함주로 단 방향으로만 정보를 학습하기 때문에 양방향 문맥을 학습하지 못한다는 점에서.. 2024. 7. 3.
[NLP] Text Data Preprocessing 데이터 직무에 있는 모든 사람들은 데이터를 잘 활용할 수 있도록 전처리, 후처리 등 가공해야 할 일이 많다.가장 일반적인 전처리 기법들이라고 한다면1. 결측치 처리2. 이상치 처리등이 있겠으나, 오늘은 데이터 중 텍스트 데이터에 집중해서 텍스트 데이터 전처리 기법에 대해 얘기해보려고 한다. 자연어 (Natural Language)텍스트 데이터, 즉 사람이 사용하는 말은 '문자'로 구성되어 있고 단어나 문장 등을 생성하는 방식이다.하지만 컴퓨터는 자연어 형식을 이해하지 못하기 때문에 우리는 텍스트 데이터를 벡터 형식으로 바꿔줄 필요가 있다.이를 어떻게 구체적으로 하는지 알아보자.텍스트 데이터 전처리 과정전처리 기법의미Tokenization, 토큰화텍스트 데이터를 '토큰'으로 쪼개는 작업Pos Tagging.. 2024. 7. 2.
728x90
반응형