본문 바로가기

NLP21

[프로젝트] 티스토리 블로그 Web Crawling 오늘은 NLP Task 프로젝트에서 도움될만한 글을 적어보겠습니다. 네이버 블로그, 지식iN, 뉴스 등은 API로 크롤링할 수 있습니다.자세한 내용은 아래 링크 활용해주시면 감사하겠습니다.https://developers.naver.com/docs/serviceapi/search/blog/blog.md 블로그 - Search API" data-og-description="검색 > 블로그 블로그 검색 개요 개요 검색 API와 블로그 검색 개요 검색 API는 네이버 검색 결과를 뉴스, 백과사전, 블로그, 쇼핑, 웹 문서, 전문정보, 지식iN, 책, 카페글 등 분야별로 볼 수 있는 API" data-og-host="developers.naver.com" data-og-source-url="https://dev.. 2024. 9. 14.
[논문리뷰] SimVLM 논문 리뷰 오늘은 SimVLM 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 ICLR에서 발표된 논문입니다.사실 논문 리뷰할 때마다 유튜브로 영상 찾아보고 관련 블로그도 찾아보는 편인데 이번 SimVLM은 논문 리뷰를 찾기 힘들어서 오로지 논문과 GhatGPT를 활용해 공부하였습니다. 그래서 설명에 약간 잘못된 부분이 있더라도 좋게 봐주시고 알려주시면 좋겠습니다 ㅎㅎSimVLM: Simple Visual Language Model Pretraining with Weak Supervision저자 : Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao [1] Introduction 본 논문에서는 처음에 두 가지 이야기로 시작을 하는데 .. 2024. 8. 1.
[논문리뷰] T5 오늘은 T5 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer저자 : Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu[0] Abstract전이학습은 NLP(자연어 처리) 분야에서 강력한 기술로 부상했습니다.전이학습이란?사전학습 + 파인튜닝 단계로 나누어서 진행하는 학습본 논문은 모든 텍스트 기반 언어 문제를 text-to-text 형태로 전환시키는 통합된 프레임워크를 도입하여.. 2024. 7. 15.
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (2) 2024년 1학기 텍스트 데이터 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 NLP, 데이터 분석이 되겠다.이번 포스팅에서는 실질적인 텍스트 데이터 분석 내용을 담았다.https://github.com/junhoeKu/Game-Company-Analysis.github.io GitHub - junhoeKu/Game-Company-Analysis.github.io: 국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 |국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 | 정형 | NLP | 데이터분석) - junhoeKu/Game-Company-Analysis.github.iogithub.com 분석 기법은 총 3가지를 사용했다.. 2024. 7. 12.
[NLP] NLP Task Review, 감정분석 이번에 인사이드아웃 2가 새로 개봉되었다. 그래서 오늘 포스팅은 감정에 대해서 얘기해보려고 한다. NLP Task 중 하나인 감정분석. 컴퓨터가 인간의 언어, 자연어를 이해하기 시작하면서 필요로 되는 능력 중 하나는 감정분석이다. 제품 혹은 서비스에 대한 리뷰, 피드백 등이 수백만 가지 이상의 데이터일텐데 이를 하나하나 확인하고 조사하는 것은 매우 비효율적이며 할 수 있는 일인지조차 모르겠다. 여기서 감정분석은 사용자의 의견, 리뷰, 피드백 등에서 인간의 감정을 파악해 기업이나 개발자가 소비자의 반응을 빠르고 정확하게 이해하고 서비스나 제품을 개선할 수 있도록 돕는다. 이러한 시장 동향 파악, 비즈니스 의사결정 과정에서 중요한 역할을 한다.감정분석 Task에 적합한 언어 모델많은 언어 모델이 감정분석 T.. 2024. 7. 11.
[NLP] Similarity, 문서 유사도 측정 검색 엔진, 추천시스템 등 굉장히 다양한 분야의 데이터에서 문서 유사도 개념은 중요하다.하지만 컴퓨터는 자연어, 즉 텍스트 데이터를 이해하지 못한다.때문에 벡터 표현으로 변형된 데이터를 컴퓨터가 인식하게 되는데 이 때 우리는 이 벡터 표현을 가지고 유사도를 측정할 수 있다.어떤 방법으로 어떻게 측정할 수 있는지 이제 한 번 알아보자. Document Term Matrix (DTM) 다음 예시와 같이 문서 4개가 있을 때 각 단어가 몇 개 들어 있는지에 대한 행렬을 나타낼 수 있다.이를 DTM이라고 부른다. 과일이길고노란먹고바나나사과싶은저는좋아요문서1000101100문서2000110100문서3011020000문서4100000011 그리고 이러한 행렬이 있을 때 우리는 유사도를 구할 수 있는데 이번 포스팅에.. 2024. 7. 6.
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (1) 2024년 1학기 텍스트 데이터 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 데이터 분석 프로젝트이고 분야는 NLP, 데이터 분석이 되겠다.이번 포스팅에서는 주제 선정 배경, 데이터 수집, 데이터 전처리까지의 내용을 담았다.https://github.com/junhoeKu/Game-Company-Analysis.github.io GitHub - junhoeKu/Game-Company-Analysis.github.io: 국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 |국내 주요 게임사에 대한 텍스트 데이터 분석 (알고리즘 | 정형 | NLP | 데이터분석) - junhoeKu/Game-Company-Analysis.github.iogithub.com  주제 선.. 2024. 7. 5.
[논문리뷰] XL-Net 오늘은 XL-Net 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. XLNet: Generalized Autoregressive Pretraining for Language Understanding저자 : Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le[1] Introduction기존 언어 모델 Pre - training은 크게 AR과 AE로 나눌 수 있음Auto Regressive(AR)이전 Token을 참고해 다음에 나올 Token이 무엇일지 예측대표적으로 ELMO, GPT-1이 이에 해당함주로 단 방향으로만 정보를 학습하기 때문에 양방향 문맥을 학습하지 못한다는 점에서 .. 2024. 7. 3.