본문 바로가기

Python3

[NLP] Text Data Preprocessing 데이터 직무에 있는 모든 사람들은 데이터를 잘 활용할 수 있도록 전처리, 후처리 등 가공해야 할 일이 많다.가장 일반적인 전처리 기법들이라고 한다면1. 결측치 처리2. 이상치 처리등이 있겠으나, 오늘은 데이터 중 텍스트 데이터에 집중해서 텍스트 데이터 전처리 기법에 대해 얘기해보려고 한다.자연어 (Natural Language)텍스트 데이터, 즉 사람이 사용하는 말은 '문자'로 구성되어 있고 단어나 문장 등을 생성하는 방식이다.하지만 컴퓨터는 자연어 형식을 이해하지 못하기 때문에 우리는 텍스트 데이터를 벡터 형식으로 바꿔줄 필요가 있다.이를 어떻게 구체적으로 하는지 알아보자.텍스트 데이터 전처리 과정전처리 기법의미Tokenization, 토큰화텍스트 데이터를 '토큰'으로 쪼개는 작업Pos Tagging,.. 2024. 7. 2.
[NLP] 정규 표현식, Regular Expression What is Regular Expression?특정한 문자의 패턴을 정의하는 방식특정한 규칙을 가진 문자열 탐색이메일 주소만 추출 (XXX@XXX.XXX)전화번호만 추출 ((XXX)-XXX-XXXX)자주 쓰이는 정규표현식 문법예시설명[abcde] 문자클래스 : []대괄호 안에 있는 문자들과 매치하라는 의미여러 개의 대괄호도 사용 가능 문자열에서 a, b, c, d, e와 매칭되는 부분 탐색[a-e] 하이픈(-)을 써서 범위 지정도 가능 문자열에서 a, b, c, d, e와 매칭되는 부분 탐색 메타 문자 : 원래 의미가 아닌 다른 용도로 사용되는 문자*, +, ?, {n}, {m, n} 등등“da.ce”Dot(.) : 줄바꿈 문자를 제외한 모든 문자와 매칭 (공백 포함) dance(O), damce(O).. 2024. 7. 1.
[NLP] API를 활용한 Web Crawling API를 활용한 Web CrawlingApplication Programming Interface (API)프로그램 간 데이터를 주고 받기 위한 방법레스토랑에서 점원과 같은 역할을 수행점원 : 손님에게 메뉴를 '요청'받고 이를 요리사에게 '요청' -> 요리사의 결과물을 전달API : 프로그램에게 데이터를 '요청'받고 이를 타 프로그램에 '요청' -> 데이터를 전달API가 가져야 할 내용요청방식GET, POST 등요청할 자료endpoint 등자료요청에 필요한 추가 정보검색 조건, api key 등Open API개발자라면 누구나 무료로 사용 가능하도록 공개된 APIOpen API를 배포해 자사 서비스를 활용한 영역 확대자사의 영향력을 높일 수 있음(예시) API를 활용한 데이터 수집 - 공공데이터포털로그인 .. 2024. 6. 29.