본문 바로가기

허깅페이스5

[프로젝트] 제주어, 표준어 양방향 음성 번역 모델 생성 프로젝트 리뷰 (3) 안녕하세요. 이번 포스팅에서는 지난 포스팅에 이어 올해 1학기에 진행했던 제주어 번역 프로젝트에 대해서 얘기해보려고 합니다.   [프로젝트] 제주어, 표준어 양방향 음성 번역 모델 생성 프로젝트 리뷰 (2)안녕하세요. 이번 포스팅에서는 지난 포스팅에 이어 올해 1학기에 진행했던 프로젝트에 대해서 얘기해보려고 합니다.   [프로젝트] 제주어, 표준어 양방향 음성 번역 모델 생성 프로젝트 리뷰dangingsu.tistory.com 프로젝트 주제 : 분야 : NLP, Translation, Deep-Learning, STS  GitHub - junhoeKu/Jeju-Translation: 제주어, 표준어 양방향 음성 번역 모델 생성 프로젝트 (알고리즘 | 비제주어, 표준어 양방향 음성 번역 모델 생성 프로젝트.. 2024. 12. 9.
[NLP] Transformer의 함수 model.generate() 파라미터 저번 포스팅에서는 LLM의 Prompt Engineering에 대해서 알아보았습니다. [NLP] LLM Prompt Engineering오랜만에 돌아왔습니다. 컨퍼런스하랴, 인턴생활하랴, 공모전하랴, 일본어 공부하랴 너무 현생이 바빠서 한 달 동안 블로그를 쓰지 못하였네요. 그래서 오랜만에 돌아왔으니 재미난 이야기를dangingsu.tistory.com 이번 포스팅에서는 말씀드린대로 Output Parameter, 즉 generate 함수 파라미터에 대해서 알아보도록 하겠습니다.1. Decoding Strategy일단 파라미터를 알아보기 전에 generate 함수가 어떤 원리로 단어 혹은 문장을 생성하는지에 대해 알아보겠습니다.1) Greedy Search 첫 번째로 Greedy Search 입니다. G.. 2024. 11. 25.
[프로젝트] HR_면접자 정보 맞추기 프로젝트 (2) [프로젝트] HR_면접자 정보 맞추기 프로젝트 (1)논문 읽는 학회에 멤버로 참여해 매주 논문을 하나씩 읽어보면서 공부했던 시절에는 매주 블로그 소재가 하나씩 생겼는데 이 활동이 끝나니까 블로그 소재가 뚝 떨어졌네요.. ㅠㅠ 그래서 새로dangingsu.tistory.com지난 1편에 이어서 진행되겠습니다!1편에서는 전처리, EDA 등 주로 데이터에 대해 알아보았습니다.2편에서는 본격적으로 모델 파인튜닝 및 평가를 해보려고 합니다! 1. Task 확인 모델 파인튜닝을 위해서는 먼저 우리가 할 Task, 즉 궁극적인 목표가 무엇인지 설정하는 것이 중요합니다. 하나의 소재라도 다양한 Task를 진행할 수 있기 때문이죠. 예를 들면 아래와 같습니다.면접자 성별을 맞추는 이진분류 Task면접자 성별, 연령대, .. 2024. 10. 4.
[프로젝트] Whisper 파인튜닝 자, 오늘은 OpenAI의 Whisper 모델 설명을 마치고 공부한 다음 프로젝트 준비 겸 파인튜닝을 가볍게 시도해보려고 합니다.Whisper 논문리뷰나 모델 설명이 궁금하신 분은 아래 링크 들어가셔서 참고해주시면 좋을 것 같습니다 ~ !  [논문리뷰] Whisper 논문 리뷰오늘은 Whisper 논문 리뷰를 가져왔습니다.Robust Speech Recognition via Large-Scale Weak Supervision저자 : Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever[1] Introduction1) 기술적 배경 음성 인식dangingsu.tistory.com 1. 환경 설정오늘 파인튜닝.. 2024. 9. 21.
[NLP] 자연어처리 토큰화작업 2, 하위 단어 토큰화 하위 단어 토큰화자연어 처리에서 형태소 분석은 중요한 전처리 과정 중 하나입니다. 컴퓨터가 자연어를 인간이 이해하는 방식과 비슷하게 처리할 수 있도록 하기 위해서는 형태소 단위의 토큰화가 효과적인 방법입니다. 그러나 언어는 시간이 지남에 따라 변화하고 새로운 단어나 표현이 등장하며 더 이상 사용되지 않는 단어나 표현도 생깁니다. 현대의 일상 언어에서는 맞춤법이나 띄어쓰기가 엄격하게 지켜지지 않는 경우가 많고 형태소 분석기의 취약점인 신조어나 고유어 등이 빈번하게 생겨납니다. 외래어, 띄어쓰기 오류, 오탈자 등이 있는 문장을 기존 형태소 분석기로 토큰화하면 다음과 같은 결과가 나타납니다.원문 : 시보리도 짱짱하고 허리도 어벙하지 않고 조아효결과 : ['시', '보리', '도', '짱짱하고', '허리', '.. 2024. 3. 13.
728x90
반응형