안녕하세요. 좋은 강의 감사드립니다.
제가 GPT-2를 이용한 text 생성 모델을 구글 콜랩에서 돌릴려고 하는데요
Train a GPT-2 Text-Generating Model w/ GPU – Colaboratory (google.com)
문제가 한글 문서를 넣으면 다음과 같이 깨져서 나옵니다.
인터넷에서 검색해서 찾은 어린왕자 txt를 다운로드 했습니다.
https://m.blog.naver.com/PostView.nhn?blogId=dmsah10&logNo=40068395879&proxyReferer=https:%2F%2Fwww.google.com%2F
그러나 제가 가지고 오면 다음과 같이 깨져서 나오는데요,
이런 한글 문제는 어떻게 처리해야 할까요?
인터넷 검색으로 찾아 본걸로 해도 안되구요
file_name = “어린왕자-dmsah10.txt” encoding = ‘euc-kr'”
이렇게 해도 안되구요.
도움 부탁드립니다.
1 답변
안녕하세요. 상세하게 질문주셔서 감사드립니다.
말씀주신 대로 적용하니 한글이 깨지는 군요. 그래서 저는 위의 한글.txt파일을 unicode 로 저장해서 했습니다.
그러면 한글이 안깨지는 군요.
제가 적용한 에디터는 edit plus였습니다.
- unicode로 말씀주신 txt 변환
2. corlab에서 확인