텍스트마이닝이 무엇인가요?
텍스트마이닝이란, 텍스트에서 의미 있는 정보를 추출하는 것을 뜻합니다.
텍스트 데이터를 활용하여 감성 분석을 할 수도 있고, 유사한 문서들을 찾아낼 수도 있고, 문서를 분류하는 데 활용할 수도 있습니다. 이때, 머신러닝을 활용하여 정확도를 높입니다. 이를 위해서 자연어를 전처리하는 방법을 배우고 텍스트 데이터를 벡터화하는 방법을 익힙니다.
빈도 분석과 워드 클라우드
동시 출현 단어 기반 의미 연결망
‘22년 여름 머신러닝을 활용한 텍스트마이닝 스터디 일정
주차 | 날짜 | 모듈 |
1주차 | 7월 11일(월) | 자연어처리 개념 / 자연어 전처리 코드 실습 워드클라우드 |
2주차 | 7월 18일(월) | n-gram / 텍스트 벡터 생성 |
3주차 | 7월 25일(월) | 문서 유사도 / 문서 분류 |
4주차 | 8월 1일(월) | LDA 토픽 모델링 / 의미 연결망 분석 |
5주차 | 8월 8일(월) | 데이터 크롤링 특강 + 프로젝트 준비 (+ 오전반 주중 30분씩 리더와 팀 미팅 / 추후 안내) |
6주차 | 8월 15일(월) | 프로젝트 발표 |
스터디 모집 기간
6월 27일(월) ~ 7월 7일(목)
입금자 기준 선착순 오전반 비대면 최대 21명 / 오후반 대면 최대 30명
(정원 초과시 조기 마감될 수 있습니다. 마감시 해당 페이지를 통해 공지 드립니다.)
스터디 준비사항
•
스터디 당일 PPT 자료 제공
자료 예시
•
Colab 코드 제공
자료 예시
커리큘럼
커리큘럼은 유동적으로 변경될 수 있습니다.
1주차 워드 클라우드
글 속에 등장한 단어를 전처리하여 빈도를 분석하고
한 눈에 파악하기 쉽도록 워드 클라우드를 만들어 확인합니다.
2주차 n-gram / 텍스트 유사도
n-gram 워드 클라우드를 만들어 보고 텍스트 벡터를 생성하는 실습을 합니다.
텍스트 벡터를 만들어 문서 유사도를 계산합니다.
3주차 텍스트 문서 분류
텍스트 데이터를 수치화(벡터화)하여 문서들간의 유사도를 구하고
유사한 문서를 추천 또는 검색하는 시스템을 만들어 봅니다.
4주차 LDA 토픽모델링 / 의미 연결망 분석
다양한 주제의 문서에서 토픽을 추출하고
어떤 단어들이 토픽에서 활용되었는지 알아봅니다.
오전반 (비대면 진행) | 오후반 (대면 진행) | |
난이도 | 중 | 파이썬 실력: ★★★☆☆ | 중 | 파이썬 실력: ★★★☆☆ |
강의 녹화 | 강의 녹화 후 파일 제공 | 오전반 강의 녹화본 제공 |
장소 | ZOOM 실시간 강의 | 종로 P&T 스퀘어 4층 (종로3가역 3분 거리) |
시간 | 매주 월요일 오전 10시~오후 12시 (2시간) | 매주 월요일 오후 2시~오후 5시 (3시간) |
참가비 | 7만 원 | 15만 원 (대관비 포함) |
모집 인원 | 최대 21명 / 3인 1개 팀 | 최대 30명 / 3인 1개 팀 |
오전반과 오후반의 커리큘럼은 동일하며, 오후반은 2시간 강의 이후 1시간 동안 대면 팀 회의가 이루어집니다.
모집 인원은 고지 없이 변동될 수 있습니다.
참가 신청
Q&A
파이썬 실력이 부족한데 수강해도 괜찮을까요?
파이썬 실력이 부족하더라도 개념을 익히는 데 큰 지장이 가지 않습니다. 다만, 실습에서 따라오시기 어려울 수 있습니다. 만약 본인의 실력이 부족하다고 판단된다면 아래 링크에서 공부하고 수업에 참여해 주시기를 권장합니다.
점프 투 파이썬
[Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복
강의를 한 주 정도 빠질 것 같은데 괜찮은가요?
피치 못할 사정으로 빠지는 것은 녹화본을 보면서 따라갈 수 있다고 생각합니다. 물론 이해가 가지 않는 부분은 스터디 리더에게 반드시 질문주셔야 합니다.
팀 모임에 참가한 경우에는 팀원들에게 피해가 가지 않도록 최대한 결석을 피해주시기 바랍니다.
팀 배정은 어떻게 되나요?
팀 배정은 실력에 따라 스터디 리더가 임의로 배정합니다. 혹시 친구와 같이 신청하여 꼭 같이 팀원이 되고 싶은 경우에는 신청 후 seong.benny@gamil.com으로 메일 주시기 바랍니다.