티스토리 뷰
카테고리 없음

텍스트 마이닝이란?

Mentalist 2023. 2. 19. 14:32
반응형

안녕하세요, 이번 글에서는 텍스트 마이닝이란 무엇인가에 대해 설명해 드리려고 해요. 저도 텍스트 마이닝이라는 말을 몇 번 들어본 적은 있었지만 그게 정확히 뭘 말하는 것인지에 대해서는 잘 몰랐던 것 같아요. 그런데 요즘 떠오르고 있는 빅데이터 분야에서 가장 기본적이면서도 중요한 과정 중 하나인 것 같더라고요. 그래서 제가 좀 더 조사해 보고 데이터 마이닝이 무엇인지 잘 모르는 분들을 위해 설명을 준비해 보았습니다.

 

 

 

텍스트 마이닝이란?

텍스트 마이닝

 

먼저 텍스트 마이닝(Text mining)이라는 단어를 살펴볼게요. 텍스트는 글, 문자 등을 의미하고 마이닝은 채굴이라는 뜻으로 쓰이죠. 그러니까 풀어서 쓰면 문자 채굴, 문자 캐내기 정도의 느낌으로 이해하시면 되겠네요. 대충 어떤 느낌이 아시겠나요?

 

 

텍스트 마이닝이란 방대한 양의 비정형 문자 데이터로부터 가치 있는 정보나 아이디어를 추출해 내는 과정이라고 보시면 돼요. 여기에서 비정형 데이터라는 것은 정리되지 않은 데이터를 의미하는데요. 텍스트가 대표적인 비정형 데이터라고 볼 수 있어요. 반대로 엑셀이나 스프레드시트와 같이 표 형태로 정리되어 있는 데이터는 정형 데이터라고 하죠.

 

텍스트 마이닝에 쓰이는 데이터의 종류는 아주 다양해요. 텍스트 형태로만 되어 있다면 무엇이든 활용이 가능한데요. 예를 들면 이메일, SNS 게시글, 소비자 리뷰, 뉴스 기사 등이 있어요. 텍스트 마이닝의 목적은 텍스트로 이루어진 데이터들을 분석하여 그 안에 숨겨진 패턴이나 트렌드 같은 유의미한 정보들을 알아내는 것이에요.

 

과거에는 텍스트 마이닝을 사람이 직접 하기도 했다고 해요. 문학 작품에 쓰이는 단어들이나 문체를 분석하여 어떤 작가가 쓴 작품인지를 알아낸다든가 하는 식으로 말이죠. 하지만 현대에는 컴퓨터를 이용한 데이터 처리 기술이나 AI 등이 발달하면서 훨씬 많은 양의 데이터에서 더 질 좋은 정보를 추출할 수 있게 되었어요.

 

 

 

텍스트 마이닝은 인공지능 분야와 밀접하게 연관되어 있어요. 특히 자연어 처리(NLP)라는 분야가 텍스트 마이닝을 통해 다양한 작업들을 할 수 있도록 도와주고 있죠. 자연어라는 것은 인간이 일상적으로 사용하는 언어(한국어, 영어 등등)를 말하는데, 이런 언어들을 컴퓨터가 이해하고 처리할 수 있도록 연구하는 분야가 자연어 처리 분야입니다. 보통 줄여서 NLP(Natural Language Processing)이라고 하는데요. NLP를 이용하면 개체명 인식, 감정 분석, 토픽 모델링, 자동 요약 등의 작업을 손쉽게 할 수 있어요.

 

개체명 인식이란 문장에서 개체의 이름이 쓰인 것을 인식하고, 분류하는 과정이에요. 예를 들어 '철수가 애플에 입사했다.'라는 문장에서 '철수', '애플'이라는 단어가 각각 사람과 회사의 이름이라는 것을 인식하고 분류할 수 있도록 하는 것이죠. 감정 분석은 글에 사용된 단어나 문체 등을 분석해서 글에 담긴 감정을 알아내는 것이에요. 해당 글이 긍정적인지, 부정적인지, 중립적인지 등을 판단할 수가 있는 것이죠. 토픽 모델링이란 문서들을 분석해서 해당 글의 주제와 핵심 내용을 파악하는 과정을 말해요. 마지막으로 자동 요약은 말 그대로 길게 쓰여진 글을 짧은 요약본으로 정리해 주는 것을 말하는데 이것은 토픽 모델링이 잘 이루어지는지 여부와도 큰 연관이 있겠네요.

 

 

 

텍스트 마이닝의 활용

 

텍스트 마이닝은 정말 다양한 산업 분야에 적용시킬 수 있어요. 마케팅은 물론이고, 경제, 헬스케어 등의 분야에서도 유용하게 활용할 수 있죠.

 

예를 들어 마케팅에서는 고객들의 피드백과 리뷰들을 분석해서 자신들의 상품이나 서비스를 어떻게 개선시킬 수 있을지 알아볼 수 있겠죠. 경제나 재정 관련된 분야에서는 텍스트 마이닝으로 뉴스나 검색 데이터 등을 분석해서 시장의 흐름을 예측하거나 투자 결정을 내리는 데에 도움을 받을 수 있을 거예요. 그리고 헬스 케어 같은 분야에서는 병원 진료 기록이나 건강 검진 데이터 등을 활용해서 개개인에게 더 잘 들어맞는 건강 관리 솔루션을 제공할 수도 있게 되겠죠.

 

 

사회적, 정치적으로도 활발하게 이용될 것으로 보이는데요. 특히 온라인상에서의 사람들의 대화나 특정 주제에 대한 기사 댓글 등을 분석하면 사람들의 전반적인 의견을 파악하고 이해하는 데에 큰 도움이 될 거예요. 그렇지만 이런 분야에서 활용할 때에는 주의해야 할 점도 분명히 존재할 것 같아요.

 

특히 여론 선동을 위한 가짜 뉴스나 댓글 알바 같은 쓰레기 정보들도 온라인상에 넘쳐나기 때문에 이런 것들을 잘 인식하고 걸러내는 기술도 텍스트 마이닝을 잘 적용하기 위해 발전시켜야 할 기능이 아닌가 싶어요. 그리고 사람들의 대화를 막 수집하는 것에 대해서도 사생활 침해와 같은 윤리적인 비판이 따를 수가 있기 때문에 개개인의 텍스트 데이터를 이용할 때에는 각별한 주의와 자료 수집 대상의 동의, 또는 법적인 보호 수단 등이 필요해 보여요.

 

그런 것들만 조심한다면 텍스트 마이닝을 잘 활용해서 더 편리하게 유용한 정보들을 알아낼 수가 있을 거예요. 역시 어떤 기술이든지 그것이 인간에게 도움이 되는 방향으로 사용되기 위해서는 윤리적인 관점에서 깊은 고민이 필요한 것 같아요.

 

 

 

이렇게 해서 텍스트 마이닝 무엇인지, 그리고 그것이 어떤 방식으로 활용될 수 있는지에 대해 알아보았습니다. 지금이 영상의 시대라고는 하지만, 여전히 이 세상에는 우리가 상상하기조차 힘들 정도로 방대한 양의 텍스트 데이터들이 존재하고 지금 이 순간에도 쏟아져 나오고 있어요. 이런 정보들을 그저 의미 없이 흘려보내기보다는 텍스트 마이닝을 통해 유용한 정보로 가공하는 과정을 통해 세상을 더 살기 좋은 곳으로 만들어 나갈 수 있으면 좋겠네요.

 

 

읽어주셔서 감사합니다!

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함