Minitab 블로그

텍스트 마이닝에 관심이 있으신가요? 새 Python 통합이 추가된 Minitab으로 시작해 보세요!

Written by Mikhail Golovnya | 2020. 7. 10 오전 9:51:00

지금은 어디에서나 콘텐츠에 접근하고 이를 이용할 수 있는 시대입니다! Nielsen 조사에 따르면, 미국 성인은 미디어를 읽고 듣고 시청하고 상호작용하는 데 하루 약 11시간 이상을 보내는 것으로 나타났습니다. 더군다나 지금처럼 수많은 사람들이 집에서 지내고 있다면 그 시간은 더 많을 수 있습니다. 이용할 수 있는 콘텐츠가 범람하면서 누구나 이런 점이 궁금할 수 있습니다. 우리가 이용할 수 있는 텍스트를 조금 더 자세히 살펴볼 수 있는 정량적인 방법이 있을까요?

텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 텍스트에서 고품질의 정보를 도출하는 과정입니다. 궁극의 목표는 정량적 모델링에 사용할 수 있는 텍스트 변수로부터 수치 척도를 추출하는 것입니다.

텍스트 마이닝이 중요한 이유가 무엇일까요?

텍스트 마이닝은 단순 패턴의 발견 또는 그보다 훨씬 더 복잡한 감정 분석에 사용할 수 있습니다. 기본 통계는 특정 단어가 언급된 횟수를 세거나 단어가 전체 대문자로 사용된 횟수를 캡처하는 것과 같은 단순 분석에 사용할 수 있습니다.

요약 통계를 캡처했다면, 막대 그래프 등의 시각화를 통해서 가장 자주 등장하는 단어들을 그래프나 강력한 이미지를 보여주는 워드 클라우드로 제시할 수 있습니다. 이는 제품이나 절차에 관한 감정과 태도를 파악하고자 할 때 특히 유용합니다.


생생한 텍스트 제공: 와인 후기 및 역문서 빈도 활용

설명을 위한 간단한 예시로서, 특정 종류의 와인에 대한 다섯 편의 후기를 분석해 보겠습니다. Minitab에서 Python 호출로 분석을 실행하면, 다음과 같이 매우 쉽게 읽을 수 있는 요약 통계 테이블을 얻을 수 있습니다.

보시는 바와 같이, 다섯 편의 후기 중에서 “wine”이라는 단어는 3회, “love”이라는 단어는 2회, 그리고 기타 단어들은 모두 1회씩 등장했습니다. Minitab에서는 각 단어의 역문서 빈도(Inverse Document Frequency, IDF)도 제공되며 다음의 식으로 계산됩니다.

     IDF = ln (N/DF)

N = 관측치 수(이 경우 총 5편의 후기이므로 5), DF = 특정 단어가 등장하는 문서의 수.
수학적으로 말하자면 모든 관측치에서 단어가 존재할 때 IDF = 0이 됩니다. 따라서, IDF가 가장 낮은 단어는 가장 자주 등장하고, 한 관측치에 있는 단어는 IDF가 가장 큽니다.
이 사례에서, IDF가 가장 낮은 단어는 wine인데, 이는 가장 자주 등장하기 때문입니다. 이 요약 통계에 기반했을 때, 와인을 좋아하지 않는 사람들 보다 와인을 즐기는 사람들이 더 많으며, 후기는 전체적으로 긍정적이라는 결론을 도출할 수 있습니다.

시각적인 표현을 좋아하는 사람들을 위해, 이 예시 분석을 워드 클라우드로도 볼 수 있습니다.

보시는 바와 같이, wine은 가장 흔하고 가장 큰 단어로 나타나지만, 워드 클라우드를 보면 전체적인 후기의 긍정적인 의미를 느낄 수 있습니다.

직접 해보세요

텍스트 마이닝은 Minitab에 있는 새 Python 연결을 사용하여 실행됩니다. 이전에 Python을 사용해 본 적이 없다고 해도 걱정할 것 없습니다. Python 설치 및 사용 지침이 제공됩니다(Python 통합에 대해서 알아야 할 모든 것을 여기에서 확인하세요). 확장 설치가 성공적으로 완료되었다면 간단히 Minitab의 표준 텍스트 마이닝 작업을 계속 실행할 수 있습니다.


Minitab의 Python에 대해서 더 알아보시겠습니까? 도움말 예제를 확인하거나 Minitab과 상담을 통해 감정 분석과 단어 모음, 그리고 잠재 의미 분석에 대해서 알아보세요!

새로운 Minitab/Python 통합을 실전에서 확인하세요

참조문헌: https://www.nielsen.com/us/en/insights/article/2018/time-flies-us-adults-now-spend-nearly-half-a-day-interacting-with-media/