10-テキストマイニング

2007/07/05

テキストマイニングコーナー <目次>

「プロフェッショナル講座(1)」~「(5)」

専門家レクチャーとして、「ここまで進んでいる!テキストマイニング活用最前線」というテーマで林俊克氏(株式会社 資生堂研究開発本部CS開発センター情報開発室)に具体的な活用事例などを解説していただいたもの。「企業活動の中のテキストマイニング」、「活用事例(1)定義法」、「活用事例(2)文章完成法」、「フリーアンサー解析の進化」の4つの講座。
-----------------------------------------------------------------
 ◎初出:2002年5月14日
-----------------------------------------------------------------

「テキストマイニング初歩講座(1)」~(4)

Web DBマーケティング研究会が主催したテキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」の基調講演を再構成した、テキストマイニングの基礎知識を網羅した講座。「テキストマイニングが注目されている背景」、「テキストマイニングという困難」、「テキストマイニングの目指すもの」、「知識創造の手段としてのテキストマイニング」の4回で構成。
-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

「テキストマイニング活用 奮闘記(1)」~(4)

株式会社アイプラネット ネットソリューション部webマーケティンググループ エグゼクティブプロデューサー、面来利夫(めんらい としお)による連載。
-----------------------------------------------------------------
 ◎初出:2006年2月27日
-----------------------------------------------------------------

「テキストマイニング関連リンク」

テキストマイニングに関する学術・理論研究成果、講演、インタビュー抄録、およびテキストマイニングのソフトウェアやサービスを提供している代表的な企業のテキストマイニング関連ページなどの情報源へのリンクを収録。 

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

 *テキストマイニングコーナーの連載は完結いたしました。

|

2007/07/02

プロフェッシナル講座(5)

■第4講 : フリーアンサー解析の進化に続く

4-1.非定型自由文を解析できるDIONISOS-

当社独自の手法であるDIONISOS(ディオニソス)についてお話します。「バッカス」と「ディオニソス」という酒の神様の二大巨頭のうちの一人にあやかった名前で、これも登録商標を取得させていただいております。

DIONISOSは、まったくの否定形自由文で書かれたお客さまの声をテキストマイニングすることで要約して把握することができます(図6)。内部では、お客さまの非定型自由文テキストを前処理ののち分かち書きして形態素解析しています。

普通のテキストマイニングでは、分かち書きをしたものを言葉の発言度数とか、同時発言の相関性を分析して、コレスポンデンス分析に持っていくとか、その程度のことしか出来ないわけですけれども、資生堂としてはVACASという考え方のツールを持っていますので、分かち書きされた部品がどういう論理関係でつながっているかがわかれば、ロジックの分析もできるわけです。分かち書きされた部品が現状のことを言っているのか、はたまた希望とか理想を述べているのかがわかれば、価値ポートフォリオで分析することで、価値の所在ということが分析できるわけです。これも特許をださせて頂いているのですけれども。

ワインの例でご説明します。まず「ワインのレベルのよしあしはどのようなところで判断されますか」とか「ワインの味のよしあしとか、どのようなところで判断されますか」という質問を、フリーアンサー形式のアンケートで聞きます。

回答としては「原産国と甘さから」「さらっとしている」「渋くなく甘みがあるもの」「コクがあるかないか」など、様々なことを書いてくれます。これを150名分とりました。そして形態素に分解していくわけです。それで形態素に分解して文法情報から構文解析を行い、関係性を解釈して、このようにタプル生成というところまでを行います。そうすると、例えばこれは、「よくわからないが、おしゃれなデザインで決める」は、よく、わからない、おしゃれなデザインで決める、という構文解釈ができているわけですね。

構文解析の結果から「構文木」といわれるものを作るのですが、いわゆる分かち書きの、このデータから構文を分析するわけですね。どの言葉がどの言葉にかかっているのかをみられるわけです。これもあまり難しい技術ではなくて、言語解析の分野では普通にやられている方法を基本的には採用しています。

この係り受けの情報を使うと、このようにフリーアンサーの情報が解析できるわけです。そうすると、「自分の好みに合うものがよい」「口当たりがよい」「渋みがないものがよい」「価格が高いものがよい」「料理に合うものがよい」とか、VACASを応用して分析できるわけです。

4-2.DIONISOSでできることのパフォーマンス-

今まで一度に一番多くのものをやったのは、6万8千件くらいのものでして、さすがに高機能なCPUを載せたパソコンでやったのですが、3時間くらいかかりました。でも3時間で完結するということですけれども。

もちろん、先ほどのワインの良し悪しの例のように、普通のマーケティングリサーチで行われるようなフリーワードのアンケートの要約も簡単です。

私が執筆した論文をテキストマイニングすることもできまして、「お客さまの言葉をカテゴリ化する」や「潜在ニーズ適合性を探る」や「感性工学的手法を応用した調査システム」「特定のコンセプトを訴求したり、理解するときの論理展開を推測できる」とかが分析されて要約として出てきていました。自分が書いた文章のエッセンスはまあまあ出てきていますので実用に耐えるのかなと。

以上の説明でなんとなく使い物になっているとわかっていただけると思います。

4-3.(まとめ)現時点でのテキストマイニングの評価、課題-

一番大事なのは、物理品質と知覚品質といいますか、いわゆるスペックの評価と感性評価の両方を考える必要があるということです。そこのところが両立しないといけないのです。VACASやDIONISOSのような感性工学的な手法からのアウトプットが目新たらしくて面白いということで、こちらばかりをやっていてはダメで、今までのような物理特性、顕在的な価値をきっちりと把握した上で、今回提案させていただいているようなテキストマイニングから得られるような、お客さま言葉から来る知覚品質も十分配慮し、両方が満たされるような商品を作ることがメーカーとしての勤めですよ、と言いたいですね。

そのためにも、VACAS、DIONISOSもまだまだ色々と改良していかなくてはいけないと考えているわけです。問題点はいくつかあるのですが、定型自由文形式アンケートの完成は急務です。今の聞き方は「定義してください」とか、「~ので~から~」という文章を完成してくださいというものですが、聞かれる側に大きな負担を強いてしまうようです。特に文章完成法については、若い人は平気で書くのですけれども、55歳を境にしてそれ以上の方はほとんど筆が進まないのです。それを補う方法として、インタビュワーがついて、例えば「ワインについてどう思っていますか」といって、「毎晩飲んでいます」、「ではなぜ毎晩飲むのですか?」「毎晩飲むとどういいのですか?」といったいわゆるラダリングインタビューをするのですね。要は文章完成法の( )の中をインタビュワーが埋めていくという操作で何とか補っているわけですが、それをするとコストも時間もかかり、VACASの強みがかなりスポイルされてしまいますので、アンケートでもっと簡単に、VACASの解析に耐えうるようなテキストデータが取れないかという方法論を考えなくてはいけないということが一つの課題です。

また、DIONISOSみたいな全く非定型の自由回答テキストに関しては、先ほどの構文解析の精度が即解析の精度に影響するわけです。分かち書きをして、なおかつ分かち書きをしたパーツパーツが文法的にどういう部品なのかということが正確に分析できる賢い形態素解析エンジンが求められています。

 数理統計的な課題もあります。「原因」と「結果」という形でクロスサポート行列を作ってそれ解析することで、ロジック分析ができるわけですが、グラフ理論ではいわゆる非対称の正方行列で扱える方法論としては「ISM」と「デマテル」くらいしか数学的な方法論がないのです。これは統計学者の人にがんばっていただいて、ISMやデマテル以外に非対称の正方行列からロジックを分析できるような方法論を開発していただきたいと思いますね。

さらに、色々な人から、特にVACASもDIONISOSを批判的にみる人から言われるのですが「検定」の問題があります。VACASにもDIONISOSにも検定という概念は今のところありません。「このロジックはどれくらい信用できるの?」「だってそういう人の数が多いのだもの」と、それしか説明ができていなくて、これにどのような方法で検定の概念を持ち込むのかも大きな課題です。これも数理統計的な課題と思っています。ただし、実用上はこの検定の問題は、それほど問題ではないと思うのですけれども。

調査に必要なn数に関しては、さほど大規模な調査をしなくても特に問題ないと思います。例えば200名と50名くらいの調査の結果を比べてみても結果はほとんど同じですね。でも、サンプルは多ければ多いほどよいと思います。多くのユニークな感性ワードが取れますから。

VACASに限らず、サンプルのリクルートを伴う調査は一般に非常にお金がかかりますので、1500サンプルといった数は非現実的な数字になります。1調査あたり100とか200サンプル程度くらいが順当なのではないかと思いますし、それで十分な情報が得られます。

もちろん、費用と解析に時間がかかるだけですので、データ数に関しては何件あっても全くかまいません。

4-4.テキストマイニングを活かすために求められるスキル-

これはあらゆる調査に当てはまることですが、「誰に聞くのか」、「どう聞くのか」はすべての調査の基本です。解析の方は結局、今騒がれているテキストマイニングもデータマイニングも、扱う対象が定量的に数値化されたものを扱うのか、テキストのようなまだ定量化されていないものを扱うのかということの違いだけで全く同じ手法でできてしまいます。そしてテキストマイニングも、DIONISOSのように、分かち書きをして係り受けを分析しそれらの情報を計量できる数値に変換してやればデータマイニングの手法がそのまま使えるわけです。テキストマイニングに関しては、まだ「黎明期」であり、DIONISOSも自分の頭の中にあることだけを具現化しているわけですから定量的な数値化もまだまだ稚拙であると言わざるを得ませんが。

どのような方法論であれ、解析に関しては、プロフェッショナルでなくてもできます。DIONISOSにしても、データさえ与えれば解析は全てオートマティックですから。何ワードまで出せとか、矢印を100本以内で書けと指示するだけです。問題は、出てきた結果をどう解釈するのかということや、解析する以前のデータのクオリティがどれほど高いものかということなのです。

DIONISOSに関しては、本邦初公開でして価格設定はもちろん、市販するかどうかも今のところ未定です。一般ユーザーの方に広く使っていただけるような状況を作りたいなとは思っているのですけれども、現段階ではVACASと同様に調査サービスとして提供し、フリーワードのデータコンテンツを頂いたらそれを分析してお返しするというサービスを考えております。(終)

(4)へ戻る 

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年6月3日
-----------------------------------------------------------------

|

プロフェッシナル講座(4)

■第3講 : 活用事例②「文章完成法」

3-1.価値の認識構造を把握するための文章完成法-

もう一つの方法として「文章完成法」というものがあります。今までのものは定義法といって言葉や短い文章で簡単に物事を定義してもらうテキストマイニングの手法でした。で、今度は文章完成してもらうアンケートのテキストマイニングです。

最近非常に価値の認識構造を把握しましょうという?ロジックを探る方法?が盛んに行われていまして、早稲田大学の豊田先生が本をいっぱい書かれていますが、因子分析みたいなところから持ってくる「共分散構造分析」のようなものもいっぱいやられているようです。やはり価値認識のロジックの把握、つまり原因を探ることが出来るということが非常に重要だと考えられているのです。それを把握するために簡易なテキストマイニングという意味で、私どもはこのような文章を完成してもらうアンケートを実施しているのです(図3)。

「ワインは~なので、~だから、~である」を書いてもらいます。例えば「ワインはポリフェノールが入っているから体に良いのでたくさん飲める」とか、「ワインは高いのでめったに飲めないので悲しい」とかですね、そういうことが書いていただけます。

このようなことを聞くと何がわかるのかといえば、「ポリフェノールが入っていると体によい」とか、「体によいからいっぱい飲める」というロジックがあり、一つの文章を作ってもらうことだけで、お客さまの感性ワードが三つと、ロジックが二つ取れるということなのです。ですから、とても効率よくたくさんの情報が取れるわけです。

このアンケートをしてもらうと、論理関係を分析することができます。それを「デマテル」という方法論を使って分析させていただいております。デマテルが一番ロジック解析に適しているのかどうかについては、テキストマイニングの今後の課題の部分で触れようと思っているのですが、現代段階では一番よい結果を出してきます。

デマテルはどういうことができるかというと「種類が豊富だと楽しいです」とかいうふうに直接的にお客さんが言った場合がこれくらいあるとします。そうすると、別のお客さんが「種類が豊富だと選べるのだ」と、また別のお客さまは「選べると楽しいのだ」と言ったとします。そうすると、このような間接的なパスがあると、「種類が豊富であると楽しい」は、この関係性は本当はもっと太いと考えられます、間接影響があるから。他にも間接影響があるとどんどん太くなって、潜在的な影響関係の太さはものすごく強くなるということです(図4)。こういうことの潜在的な影響の強さを調べる計算手法としてデマテルは優れていると思います。

3-2.潜在的なロジック構造の図式化-

このデマテルを使って、デマテルは数式をとくだけですから、エクセルでも解けてしまう。逆行列を算出できれば、すぐにできてしまいますから簡単な方法です。井上先生が書かれた本の中にエクセルのマクロが収載されているものがありますので参考になさったらいいと思いますが、クロス集計表を作ってデマテルで解けば、このようなワインはどのような価値認識がされているのかが出てきます。たとえば、「ポリフェノールが入っているから体によくてうれしい」ということが強くて、「口当たりがよくてうれしい」のかと思うと、「口当たりがよくて二日酔いになるや困る」といった、逆に困ってしまうというわけです。それから「種類が豊富だと、選べるから楽しい」とか、「飲みやすいと飲みすぎて困る」「飲みやすいとたくさん飲める」とか、「アルコールが高めだから酔う」とか、「コルク栓は開けるのが大変だから困る」とか、こういうロジックでワインを購入していることがわかるわけです。

そうすると、困ることは解決してあげればいいわけですし、うれしいとか、おいしい部分に関してはもっと伸ばしてあげれば、お客さまの喜ぶワインができるとか、こういうロジックに則ってテレビコマーシャルや色々な宣伝をするとお客さまの潜在的な認識構造に合致しているから、すごくよくわかってもらえるということが考えられるわけです。

私どもはデマテルの結果を価値構造図というものに図示しています(図5)。左から右には原因から結果の因果関係を表し、上から下は、デマテルで言うところの「中心度」というスコアでポジショニングしております。中心度というのは矢印の出入りする総和です。ですから全体のロジックの中でどのくらいその言葉がたくさん使われるのか、出入りが多い、お客さまの頭の中にしょっちゅう出てくる言葉の順番に上から並んでいるわけです。

左ほど出の矢印が多くて、入りが少ない、右ほど出が少なくて入りが多いということでプロットしています。デマテルの指標で「中心度」と「原因度」と言うものが算出できますので、それに基づいてプロットするとできるわけですね。この価値認識構造図は要約して、ワード数で上位20ワード以内を出せということで簡便化しているわけですが、これを深掘りしようとすると、バックには150人分のデータがありますから、「体によい」というのは、「ポリフェノールがよい」だけではなくて、「アルカリ性だからよい」、「飲み過ぎないからよい」、というロジックもあるということがわかります。「体によい」とどう良いのかという点では、「うれしい」だけではなくて、「体にいいといっぱい飲む」とかです。そういう方向にも論理が行くということがわかるわけです。

それから「おいしい」というのも、その前には何があるのかというと、香味の表現に関わるワードから「おいしい」にはほとんど来なくて(しいて言えば「フルーティだから」おいしい)、むしろ「料理にあう」「冷やす」「体によい」といったところからから「おいしい」ことが認識されるのですね。

デマテルによる間接パスの影響も踏まえたロジックの解析によって潜在的な影響関係をみていくとこのようなことがわかってくるわけです。

「おいしい」といいことばかりではなくて「太る」とかありますので、おいしさを説明するためには、「すごく料理に合っているからおいしそう」という雰囲気を作ってあげるべきで、「甘いからおいしいのだ」というように変な香味からくる理由をつけるとお客さまは納得してくれないということがわかりますし、おいしいということをただ説明するだけではなくて、「太らない」ということをあわせて説明してあげないといけないのだということがわかってくるわけです。

あと困ることなのですが、基本的には「飲みすぎて困る」「食べ過ぎて困る」、「酔いすぎて困る」「難しすぎて困る」「面倒で困る」というのがあるのです。「ポリフェノールで困る」というのは、「ポリフェノールが多いと体によくて飲みすぎて困ってしまう」という間接パスがすごく大きいのでこんなに線ができてしまうということなのです。

こんなふうにたったあれだけのフリーテキストのアンケートなのですが、そこからこれだけのことが読み取れる(マイニングできる)のです。

3-3.価値認識構造からわかることと資生堂の活用事例-

詳しい事例としてワインの説明のことしかできませんが、スキンケアのこととか、ファンデーションのこととか、メーキャップのこととか分析していると極めて面白いものです。

また、VACASは種々の調査手法の総称でして、他にも色々な手法があります。例えば、「差別化」手法ですが、どれが似ていて、どれが似ていないのかを差別化するためには、どのワード(認知の切り口)を用いるのがよいのかを計るやり方、普通の評価項目を決めてアンケートするにしてもそれをCSポートフォリオにする、そうするとどの評価項目が効いていて何を直すべきなのかがわかるかなど、色々な手法があり、それらをソフトとしてパッケージ化しています。

ファンデーションの事例を少しお話しますと、VACASで価値を割り出すと、「化粧崩れしない」という価値はダントツにすごい。ファンデーションの価値認識の構造を見ても、「汗をかくと化粧崩れする」「化粧崩れするといや」ということが上位に出てきます。

そのようなVACASで得られた情報をものづくりにつなげていき、出来上がったものをまたVACASで評価すると、お客さまに非常に受けるものが出来ているはずです。そして重篤な欠点が無ければ、これは相当いい商品になるのだということで商品化するわけですね。

VACASはソフトとしては市販しておりません。サービスとして販売させていただいておりまして、株式会社アーキテクトと有限会社データアートという会社に対して、このソフトをライセンス貸与しています。一般のユーザーさんはこれらの調査会社にVACAS調査を依頼していただければ、この方法論での調査ができるという形にしております。

有限会社データアートの道官さんという方が、もともとの定義法、文章完成法を開発されていて、その方と共同で特許を出させていただいています。デマテルは公知ですし、ポートフォリオを書くなんてことは、どなたでも実践できますので、皆さんが自力でやられるのでしたらいくらでもやってみていただければいいと思います。ただ、時間と労力がすごくかかるので、VACASのようにシステマテックになっていると、データさえあがっていればすぐにその日のうちに解析結果が出るということになります。

普通のテキストマイニングでは、分かち書き処理など手の込んだ作業がありますが、この定型自由文のいわば簡易型のテキストマイニングは、その分かち書き等の手の込んだ作業をしたくないから、短い単語の一言でデータが取れるように設計しているということなのです。

(3)へ戻る   (5)へ進む

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月27日
-----------------------------------------------------------------

|

プロフェッシナル講座(3)

■第2講:活用事例①「定義法」

2-1.具体的なテキストマイニングの手法-VACASの「定義法」の考え方-

「VACAS」というのは、ソフトの名前でして「Value Creation Assist System」の頭文字で、登録商標を取らせていただいておりまして、私たちの方で独自に開発したものです。方法論に関してはこれからご案内するような簡単な考え方で、それを自動的にできるようにしているだけということです。

「感性工学」みたいなところからアプローチしようというところなのですけれども、本当のところ、?創造性豊かなびっくりするようなもの?を作るということが、世の中に対して一番インパクトがあり、すばらしいことなのです。しかしそれはなかなか統計とか工学的な方法を使って実現することがきわめて難しい事です。もしそれがわかったとしたら決して発表はしません(笑)。そこで、工学的な方法で把握が可能な「潜在ニーズの適合性」という「なるほど!」をどれだけ極められるのか、ということを念頭にVACASという方法論を考えてきたわけです。

VACASは、お客さま自身は気づいていないが提示されれば「なるほど」と思うような潜在価値、感性価値を発見したり、それを有効に訴求したり、伝達する方法を提案・検証できます。一言で言うと、暗黙知が形式知化される、漠然となんとなくそうだとわかっている事を絵に描き文字にすることができるということです。アンケート方法については、お客さま自体何について聞かれているのか、何を評価させられているのか、どう応えることを期待されているのか、普通のアンケートですと見え見えなのですが、VACASでは客さまにはそういう事を気づかれないので、お客さまの潜在的な価値意識が引き出せるのではないかと考えております。

それから一番重要なのが、?お客さま言葉?での評価ということでして、フリーワードによる調査なので、メーカー都合の勝手な評価項目での調査とはちがい、お客さまの本当の知覚品質がわかるということです。それからシステム化したおかげで、データはもちろんFAXとかインターネットとかで簡単にそろえることができますし、またアンケートはとても簡単なものなので、データ収集はすごく簡単にできて、それを専用のソフトウェアに流せばすぐに結果が出てくるという特徴も持っています。

しかし絶対に誤解してもらっては困るし、非常に誤解されやすい部分で口を酸っぱくして再三いっているのですが、VACASは?打ち出の小槌?ではありません。誰も思いもつかなかったようなすごいことが出てくるのではなくて、誰かが言語化した或いは文章化したことしか扱えないのです。ですからあくまで「なるほど」を極めるということでご理解いただきたいと思います。また、「これがあれば今までの方法論はいらないのじゃないの?」と何でも物事を一つのものさしで計りたいというのが人間の性なのですけれども、そうではなくて、従来の方法論は、それはそれとして事実をある側面からみているということで真実であり必要な事なのです。そういう意味では今までは物理品質の評価という?片輪走行?していました。今後は感性的な評価、知覚品質の評価も加えて?両輪走行?すれば、もっと成功確率が上がって、さらにより重要なのは、失敗確率が下がるのではないかと思うのです。

2-2.「定義法」の具体的な調査手順と価値ポートフォリオ-

VACASの活用事例として、ワインの顧客価値調査の事例を説明させていただきます。まずは定義法といわれるものです。価値意識の割り出しの仕方ですけれども、簡単な調査を行います(図1)。「普段飲んでいるワインとは」「理想のワインとは」という問いに対して簡単な言葉で定義してもらいます。自分のところのプロダクトを評価してもらうという意味で「国産ワイン」についても、簡単な言葉で評価してもらいます。そうすると例えば普段飲んでいるワインは「安いもの」で、「赤」でとか、「セブンイレブンで買えて」とか言うことを書いていくわけです。理想のワインとは、「ボルドー産」で、「何万円もして」など、そういうことを書くわけです。

※以下の図表は全て、林氏作成の図表やデータを基に編集担当が作成した

これだけなのです。これだけで何がわかるのかということですが、われわれは「価値ポートフォリオ」(図2)といわれるものを作りまして、横軸に「今飲んでいるワイン」はどんなものかという定義されているパーセンテージ、縦軸に「理想」で定義されるパーセンテージをとります。そうすると、例えば「安物」でとかいう要素は、今飲んでいるものは「安物」でという人が38%くらいいるのですけれども、理想は「安物」という人は12%程度しかいないのです。「香りがよい」というのは、今飲んでいるものについては2%しかいないのですけれども、理想では「香りがいい」という人が23%くらいいるわけですね。

これで何がわかるのかというと、対角線を境にして、対角線は「今はそうで、理想でもそうあってほしい」ということですから、ちょうど今世の中に出回っているものがお客さま価値にちょうどぴったりと合致している、「CSちょうどいい」というものが対角線上にきて、それより右下は今の商品で既に満たされている、お客さまの望む価値が提供されているので、もうことさらにそれを訴求したとしてもお客さんは「すごい」と思わないだろう、ということです。

この左の上に来るものは、?今こういう属性は世の中の商品にはないのだけれど、理想ではそういう属性は是非あってほしい?といっているものでして、まだ満たされていない価値領域だということで、「こっちをがんばりましょう」ということを分析できるわけですね。考え方はたったこれだけですね。ここから「香りがいいワインを造ればいい」とか、「まろやか」とか、「おいしい」とかがねらい目なのだとか、そういう事がわかってくるのです。

2-3.「定義法」から得られるデータ解析バリエーション①~CS指数-

これだけみていても色々とわかってくるわけですけれども、座標データから、この辺の座標にあると大体何%くらいの人が喜ぶ価値なのかを推定するような数式を開発しています。これは極秘中の極秘ですから、その数式そのものは申し上げられないのですが、それぞれの事業分野の人がこのポートフォリオと、そういう属性があったものが世の中でどう評価されているのかを検証して、独自の数式を作ってもらえればよいのです。一番簡単なのは、この対角線からの距離を測るというのです。あるいは原点からの傾きが立っていればいるほどまだ満たされていない度合いが強いであるとか、原点からの距離が長ければ「大勢の人が言っているわけですから大事だ」とか色々な指標が取れるわけです。

そういう指標を独自に考えていただければよいと思うのですが、私どもは色々な指標の中から、様々組み合わせて、総合指標を作りましてワインに関する価値意識のランキングを作りました。

「CS指数」と名づけておりまして、何%のお客さまに価値として認識していただけるかの推定値です。例えば「香りがよい」という価値を実現すると、160%というスコアですから、もう100%を超えて、みんな喜ぶ。「まろやかです」は117%ですからこれもみんな喜ぶ、「ボトルのデザインがよい」と86.9%の人が喜ぶ、というように、価値のランキングがこの価値のポートフォリオからできるということです。ですから商品開発の方向性としては、「香りのよいワイン」を造りましょうとか、「まろやかなものをつくりましょう」とか、開発の方向性は明らかになるわけです。そういう意味では、「香りがよい」とか「ボトルデザインがよい」とかということを訴求しているワインはほとんどみたことはないと思いませんか。国内のメーカーは「ポリフェノールがどれくらい入っていて‥」といった感じです。その一方で最近のヨーロッパやアメリカのワインの動向は、まず適度な樽の香りとか、バニラっぽい香りをつけて、すごくボルドーの高級ワインの雰囲気をかもしながら、ボトルのデザインをきれいにしているようです。今回の調査結果に合致しているなあと思いますね。あと「色がきれい」なことも重要であると分析されています。

これは150名の女性に聞いた話でして、男性とは見方が異なると思いますが、女性の財布を開くことが出来れば男性は自然についてくるという説がありますので、女性のことを先に調べるのは賢明でしょう。

2-4.「定義法」から得られるデータ解析バリエーション②~新価値、CSポートフォリオ─

それから「新価値」というのも分析できます。新価値というのはポートフォリオでいう、現状では一切定義されないけど、理想としてだけ定義されるもののことで、理論的に新価値と考えられるわけです。「高い」とか、「ボトルデザインがよい」とかが新価値になります。数式を照らし合わせると、8%くらいの人が新価値として言われていることは、お客さま価値としてはある程度高いということです。「ゴキブリが一匹いれば、10匹はいる」のと同じようなことです。考え方はこれだけなのです。

価値意識に照らし合わせて国産のワインについては、「安価」「手ごろ」「安心」「飲みやすくて」みたいなことが定義されるわけですが、これを先ほどの価値ポートフォリオそれぞれのワード上に、バブルチャートで丸の大きさによって何人の人がそれを評価したかを載せると、どの価値に反応しているのかがわかりますね。そうすると国産ワインは「手ごろな価格」というところには極めて反応するのですが、そのようなあまりどうでもよい価値に反応してくれてもねぇということです。大事なところでは「おいしい」「品質がよい」「高価」「高級感がある」「幸せ」「酸味強すぎない」というところで反応していることがわかって、その商品のパフォーマンスが把握できるのです。

それを先に述べました価値の重要度の総合指標であるCS指数とその価値に対する評価との積を算出して、評価に重要度の重みづけをして積算していくことで、潜在的な価値のパフォーマンスを推定してみますと、国産ワインの強みは「高いこと」、その次は「安いこと」、この辺は非常に矛盾しております。まあお客さまは常に矛盾する生き物ですから、非常に難しいのですが、その次にくる「おいしくて」「手ごろ価格」「香りがよくて」「安心できて」「飲みやすくて」というような価値が国産ワインの強みとして出てきていますね。ですから、すごく両極端のものを作ればいいんじゃないかと思いますよ。国産の技術の粋を尽くした超高い一本1万円以上するようなものと、ディリーな600~700円くらいで十分おいしく、香りのも色も良いといったようなものを作るということが提案できるわけです。

あと価値の重要度と、その評価がわかれば皆さんおなじみの「CSポートフォリオ」というものが描けますね。横軸に重要度と、縦軸に評価をとると、重要度が高いもので評価が低いものというのは致命的なわけですから、そうするとここから国産ワインは何を改良するべきかが提案できるわけでして、その考え方からすると一番価値が重要で評価が低いのは「香りがよい」というところです。まず香りをよくしなくはダメですよと。また「まろやか」「ボトルのデザイン」は、ぜんぜん評価されていないわけですから、重要なのにもかかわらず、これは何とかしなくてならないということが提案できるわけです。これを国産ワインの研究開発の人に見ていただいて、「こうゆう物を作りなさい、しかも価格的には両極端でね」というふうに、たったあれだけのアンケートでここまで分析、提案ができるわけです。

先ほどのものが定型自由文形式のアンケートのテキストマイニングです。広い意味でこれもテキストマイニングだと考えています。

(2)へ戻る   (4)へ進む

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月20日
-----------------------------------------------------------------

|

プロフェッシナル講座(2)

■第1講:企業活動の中のテキストマイニング

1-1.現在の業務内容と、「テキストマイニング」という手法に関わるようになったきっかけ-

私は「情報開発室」というところに所属しており、お客さまに対して化粧品や美容の情報をいかにわかりやすくお伝えするのかという情報コンテンツを作成する業務に携わっています。情報作りということについては、どうしてもお客さまの価値意識がどこにあるのか、どういうことを申し上げるとお客さまが喜んだり感動してくださるのか、そういう一番胆のところを探さなくてはいけないということがありまして、そこの部分を担当しております。

一番胆のところを探すといっても、どのような方法論があるのかということで世の中をみてまいりますと、グループインタビューとか定量調査、アンケートとか、色々な方法論があるわけですけれども、どれも物足りないというか、私どもも含め世の中でさんざんやられてきている割にはお客さまの喜びとか、関心とかを喚起することができなくなってきているのです。ではどうすればよいのかということで、人には頼っていられない、自分たちで方法論を開発しなくてはということになり、その方法論自体の開発ということに業務の重点が移ってきました。志は情報開発や商品開発にあるわけですけれども、その前段階として、手法開発という業務が重くなってきているという状況です。

そのような状況のなかでこのテキストマイニングという技術を、方法論として開発してきたということです。テキストマイニングの開発が仕事の全てというわけではありませんで、これはあくまで手段であると考えています。世間でもっとよい方法論が出てくれば、すぐにでもそちらに乗り換えるかもしれません。

1-2.資生堂の社内でのテキストマイニング手法の導入状況-

社内での手法開発を一手に引き受けているわけではなく、様々な部門とコラボレーションをとりながら、お互いのいいところを補いあって進んでいます。本社にお客さまセンターという部門がございまして、そちらの方がお客さまの声をコールセンターで受けたり、CSテストグループみたいな部署がありまして、いわゆるカスタマーサティスファクション(顧客満足)を計ったりということをしているのです。私どもが開発したVACAS(バッカス)とかDIONISOS(ディオニソス)という方法論につきましては、そういった部署でお客さまの意識を計る方法論の一つとしてご採用いただけているといったような状況です。

逆に私たち研究所の人間は、お客さまセンターに集まってくるお客さまの声の情報を頂きそこからテキストマイニングをすることで、「次に何を作ろうか」「どういう研究テーマを起こそうか」、そういうふうなところに使わせてもらっているのです。

本社ではお客さまの声をテキストマイニングしたい、研究所はテキストマイニング的な手法からお客さまの方を見て商品開発に役立てたいというアプローチが両方あったわけですけれども、それらがクリエイティブ・インテグレーション(創造的統合)を遂げて、定型の自由文を解析するVACASとか非定型の自由文でも解析できるDIONISOSというテキストマイニングのツールの形で方法論として確立してきたので、双方の技術や資産を使い合うことができるようになってきたわけです。

1-3.社内でのテキストマイニング手法導入の経緯のなかでの要請-

お客さまセンターにあるコールセンターではフリーダイヤルを中心に年間約45万件のお客さまからの問い合わせを頂いております。それは全部オペレーターがその場でリアルタイムにコンピューターに入力して、データベースとして蓄積されております。そしてフリーワードで自由に検索することができますし、カテゴリーごとに分けてデータベース化しておりますし、それが好意的な意見なのか、それともクレーム的なものなのかという観点から、どちらの比率が多いのかという、そういうデータは瞬時に出るようなシステムは構築されているのです。そのシステムは「ボイスネットC」という名前で、いろいろなところでご紹介させて頂いています。

そういう形では、所謂テキストマイニングという形で昔からやってきていたのですが、コンテンツそのもの一つ一つに立ち入ってどこまで読み込めるのかという観点から言いますと、さすがに45万件の1件1件を読むことは事実上不可能なことです。それで一つ一つのコンテンツまで読み込みながらそれらを要約して、要するに大多数の人は何をおっしゃっているのかということを把握したいというニーズは昔からありました。方法論としていろいろな会社からご提案をいただく「テキストマイニングではこういうことができますよ」というソフトで試してはいるのですが、今のところどれも「ちょっとなあ・・・」というような状況です。そういうことを背景に使えるテキストマイニングツールの必要性が非常に高まってきつつあったのです。

今は各研究員の机の上に1台づつパソコンがありまして、その端末からイントラネットでデータベースとアクセスし、お客さまの声情報を自由に検索できるようなシステムが整っております。自分の担当している商品をボタンでぽんと押すと、「1400件ヒット」とか出てきて、それをワードやエクセルに落として読むのですが、100人分も読むとさすがにウンザリしてきます。ですから何らかの形でそれをサマライズする、テキストマイニングして、「肝は何なのだ」という要約を簡便に出すというニーズはとても強くあるわけです。

1-4.商品開発の手段としてテキストマイニングをはじめた背景─

その一方で私ども研究所の立場として商品開発という観点でものを考えますと、新製品を出す際には必ずマーケットリサーチをかけるわけです。定量的なアンケートですとか、グループインタビューとかで仮説を立ててきて、それで「これはいけるはずだ」「お客さまがこれを望んでいる」という、それで製品を作って「これでどうだ!」というふうに世の中に出すわけです。社内的には、以前はですね、「多変量解析研究会」の幹事的な仕事をする人がいたことがあるくらいマーケティングリサーチには積極的な時代もありましたが、ある時期からその伝統が崩れてしまいまして、最近ではデータに基づいたマーケティングリサーチをあまり行ってきていなかったのですね。どちらかといえば、調査会社であるとか、広告代理店さんに丸投げをしてということが多かったのですが、あまりにも当たらないので、そろそろ、やはり自社で開発しなくてはということになってきていると思うのです。

どうもこう、当たらないといいますか受けない状況があるわけで、何でそうなるのかということを考えてまいりますと、通常のアンケートは大体そのアンケートを設計した時点で、もうアンケートを作る人の主観が入っているわけです。質問でどういう項目を聞くのかということ自体で。例えばクレンジングフォームをテストするときには、常識的には「泡立ちはどうですかとか」「泡の質はいかがですか」「すすぎやすさはどうですかとか」「その後肌ががさがさになりませんか」という、そういうことを聞きますよね。でも今では世の中そういう常識的な部分での品質が劣悪なクレンジングフォームなんかはなくて、お客さまの興味は香りと容器の色、かわいさとかにあるのかもしれないわけです。

ところがアンケートなんかにはそういう質問項目はないわけですね。そうするとお客さまにとっては、まるっきり大きなお世話みたいなことばかりを聞いていて、肝心なことは何も聞いていないアンケートをやって、それから仮説を作って、一生懸命に物を作っているという「愚の骨頂」みたいなことをやっている可能性があるのです。

1-5.テキストマイニングにおけるデータ収集の手法─

われわれ研究所サイドとしては、そういうやり方を盲目的に信じていいのかというで、本当のお客さま価値はどこにあるのかということを考える際には、全くフリーワードで、お客さまに思っていることを言ってもらって、そこを解析していくことをやらなくてはいけない、そちらのアプローチが必要であると思ったのです。そのツールとしてはいわゆるテキストマイニングができればよいのですれども、それをいきなりするというは難しかったので、擬似的なテキストマイニングとして、定型の自由文形式という形のアンケート形式を開発し、それで調べていくということをやっていたのです。それがVACASです。

非定型の自由文の解析については緒に就いたばかりで実際の運用はこれからになってくると思います。ただやはりですね、色々とテキストマイニングしてみてわかることは、非定型の自由文というのはボリュームの割にはコンテンツが少ないです。それに対して定型自由文はアンケートを受ける人には多大な負荷を与えることになりますが、本当に凝縮された情報が取れますね。その意味では、今後は調査の全てが自由文のテキストマイニングに収束するということではなくて、ケースバイケースで用途に応じて定型自由文のテキストマイニングと否定形自由文のテキストマイニングとを使い分けていくということが行われるようになっていくのではないでしょうか。

アットコスメ(@コスメ)という化粧品のサイトがありますよね、そこにある口コミ情報をとってきてそれをマイニングした結果を後ほどご紹介しますが、そのようなものをすぐにマイニングできるという状況になってきました。(マイニングする対象の)コンテンツは自由自在に何からとってきても大丈夫ということです。ただ、このようなマイニングができるようになってきたのは最近の話です。

(1)へ戻る   (3)へ進む

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月14日
-----------------------------------------------------------------

|

プロフェッシナル講座(1)

『ここまで進んでいる!テキストマイニング活用最前線』
講師:林俊克氏
(株式会社 資生堂研究開発本部CS開発センター情報開発室)

林俊克(はやし・としかつ)
【個人プロフィール】
1985年岡山大学農学研究科卒業後、資生堂入社。製品開発部門、研究管理部門、原料開発部門、CS開発部門を経て現在製品開発センター製品化計画部情報開発室に在籍。魅力工学研究会理事、薬学博士。専門は、多変量解析、統計解析に関する技法など。近著に「ワインの顧客価値調査」(朝野煕彦編『魅力工学の実践』所収)ほか、論文多数。

【関連書籍】
朝野煕彦編『魅力工学の実践』(2001)海文堂出版
※紀伊国屋書店ブックガイド

【関連URL】
株式会社 資生堂 http://www.shiseido.co.jp/
魅力工学サイバーラボラトリー http://www.miryoku.org/index.html
株式会社 アーキテクト http://www.architect.co.jp/
みんなのクチコミサイト アットコスメ http://www.cosme.net/

■連続Webレクチャーの趣旨

「スピード」という言葉が時代のかけ声のようです。本屋に積まれている、図解入りでポイントをかいつまんで説明する流行りの本を読めば、その瞬間はわかった気になるものです。でも、事実や本質を理解するためには、専門家の声にじっと耳を傾けて学んでみる必要もあるのではないでしょうか。何かを学び始める、あの新鮮な気持ちをもって。さあ講義の始まりです。
「学ぶ方法を学ばない人は未来の盲目である(A.Toffler)」

■今回のフロントストーリー

今回の講義は、「データマイニング」と並んで、昨今のシンポジウムでは花形のテーマになりつつある「テキストマイニング」についてです。あるテキストデータを市販の解析ツールにかければ何らかの情報は得られるわけですが、それをいかに経営資源として活かしていくのか、各企業の担当者も頭を悩ませているのが実情ではないでしょうか。そこで今回は、市場の声をマイニングしていかにそれを商品開発の場へ活用しているのか、最も先進的と思われる株式会社資生堂様のノウハウの一端をレクチャー頂きます。

第1講 : 企業活動の中のテキストマイニング
第2講 : 活用事例①「定義法」
第3講 : 活用事例②「文章完成法」
第4講 : フリーアンサー解析の進化

(2)へ進む

-----------------------------------------------------------------
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月14日
-----------------------------------------------------------------

|

テキストマイニング関連リンク

【テキストマイニング基礎・基幹研究】(学術・理論研究成果の公表)

IBM東京基礎研究所「テキストマイニング研究プロジェクト」
http://www.trl.ibm.com/projects/textmining/index.htm

魅力工学研究会理事 林俊克氏個人HP
http://homepage3.nifty.com/HAYASHI/

【テキストマイニング読み物】(講演、インタビュー抄録)

豊田裕貴氏(法政大学大学院 社会科学研究科)講演
セミナー特別講演「テキスト・マイニングとClementine:ブランド連想データの分析」
http://www.atmarkit.co.jp/ad/spss/spss0109/

北内啓氏(NTTデータ 技術開発本部 開発担当)
月間ビジネスコミュニケーションのホームページ「最新技術トレンド」より
http://www.bcm.co.jp/site/2003/2003Apr/techo-trend2/techo-trend2.htm

【全文検索型 参考ウェブサイト】

野村総研 http://www.nri.co.jp/
「トゥルーテラー」ホームページ http://www.trueteller.net/

ジャストシステム http://www.justsystem.co.jp/
「コンセプトベース」コーナー
http://www.justsystem.co.jp/km/whats/search_q_105.html

【概念検索型 参考ウェブサイト】

三菱電機 http://www.mitsubishielectric.co.jp/
テキストマイニング(プレスリリース)
http://www.mitsubishielectric.co.jp/news-data/2003/pdf/0213-l2.pdf

クオリカ http://www.qualica.co.jp/
「VextMiner」コーナー
http://www.qualica.co.jp/products/txt/index.html

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|

テキストマイニング初歩講座(4)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第4回・知識創造の手段としてのテキストマイニング

ここで視点を変えてみて、消費とは何であるのかということについて、物語という観点で考えてみたいと思います。よく言われることですが、消費者は何か商品を消費する際には、モノだけを消費しているわけではないのです。ヴィトンのバックを持っている方も、女性では多いでしょう。高いわけです。私は1000円くらいのカバンで十分と思っていますから、10万も、20万円も何で使うのか、牛丼が何倍食べられるのだろうかというふうに思うわけです。しかしながら、女性の人はそういうのを持っていないと恥ずかしいということで、大体一つや二つは持っているわけです。それはなぜかと言えば、そこにブランド価値というものが付いているわけです。ブランド価値というものは、要するに、一つの物語や情報であると言ってよろしいでしょう。消費者の方は、結局、ストーリーや情報を消費しているのだと言えます。企業というのは今までそれを付与するために一所懸命に企業活動をし、物語や情報を広告によって付与することをおこなってきてわけです。それは非常にコストがかかる作業なわけです。それは今後もやっていかなくてはいけないことでしょう。

一方、企業が提供する情報、ストーリー、物語だけを消費者は消費しているのか、購入しているのかというと、そうではないと思うのです。消費者は自分たちで、効用やストーリーを作っているわけです。そもそもヴィトンのバックを若い人が持って電車に乗るというのは、先進国の中でも日本だけではないかと言われています。普通、ヴィトンを持つ人というのは、お抱えの運転手かなんかついてですね、車で家から家まで移動するとか、そういう人がヨーロッパだと多いわけです。日本のように地下鉄に乗って、ヴィトンのバックから何か定期券を出すということは、アメリカ人やヨーロッパの人から見れば驚くと言われています。それは日本の女性は、ヴィトンを持つということに関して、ヨーロッパやアメリカの人と違う、ストーリー、物語を付与しているわけです。そういったものを企業は、聞き出していかないといけないわけです。つまり消費者が持っている物語や情報というものを収集していかなくてはなりません。そのために、今までは市場調査という方法が色々と使われてきたわけですが、定量情報に関しては、事前に分かることしか分かりません。これを理論的に「フレーム問題」といいますが、枠組みがあるとその枠組みを超えることができない問題や限界があります。

定性情報、テキストのような情報は、読んでいられない、まず量が多すぎて、目を通せない、まず目を通せても、どこが大事なのかよく分からない。読んだ先から忘れてしまうというような「認知限界」、人間の認知能力の限界というようなものがあるわけです。そこでそのような問題に対応するために、テキストマイニングを使いましょうということが、最近非常に注目を得てきているわけです。

それから、物語という視点を、先ほどの告発人という話と絡めて、別の視点から見てみると、ネガティブ情報というように言ってよろしいかと思います。特にネット社会でのネガティブ情報は簡単に伝播してしまうわけです。「某会社のサービスが悪い」とか、そういう話があるとしますと、500万人見たといわれるように、あっという間に伝播してしまう。今、巨大な掲示板もありますし、とにかく悪いうわさというものはすぐに広がってしまうわけです。あるいは自分のサイトにも変なことが色々と書かれるかもしれない。それに気がつかない、あるいはそれに気がついて、臭いものにフタをして見て見ぬ振りをしていると、実はたいへんなことになってしまう。それよりもむしろ自分のコントロール化におくべきだというように考えてよいと思います。それは、たとえ話で言うと、一戸建てに住んでいると、この時期になると、ゴキブリが出ることがあります。ゴキブリは1匹いると、30匹どこか巣に隠れているといいます。ゴキブリを家から追い出すと結局、巣に戻って却って増殖して帰ってくるということがなるわけです。実はネガティブな情報もそうなのです。これは都合が悪い情報だと排除しようとすると、どんどんと広がって、1匹のゴキブリが30匹になって、わっと押し寄せてくるのです。

ですから、ネガティブな情報に関しては的確に対応することが重要である。ところが、認知限界ということがありますから、普通はなかなか、すごく重要なネガティブな情報なのですけれども、気がつかないということが多いわけです。どんどん世界に広まってしまうということが起きるわけです。注目度が高いネガティブ情報を的確に発見して、的確に対応できるならば、ゴキブリが押し寄せてくるということもないですし、先ほどの告発人の話にあるように、文句を言って告発する人が、むしろ文句を言ったらそれに対して企業が誠実に答えてくれたということで、大ファンになって、伝道人になって、「あの会社はいいよ」「あの商品はいいよ」「あの会社の人はすごく親切だ」というふうに味方になってくれる人も多いわけです。皆さんの人生を振り返っても、苦手だとか、いやな奴と思っている人と仲良くなると、却って素晴らしい友情が育まれたという経験があるのではないでしょうか。そういうことを企業としてもしていかなくてはいけない。ということは、お客さんの持っている声を的確に把握していかなくてはいけない。ともかく、結果として、ネガティブな情報の比率が減れば、顧客満足は却って増えるでしょう。

次に知識という観点から、少しテキストマイニングあるいはマーケティングという話をしてみたいと思います。知識創造とマーケティングというものの関係を考えてみると、大体3つの枠に沿って、説明を申し上げることが出来ると思います。

一つはお客様がロイヤルカスタマーとなって繰り返し買ってくれるというのは、よく言われる「顧客生涯価値」というものが増大することですが、これはお客様が何らかの知識があって買ってくれているわけです。歯ブラシ1本100円でも一生買ってくれればものすごいお金になるわけです。だからこそ、企業は歯ブラシ、歯磨きといったものを一生懸命広告して、お客様にロイヤルカスタマーになってもらおうとするわけです。それは何らかの知識に基づいて行動する。中性洗剤はそうですが、ポトッと1滴たらして、それで油がぱっと広がると、あ、そうかと。「こんなに油が落ちるのか」という知識が、そのお客様の中にできる。そして、そのブランド買ってくれるとそのようなことが起きるわけです。

二番目は、その知識をどんどん他のお客さんに普及して言ってくれる、話をして、どんどん知識を創造してくれるという側面があるわけです。これは言ってみれば、ブランドの価値を伝播してくれているといった機能といってよろしいでしょう。これも言葉で行われているわけです。もちろん一番も言葉になっているわけですね、「こんなに油汚れが落ちるなんて」というように。お客さんの中である言葉になっているわけです。

そして三番目は、企業にとってみれば、一番、二番と、お客さんの中にある知識を得ることができれば、新しいブランドの価値というものを創造することができる。早い話、台所洗剤というのは、本当は成分が同じわけです。これを使った方が、より落ちるということはあまりないと思うのです。「ところが油汚れはこんなにきれいに落ちますよ」と印象的に何か物語にすることが出来れば、それがブランドの価値になるわけです。

ですから、そういったものを企業に提供する、そして企業が再び発信することで、大きな価値を生むわけです。グラフを持ってきているわけではありませんが、例えばブランドの上位5社とその他ですと、売り上げですとか、利益率が非常に異なるといったようなことは実証的にも研究されています。10倍とか、20倍違うとか、それは業界によって異なるわけです。はっきりとした価値がブランドの価値としてあるわけですね。それは企業の利益、パフォーマンスに影響を与えるわけです。最終的には、それは言葉を通じて、形成され、保持をされ、伝播され、獲得されるわけです。

そのような情報、テキストの形というのが、溜まれば溜まるほどよいのかというと、理想を言えばそうですが、情報の量がどんどん増えていく、時間がたってどんどんそれを分析するというと素晴らしくひらめくということになるとそれが理想です。十分な量で、質の高い情報が、時間とともに知識に転化をしていくということになれば、これは理想です。しかし、人生を振り返ってそういうことはあまりないはずです。電子メールがどんどん来ると、それで仕事がよりはかどったというのではなくて、毎朝まず30分電子メールをみなくてはいけない、それからお昼ご飯を食べて、部屋に戻ってきてメールを読まなくていけなくてまた30分くらい経ってしまったと、今、みなさんそのような人生ではないかと思うのです。

つまり理想どおりには現実には行かない。あるところまでは量が増えると、質が増えてくるわけですが、臨界量、クリティカル・マスというのがあるわけです。何事も“過ぎたるは及ばざるが如し”で、今度あるところまで行くとどんどん下がってきてしまうとなるわけです。なぜこのようになるのかというと、要するに情報量が多くて、情報洪水を起こしていたり、ゴミのような情報が多く、管理、認知には限界があるのです。

もう一つは、情報というのは、生ものなのです。知識というのは時間が経てば経つほど、古くなるわけです。10年前の流行を今、論じていてもしょうがありません。ということで素早く活用しなくてはならない。早くできるのかといえば、読んでいたら、それだけで時間が経ってしまう。そのような状況にあるわけです。

これをもう少し具体的にみてみると人手で整理しなくてはいけない、そうすると追いつかない、分類が正しいのか、抜けがないのかということを見ている、と追いつかない。日本では、これを一生懸命やっていても、これは暇つぶしの窓際族がやっているのかというということで、冷たい視線を向けられて、全然尊敬されないのが現状です。そういった悲しい事情があるわけです。あるいはどんどんとメールが来るということで、人間の方でも情報洪水を起こしてしまうということが起きてしまうわけです。ですから、こういったものに対応していかなくてならないわけですが、そのためにも、テキストマイニングというものが非常に有効であろうと期待できるわけです。 (以上、終了)

(3)へ戻る 

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|

テキストマイニング初歩講座(3)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第3回・テキストマイニングの目指すもの

データ中心のアプローチの場合には、二つの評定があるといわれています。これはどちらも事前に切り口が限定されてしまっています。まずデータの形式について説明したいのですが、大きくはデータには、「明示的評定」と「暗示的評定」があるといわれています。明示的というのは、よくあるアンケートのようなもので、「あなたはケンタッキー・フライドチキンが好きですか。きらいですか」に対して、「とても好き」「まあまあ」「あまり好きではない」「全く好きではない」との回答項目。あるいは「値段はどうですか」について、「とても高い」「高い」「やや高い」「どちらでもない」「やや値ごろである」…。というような項目を用意して聞いていくわけです、レーティングをして。

それに対して、暗示的評定というのは、そういって何か形を取って聞くのではなくて、お客さんの行動というものをデータ収集して、それを使いましょうということです。さっきお話した、コンビニの例で言いますと、若い女性の方がお稲荷さんを買う、あるいはインターネットのサイトですと、このページとこのページは一緒に見られるというのは、何かアンケートに答えてくれたわけではないのですが、そのデータ自体は、行動を通じてお客さんは評定をしてくれているのだということになるのです。これは再利用は簡単です、数値ですから。色々とデータを検索して、例えばクリスマスにコンビニで買い物をすると言うときには、何が売れるのだろうかということは、すぐに集計をすることできる。それに対して、統計解析とか、データマイニングをかけるというようなことは簡単に出来る。あるいは「コラボレーティブ・フィルタリング」といって、ある人と、例えば、ビートルズをよく聴く人は、ローリングストーンズをよく聴くのではないか。あやや(松浦亜弥)が好きな人は上戸彩も好きなのではないかと。そのような事実は、どういうCDを買っているのかを分析することで分かるわけです。

ところが、クリスマスの日にわざわざ文句を言いに来た人がいる、だけどそれに誠実にこたえたら、お客さんに感謝をされ、誉められたということは捕捉できないわけです。というのも、事前のデータの構造として、こういうものを分析しましょうとデータ項目に載っていないからです。お客さんがいかにケンタッキー・フライドチキンのことを誉めてくれても、それはわからないという、分析しようがないということになってしまいます。

実は、この問題は本質的なことでありまして、今、「CRM」ということが言われているというか、常識になっています。非常に盛んに言われたのが2~4年前に、「カスタマー・リレーションシップ・マネージメント」ということが言われて、今日ではそれは当たり前になってきています。顧客との関係をマネージする、理念としては素晴らしいわけですが、方法論としては今までたいした物はなかったといってよいと思います。早い話、これは購買の履歴をとって、「購買の管理をしましょう」「どのような人が買ってくれるのかを集計してみましょう」「よく買ってくれる人にどんどん薦めましょう」という話なのです。

これらは結果を追いかけているだけなのです。お客さんは何か理由や、お客さんなりの価値判断があって買い物をしてくれるわけです。ところがその結果だけを分析しているだけで、なぜそのような買い物をしてくれるのかという原因とか過程とかは、一生懸命、現場の知識で推定するしかないです。だけど実際には推測しきれない。なぜならば、生の声を言葉で聞いているわけではないのですから、推測できないということになるのです。お客さんが買ってくれる本質的な原因は、お客さんの中にある知識または信念なわけです。先ほどの例で言うと、ケンタッキー・フライドチキンは非常に誠実で、あるいはそのような噂を聞いたと、「だから買うのです」という、物語、知識、言葉があるわけです。これこそが、顧客ロイヤリティの本質なわけです。

しかしながら、その本質はいくらデータをなめてもわからない、一生懸命解釈しなくてはならない。だけど、みなさんにも気がつかないことをお客さんは考えているかもしれない、頭の中で言葉になっているかもしれないが、それが得られないかもしれないわけです。

過程というのは、言葉を変えれば、ロイヤルカスタマーを核にした消費者間、顧客間のインタラクション、そこでやり取りされる言葉なのです。これをいかに捉えていくのかと言うことが、企業にとって非常に重要なことになって来ています。実は昔から重要なのですが、技術がなかったので、いくら重要でもどうしようもなかったのです。最近それを扱う技術が普及してきたわけですから、競合他社がやっていて、自分の会社がやらない、競合他社はお客さんの声を分析している、こちらはちょっとデータをなめているだけどということになると立ち行かなくなってきたわけです。

本当に必要な知識はどこにあるのかというと、もうお分かりでしょうが、データベースに入っているとは言い切れないのです。実際、私は今、文部科学省の調査で、会話型知識プロセスというのをやっていまして、私の専門はコンピュータサイエンスなのですが、そこで難しい手法を作っても、実際にそのニーズがあるかどうか分からない。私は色んな人工知能とか、コンピュータサイエンスの色んな手法について、本当にニーズがあるのかということや、知識に関してどのようなニーズがあるのか、調べてみたことがあるのです。これは800人くらいの方に答えていただいた調査なのですが。データベースでわかるというのは、全体のうちでごくわずかであることが分かっています。あとの残りの8割はどこにあるのかというと、テキストとかマニュアルとか言葉というような形になっています。企業ということになると、必要な知識のかなりはお客さんとのやり取り、お客さん同士のやりとり、会話的なやり取りの中に含まれていると思います。

しかも今日、お客さんの声といったものを大量に蓄積し、自己増殖していくという仕組みがあり、どの企業も持っている。例えば、企業のホームページの中に掲示板があるとしましょう。そこにお客さんが書いてくれたものが蓄積されたわけです。さらにその掲示板の投稿に対して、別の人が答え、コメントをつける、それを見てまた別の人が違う意見を言ってくるというように、どんどん自己増殖をする。単に蓄積されるだけではなくて、自己増殖していくというようなことが起きてきているのです。

コンピューターとネットワークの活用によって、このようなことが加速的に進んでいるというのが今日の状況でしょう。ということは、ガラッと発想を変えて、テキスト中心のアプローチをとっていかないといけないということになるのです。レビューやコメントといったテキストを中心にアプローチしていかなくてはならないでしょう。テキストというのは、データと違って、事前の項目、形式に限定されない、何でも話せるわけです。

ここまで30分くらい話をしましたが、もし、それを表にできる人がいれば、その人は本当に天才だと思います。テキストだと何でも分かるわけですけれども、今度は表のように定型化されていないわけです。ということは、どう分析していいかわからない。全部読まなくてはいけない、ところが全部読んでいたらキリがないわけです。みなさんご自分の会社のホームページにあるテキストを読んでいただいたら、下手したら、それだけで1年終わってしまいます。ですから人間が読んでいるというだけではキリがないということで、今後は、やはりテキストマイニングというものが有望であるだろうといわれています。もう一つ、有望であるといわれているのはXMLとか、XMLを利用した「セマンティックWeb」というもので、私たちはそのような研究をしているわけですが、ご存知のようにXMLというのは、データ、トランザクションデータのやり取りとしてはかなり利用されてきています。会場にいらしている方で、会社でXMLデータを書いたことがあるという人は非常に限られると思います。まして、セマンティックWebというもの自体は始めて聞いたという人が多いのではないでしょうか。ということで、普通の構造化されていないテキストというものを対象にしてマイニングしていくということが、99%正しいことになるのではないかと思います。

(2)へ戻る   (4)へ進む

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|

テキストマイニング初歩講座(2)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第2回・テキストマイニングという困難

ここで大まかな流れはうまく行くのかというと、あるボトルネックがあるわけです。みなさんは現場での専門家ということで、マーケティングの専門家、企画の専門家もいらっしゃるかと思います。しかしながら、このアルゴリズムに関しては、必ずしも専門家というわけではないと思います。アルゴリズムという場合には古典的な統計分析という場合にもあるでしょうし、相関ルールや決定木分析のようなデータマイニングの手法である場合もあるでしょうが、それに詳しい方は必ずしもいらっしゃらないのではないでしょうか。この中で、「コレスポンデンス分析」「双対尺度法」「対話分析」の3つの関係がお分かりになる方はいらっしゃいますか。実はこの3つは同じものなのですが、ご存知でない方も多いと思います。私自身、昔ある企業の広告部門で、外国の女優さんを使ったりして、海外向けの広告を作っていたことがあります。当時、広告部に50人くらい人がいたわけですが、私の経験では、広告代理店や調査会社の方が統計の説明してくれて、分かった感じがしているのは、正直言っていません。いたとしても一人か二人しかいない。その一人か二人に私が入っているかもしれないという状況だったのです。あとしばしば、統計のアルゴリズムが分かっていないと、何か分析結果を出してもらっても、何かとんちんかんな解釈をしてしまうということがおこりがちです。

例えば、これは東京大学の飽戸先生というライフスタイルの研究をされている方が、生活者の分析ということをされて、確か因子分析か、数量化3類かどちらかをなさったわけですが、「お江戸軸」というのが出ましたということを発表されたわけです。

「お江戸軸」というのはどういう軸だと思いますか。てんぷらや寿司を食べるという軸でしょうか、歌舞伎を見たり花魁ショーを見たり、隅田川下りをするとか、色んな軸が解釈できるわけです。実は全部違っておりまして、江戸っ子というのは、「火事とけんかは江戸の華」、あるいは「宵越しの金は持たない」というように、割と享楽的、刹那的な生活をする。享楽、刹那という、“現在を重視する”という軸が出てきたので、飽戸先生は、これは「江戸っ子」みたいだと考え、「お江戸軸」というようにつけたわけです。しかしながら、普通は「お江戸軸」と聞くと、さっき言ったように、花魁ショーとか、隅田川下りとか、そういうことかなというようにどうしても思ってしまいます。ですから、解釈をする時にアルゴリズムが分かっていないといけません。因子分析の場合ですと、因子付加量を読みこなせないと、どうしても間違った解釈をしてしまいがちであるということがわかります。

ということは、専門家の会社さんとお付き合いをして、そことのコラボレーションをしていくということが、非常に重要であろうということが言えるわけです。

先ほどの例で言うならば、アルゴリズムを中心とした部分に関しては、専門家の人にお願いした方が安全であろうと言えるわけです。もちろん、その辺が全部分かっています、現場の知識も分かっていてデータの扱い方もわかっていますという方は、データマイニングやテキストマイニングのツールというものを、高価で何百万もするのですが、購入して自分で分析なされば、それはそれでよろしいかと思います。そうでない方は、専門家に手伝ってもらうことの方が結局は安上がりであると思います。実際、価格的には数十万円というサービスからあるようですから、数百万円のパッケージを買って使えないということよりはよろしいでしょう。

もう一つは、一人で何かを考えると、どうしても視点が狭まってしまうということです。専門家の人とコラボレーションしていけば、それだけ多様で、多角的な視点で、ものが見られるようになります。どう解釈していったらよいのか、そこからどういう指針を得るのかということに関しても、より豊かな視点を得られると期待できるのです。

それでは、次にテキストマイニングをマーケティングの見地から考えてみたいと思います。

マーケティングとは何であるのかというと、様々な定義やイメージがあるわけです。例えば、かわいい女優さんを呼んでコマーシャルをしてもらうことかなと色々とあるわけです。ここにいらっしゃる方は、もっと高度なことをご存知だと思います。

一応、基本からおさらいをしますと、マーケティングの定義は色々とされています。一番有名なのは、アメリカマーケティング協会が1985年に出した定義で、マーケティングとは、個人および組織の目標を満たす交換を創出するためのアイデア、財、これは商品ですね、およびサービスのコンセプト、企画といっても良いでしょう、価格形成、プロモーション、および流通についての計画と実行の過程であるとされています。ここでは「商品」「価格」「プロモーション」「流通」と、いわゆる「4P」という概念が入っているわけですが、「交換を創出する」というように、踏み込んだ定義ということで注目されました。つまり単に売ったりするというだけではなくて、もっと相対的な幅の広い活動なのだというようにマーケティングが定義されているわけです。

これを受けまして、日本マーケティング協会ではさらに踏み込んだ定義をしています。マーケティングとは、企業および他の組織、つまり企業だけではないわけで、NGOとかですね、そういうのを対象に、グローバルな視野に立ち、顧客との相互理解を得ながら、公正な競争を通じて、市場創造するという、そのための総合的な活動であると定義しています。顧客との相互理解、あるいは市場創造というものがキーになっていることがお分かりいただけるかと思います。

言い換えれば、これはお客さんの間、つまり顧客同士で、色々な会話、つまり知識の交換が行われる、あるいは交換に基づいて新たな創造が行われることを示唆していると考えられます。そして、その知識が、自然言語で書かれているテキスト、言葉というものを対象にすることが重要であるということに気がついてくるわけです。これはかなり崇高な理念ですが、目標をもっと具体的に考えてみれば、次のように言ってよろしいでしょう。

例えば、新規顧客を獲得するコストをいかに下げるのか。これはよく言われることですが、新しくお客さんを得るのには、非常にコストがかかります。新しくお客さんを得て、何かを買ってもらったとしても、それでは利益が出ません。なぜならば、それ自体に非常にコストがかかっているからである、というように言われます。ですから、一見さんではなくて、「ロイヤルカスタマー」を育成する、あるいは維持をすることが必要なわけです。つまり、顧客獲得コストがかからないお客さんというのは、そもそもコストがかからないので利益があがります。また、ロイヤルカスタマーというのはいつも買ってくれるわけですから、利益があがりやすいわけです。

ですから、企業としては、ロイヤルカスタマーをいかに増やすのか、あるいは、逃がさないようにするのかが、利益を上げる上で非常に重要なものとなってくるということです。ロイヤルカスタマーというのは言ってみれば、「オピニオンリーダー」なわけですから、そのほかのお客さんにどんどん薦めてくれる、というような効果があるわけですね。そこのお客さんはいつも食事をしてくれる。それだけでもお金を落とし、利益を上げさせてくれるわけですが、「近所の奥さんを、ちょっと一緒に行きましょうよ」と連れてきてくれる。「美味しいからあなたも行きなさいよ」と薦めてくれる、ということで、他のお客さんにも波及してくれる、こういうありがたい、企業にとってはまさに神様のような存在なわけです。

「伝道者と告発人」というセオリーがあります。伝道してくれるという人は、そういったオピニオンリーダーのロイヤルカスタマーなわけです。そういった人は、この商品のどこが良いのか、そういうことをうまく説明する能力があるし、他の人に影響力があります。ですから、一種カリスマのような形で伝道してくれるわけです。

ところが、こういったカリスマのような伝道者は、一歩誤ると、敵になると怖いというように言われています。つまり、それだけ言語化して人に影響を与えることができる人ですから、その人がもし悪口を言う告発人になったならば、「この企業はこんなにひどい企業だ」「ここの商品はこんなにひどい」「私あのレストランでひどい目に遭った」といわれると、今度はそのダメージは計り知れないわけです。その有名な例として、ケンタッキー・フライドチキンの話があります。あなたが店長だとしましよう。そこでお客さんが雪の降るクリスマスの日にやってきたとします。多分、クリスマスに七面鳥を食べる習慣があるので、家族にフライドチキンを食べさせようとして買いに寄ってくれたのかもしれない。その人はフライドチキンのファミリーパックのようなものを持ち帰って店を出たのですが、また何分かして後に再び店に来たのです。「いつもこのパックには7本フライドチキンが入っている。だけどさっき見てみたら、6本しか入っていない」と、文句を言ってきたとします。皆さん、どうしますか。その人はもしかすると途中で1本食べてしまったのかもしれない。それで、もう1本食べたくなって引き返してきたのかもしれない。でも、そうではないかもしれない。だけど本当のことは分からないわけです。これは事実に基づく話なのですが、その時、店長さんは、ファミリーパックに7本入っていることを知っているということは、この人はロイヤルカスタマーなのだと思ったわけです。初めて買った人ならば、何本入っているのか良く分からないはずですから。いつも食べてくれるから、「いつも7本入っている」と言ってくれるわけです。この人はもともとロイヤルカスタマーです。また、わざわざ文句を言いに来たわけです。ということは行動力がある、そういう人を敵に回すと、今度はすごく悪口を言う告発人になってしまいます。店長さんは、「どうも申しわけございませんでした、私たちの落ち度でございました。クリスマスにここで買っていただいてありがとうございます」ということで、もう一箱渡したわけです。そうするとその人は非常に喜んだし、もちろん家に帰って子供も奥さんも喜んだでしょう。そうすると、前よりも「あそこは本当に良い会社だ」「顧客の言うことを信じて、尽くしてくれる」ということを言ってくれるようになったのです。

このようにロイヤルカスタマーというものは、利益を生むという意味でも、波及効果があるという意味でも、その中でも特にカリスマ性がある人というのは、大事に扱わなくてはいけないということが分かるわけです。そういうロイヤルカスタマーの発する言葉というものに耳を傾けることは、企業にとって計り知れない財産になるであろうとご理解いただけると思います。 しかしながら、データ中心のアプローチだけでは問題点があるだろうということです。

(1)へ戻る   (3)へ進む

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|

テキストマイニング初歩講座(1)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第1回・テキストマイニングが注目されている背景

「テキストマイニング」という言葉を、多くの方が耳にされるようになったのは、この2年くらい前だと思います。その前は、大体4年か5年くらい前ですが、やはり「データマイニング」という言葉が非常に流行って、そのころ耳になさった方も多いのではないかと思います。データマイニングは、今日ではマーケティングの世界でも相当広く使われるようになってきています。そこでまず、データマイニングというものから話を始めて、それとの比較の形でテキストマイニングの説明をしたいと思います。

データマイニングというものは、生のデータ、数値データが大量にあり、そこから隠れた法則とか、ルール、そういった企業の役に立つような知識を自動的に発見する、あるいは生成をする、そのようなデータ分析手法の総称です。

マイニングというのは、"鉱山を掘り当てる"というような意味です。「山師」という言葉がありますが、山を掘って、何か宝の山を見つけるという、そういう採鉱の仕事をする人という意味です。データマイニング、テキストマイニングの、「マイニングする」というのは、「知識を発見する」という意味で使われます。普通のマイニング、採鉱の時には、そういう山とか大地とか、そういうところから、石油とか、ダイヤモンドとか、金とかそういう貴重な資源を掘り当てましょう、見つけましょう、というものなのですが、データマイニングの場合には知識ですから、法則、あるいはルールといったようなものを発見するわけです。例えば、深夜にビールを買う人はどのような人なのだろうか、ブランデーと一緒に買われるものは何だろうか、というようなことを調べれば、棚割ですとか、クロスセル、一緒にある物とある物を薦める、というようなことに使えます。そうすると売り上げを伸ばすことができ、企業の役に立つ、そういう知識を発見しようというものなのです。

テキストマイニングというのは、これをテキストに当てはめましょうということですから、大量のデータという時に、それを大量のテキストから発見しましょうということです。あとは企業活動に役に立つ知識を見つけていきましょうという部分は同じだと考えていただいてよろしいと思います。ただ人間にとっては、テキストというのは読むのが大変ですから、これを自動的にコンピューターが読んでくれて、そこから役に立つ知識を見つけてくれるというのは、親しみが持ちやすいですし、非常に役に立つのではないかという期待が、その分だけ大きいというように言ってよろしいかと思います。

ということで昨今、今後の情報技術の要素技術として、非常に注目を浴びていて、ビジネスの実務をやっている方も、それが使えるのではないかということで熱い注目を向けていらっしゃるというところではないかと思います。

ですから、テキストマイニングとデータマイニングというのは、非常に単純に言えば、対象が違うとお考えいただければよろしいと思います。データマイニングというのは、データを対象にしている、データというのは要するに、表とかデータベースという形で構造化されている、あるいはそういう形で安定していますから、取り扱いの方法も安定しており、操作をしやすいのです。ですから、データマイニングというものがまず注目を浴びてきたわけです。そこで行われるのは、主として、定量的な情報であるといってよろしいかと思います。

しかしながら、われわれはデータだけを対象としているのではなく、例えば、今、私は、皆さんの前で話をしていますけれども、これは言語というものを重要な情報の形式にしているわけです。その言語を書き表したテキストというものを対象にしたテキストマイニングというものがないと、どうしても価値ある知識、法則、ルールなど、そうものを企業の役に立つように発見していく上で足りない部分が出てきてしまいます。むしろ、そちらの方が圧倒的に大事ではないかということが最近、言われるようになったわけです。

ただ、テキストというのは、データのように必ずしもきちんと構造化されていて、定型化しているというものではありません。今、私もこうして自由に話をしていますけれども、書き言葉も自由に記述されており、構造化されていないわけです。

例えば、表のように、どこが価格であるとか、商品名であるとか、住所であるかということははっきりと決まっていないわけです。われわれ人間は非常に頭がよいというか、非常に知的な存在ですから、読めばこれが価格だなとか、名前だなとか、住所だなということは理解でき、定性的な情報を処理できるわけです。しかしながら、コンピューターというのは、融通が本来きかない存在ですので、そういったものを対象として、役に立つ知識をなかなか発見できない、できなかったのです。それをコンピューターにさせましょうというのが、テキストマイニングであると言ってよろしいかと思います。

では、テキストマイニングを活用していく上で、どういうことを考えたらよいのか、ということを次に話してみたいと思います。何事も仕事には、流れというものがありますから、データマイニングやテキストマイニングにもある大きな処理の流れというべきものがあるわけです。つまり、ある何かオリジナルなストックがまずあり、そこから数値データを抽出してみると、そういったことをしなくてはなりません。そしてそこに何かアルゴリズムを適用し、数値データに含まれていた情報を圧縮したり、抽象化したりしていかなくてはなりません。そうすると、最終的にアルゴリズムで分析した結果というものが得られますから、それを解釈する、そしてそこから企業に役に立つ行動の指針を得ていこう、アクションプログラムを得ていこうということをするのです。

テキストマイニングはいかに役立つのか、ここではデータマイニングの例を挙げます。売り上げデータから先ほど話をしたように、"オレンジとブランデーが一緒に売れるらしい"というようなことを抽出するというのが、大きな流れで、それが結果です。では、なぜオレンジとブランデーが一緒に売れるのか。多分、これはパーティの時です。パーティの時なんかに、オレンジをデザートに食べる、何かオレンジのカクテルを作る、あるいはカクテルにオレンジやレモンを切り身として入れるというようなことから、どうやらそれで一緒に売れるらしいということが解釈されるわけです。そうする企業としては、どのような指針を得るのか。この場合は、クロスセルというか、棚割りです。ブランデーを売るときには、果物を一緒にそばに置いておけば良いのではないか、あるいは果物売り場の近くにブランデーを置いておけばよいのではないかと。そうすると、お客さんがもっと買ってくれるのではないかというようなことを考えるわけです。ということは、現場の知識というようなもの、何で買ってくれるのだろう、買ってくれるとしたらどうしたらよいのだろうかということを考える、"現場の知識"というようなことが必要なわけです。ただし、そこでは、ある程度、アルゴリズムというものが分かっていないと、なかなか解釈が難しいという事例が出てきます。

アルゴリズムがある程度わかっていないと解釈というか指針を得ることは難しいのです。必要に応じて、オリジナルストックというものをちょろちょろとなめてみないといけない、みてみないといけないということが分かるわけです。いずれもしても、解釈や指針を得ようとしたら、現場の知識、アルゴリズム、もともとのオリジナルのストックといったものを見ていかないといけないといってよいでしょう。

ここでいうオリジナルストックというのは、統計処理、データマイニングの場合には、先ほど話をしたように、定量的、定型的、構造化されたデータであったわけです。具体的にはアンケートのデータをとるとか、あるいは取引のデータ、POSのデータとか、Webでしたら、Webのアクセスログをとるといったようなことが行われているわけです。例えば、コンビニエンスストアで、若い女性がお昼間になると、海苔巻きやお稲荷さんなど小さなものしか買わないで、それと一緒にサラダを買っていることがわかれば、そこからお弁当が大きすぎるらしい、小さな弁当を作ってみましょうというようなことがでてくるわけです。

それに対して、テキストマイニングの場合には、対象、オリジナルストックはテキストであるということができます。具体的に言うと、フリーアンサー、あるいはアンケートの中の記述欄、あるいはそのサポートセンター、コールセンターでの会話、記録です。最近では、音声認識が発達していますから、重要なものについては、音声からテキストに変換するということは、それなりの努力が要りますが、できなくもない。それらが色々と溜まってくる。あるいはWebでは、ECサイトや企業サイトに、消費者の方が色々と投稿してくる、どんどんメールが来る、そういったものを対象にテキストマイニングをかけていきます。ここでは、テキストそのものを解析するというよりは、テキストというオリジナルストックを一旦何らかの数値に変換してあげるということですから、基本的には数値データ以降の流れについて大きくはデータマイニング、テキストマイニングは同じであります。最初のオリジナルストックが異なるということでご理解をいただければよろしいかと思います。

(2)へ進む

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|

テキストマイニング活用 奮闘記(5)

■後編:テキストマイニング作業の4つのステップ(2)

これまで長々と書いてきた作業ステップを簡単な図にまとめて見ました。

今回テキストマイニングにチャレンジしてみて、実際に何がやれたかと言うと、宝を探す所まで行かず、宝があると思われる山に入りやすいように樹木を伐採したり、道路を作ったり、と整備して、いつでも宝探しができるようにしたところだと思います。要はマイニングしないで、データクリーニング止まり、と言うことです。

それでも大変でした。ツールが出来ないところをカバーするのは、山を整地するのにブルドーザーが入らないから、人間がシャベルを持ってやったようなものです。長文の場合は、まだツールが対応できないので仕方ありません。

文章を自動的に細分化した後、組み合わせる作業が、仮に、単語レベルから文脈レベルまで5レベルあるとすると、まだ、2~3レベルしか対応できていない、そんな感じです。単語(2~3)レベルのテキストデータなら充分対応できると思います。

データクリーニングは、人が介在しない方が科学的なので、ツールにレベル(1~5)を設定すれば自動的に整理されて、言葉が組み合わされて出てくると言うのがいいですね。やはり、テキストデータを自動的に整理できるというのが究極なのでしょう。今回は文脈レベルにするのに大変苦労したので、自動的に文脈までの整理が出来れば、それだけでマイニングと呼びたいという心境になりました。

文脈(5)レベルまで出来るツールは、残念ながらまだないように思います。ただ、ここまで出来ないと、この手のツールは使える人が限られてしまう。人で考えると、マーケティングやリサーチの部門かWeb専門の部隊ですかね。ある程度データを加工し、いじれる人が必要ということになる。やはりリサーチ部門か? そういえば最近はリサーチ手法のラダリングなどでテキストマイニングを活用した事例が見られるので、そんな使われ方も多くなると思うと、使えるのは、そのあたりでしょう。

ツールについては、いろいろな意見があると思いますが、私としては、まだ3/5程度の完成度と思いました。テキストデータがツールによって自動で分類され、誰でもが自由に活用できるようになるには、まだ時間がかかると思うが、それほど遠い先のことでもないように思う。何しろテキストデータは氾濫しているわけですから。最後に名称は、レベル4までは「テキスト解析ソフト」、レベル5になったら「テキストマイニング」というのはいかがでしょうか。

そんなことより、こんなに苦労した、今回の私の仕事。何かアクションは生まれるのでしょうか?結果を活用してくれることを祈りながらこの体験談を終わります。(終)

(4)へ戻る

-----------------------------------------------------------------
 ◎初出:2006年3月6日
-----------------------------------------------------------------

|

テキストマイニング活用 奮闘記(4)

■後編:テキストマイニング作業の4つのステップ(1)

Step ⅰ テキストデータの読み込み

★データの読み込み時間は速ければ速いほどよい
最初はもちろんデータを読み込ませるところから始めるわけですが、データ量が多いと結構時間が掛かる。今回は事前にデータを自由回答に答えた人(約4000)だけに絞り込んだので、10分程度で終了。結構速い。全サンプル2万件では30分程度でした。30分位が許容範囲ですね。これ以上かかると仕事を中断することになるのでストレスになります。データによっては何回も入れ直すことも考えられるので、ここは速ければ速いほど良い。

Step ⅱ 単語の細分化と原文(文章)理解

★単語の細分化一覧は自由度が高いと便利

データを読み込み終わると、自動的に単語の一覧表が件数とともに、名詞、動詞、形容詞などの品詞に分けられて表示されます。使用したツールはある程度類似語をまとめてくれるので便利なのですが、今一ピンとこないものもある。類似語としてまとめられた単語や品詞の区分でも、この単語も類似語として一緒にしたいとか、この単語は動詞でなく名詞の方がいいとか、いろいろとやりたいことが出てきます。ツールとしては、ここである程度自由に、また、簡単にまとめたり移動できたりすると便利だと思う。今回使用したのはあまり自由度がなかった。

★長文の場合は単語レベルでは意味が分からない

単語レベルでも意味がわかるかと単語と単語の関係をポジショニング図(コレスポンデンスなど)で、いろいろやってみても、まあ、靴の上から足を掻くような状況でなんとなくこんな感じかなと類推できる程度です。内容とか意見は、何となくしか分かりません。したがって、単語を組み合わせて句とか文脈レベルにする必要があるわけです。

★長文は原文を読む作業が必要になる

そのため、最初は回答の中で多く使われている単語(人事制度・・)とか、特徴のある単語(モチベーション・・)から回答の原文を検索して、内容を読むことにしました。どんな意見が書かれているのか、広さと深さを意識して全体のイメージを捉えることにしたわけです。
これは何というか、考えてみればマイニングツールと私はまるで逆のことを、ツールは細かく、私は俯瞰ということで両極からアプローチしていることになるわけです。その中間が落としどころ。この作業は、根気がいる。これこそツールがやる事だと思いながら。多分、ほとんどの文章を読んだと思います。
長文なので単語のかかり受けレベルではやはり意味がわからない。短文ならこんなことしなくていいと思うが? 長文の場合はどうしてもこの作業をやらないと次に進めない。

Step ⅲ 単語の組み直し(文脈・文章化)

データを読み込ませれば、文章を単語に細分化して品詞に分けるところまでは、自動でやってくれます。ここからは、テキストデータの全体像を理解した上で、細分化した単語を組み直す作業です。全体を俯瞰した内容を頼りに意味のある言葉・文脈にするわけです。ここからが大変でした。誰でもやれるような気もするけど、ちょっとしたノウハウが必要かも?

■従来のテキストデータの扱いはコード化と意見の抜粋

文脈作業の前に、少し横道にそれます。第1講でも触れましたが、従来のテキストデータの扱い方を少し説明すると、大きくは2区分。(1)言葉を数字に変えるために言葉と数字を対応させたコード表を作り、そのコード(数字)を振っていくという調査会社で言うアフターコードというのをやる方法と(2)代表的な意見を抜粋してこんな意見がありました、という程度でまとめるやり方です。

昔は前者が主流だったと思います。しかし、データ量が多いと大変なのであきらめて、結構、後者の場合もあるようです。

■コード作りは大変な作業

前者はコードをどのように作るかがノウハウで、調査会社の差別化の1つになっていたように思います。コード作りの基本はその文章で何を言いたいのか、伝えたい主旨を捉え代表的な言葉で言い換え、区別して、その後で言葉のニュアンスを捉えて一緒にするか細分化するかを決める、そんなステップでコードを作っていました。私もやったことがあるのですが、そのテーマによって当然内容もフォーカスする点も違い、細分化するレベルも回答数や言葉の多少でどの程度にするか悩みどころでした。結構大変な作業をやっていたわけです。

■単語レベルは定性的な理解。文脈レベルは定量的な理解

本題に戻ります。
単語を組み合わせるレベルは、類似語をまとめた単語レベルから、句レベル、意味・主旨を捉えた文脈レベルと段階がある。単語・句レベルのポジショニング図などで意味がわかるなら、文脈レベルにする必要ないわけです。文脈にする必要があるのは、それでは意味が分からない長文の場合で、文章の内容を理解して代表的な言葉(文脈)に置き換えていく作業が必要になる。この単語の組み合わせレベルによって、テキストデータから得られる結果が違ってくる。単語レベルはどちらかといえば定量的な扱いで定性的な理解をする、これに対して文脈レベルは定性的な扱いで定量的な理解をする、ということになるのではないでしょうか。(何か混沌としてきましたが?)

■単語の組み合わせは、ツールで出来ないと大変

今回の場合は文脈レベルですので、単語から原文を検索して、文章の内容を理解し、代表的な文脈に変えていったわけです。変えていくというより新たにデータを付け加えていくと言ったほうがいいかもしれません。要はツールの中で従来の言葉のコード化(アフターコード)をしたようなわけです。この作業は始めると全部の文章を読んで何らかのコードを振る必要が出てくる。やはりこれはツールで出来ないとつらい。

使用したツールには概念検索という優れた機能があり、文脈レベルの文章を入れると、同じような意味の文章を検索してくれる。これは結構便利ですが、まだ精度に問題があり全面的に信用できない。致し方なく、原文を参照しては、その内容を理解し、新たに文脈を作る必要があるかどうかを判断し、また、検索しては原文を参照するということの繰り返しをほぼ2週間やりました。体力勝負です。

どのレベルで言葉をまとめるか、このさじ加減が難しい。ただ、ここはツールが頑張ってくれないと。そこを人がやることになると、その人の感覚、能力に頼るということになる。

Step ⅳ テキストデータと他のデータとの関係を見る

Stepⅲまでがテキストデータのクレンジング、クリーニングということで、データを整備したわけです。ここからが分析ということになります。

前述したように単語レベルであればポジショニング図などで、単語の関係性を見る。文脈レベルならポジショニングを含め、属性とのクロス集計をしたりすることになると思います。どちらかと言うと単語レベルは定性的な言葉の発見があると言われています。キラキラしたダイヤモンドのような言葉。広告のキャッチコピーのような言葉が発見できたらいいですね。本当にそんなことが?と疑問ですが、可能性がないわけではない。あると思いたい。

今回は分析まで含めた仕事ではなく、どんな意見がどのくらいあるかをまとめて終了としました。マイニングというよりは自由回答のまとめで終わったわけです。もちろん他のデータとの関係性をみることは出来るのですが、今回はここまででした。そのため分析機能は使用しませんでしたが、分析のところはほぼ自動化していますね。ただ多変量レベルの解析でいいのかな~と思ったりしましたが、それはそれとして。大変でしたがどうにかテキストデータをまとめることができました。分析については、次に機会があればチャレンジしてみます。

(3)へ戻る   (5)へ進む

-----------------------------------------------------------------
 ◎初出:2006年3月6日
-----------------------------------------------------------------

|

テキストマイニング活用 奮闘記(3)

■前編:テキストマイニングについての整理(2)

1.テキストマイニングに使用したデータはアンケートの自由回答記入欄

最初に仕事の概要についてお話しします。

使用したテキストデータ(質問項目)は、Webのアンケートの自由回答欄。テーマは「人事処遇制度」について。よくアンケート票の最後に自由意見を書く所がありますよね、あれです。具体的な質問は「人事処遇制度についてご意見がありましたら、どのようなことでも・・」というものです。500文字以内、結構な長さ。テキストマイニングが扱うデータの中では、長い方に入ると思います。間違いない。ボリュームは全体で約2万サンプル、その質問に回答してくれた件数は約4千。回答内容は多種多様、賛否両論、様々でした。

2.テキストマイニングは某社の改定予定版を使用

使用したツールは某社のものです。始める時に、他にどのようなツールがあるのか、インターネットで調べて見ました。沢山ありますね。Googleで検索するとジャストシステムとかインタースコープ、SPSS、野村総研などのツールが上位にあがっています。それぞれ工夫を凝らし、特徴があるようです。機会があれば使ってみたい。きっと、どの製品も改良に改良を重ねてきているのでしょうね。今回使用したものも改定版です。使用後の感想・要望も某社に送らせてもらいました。今後の更なる改良を期待します。

3.テキストマイニングツールの基本機能は4つ

さて、まずはこのツールで使われている主な機能ワードを並べると、単語共起表、概念検索、基本検索、名詞、動詞、形容詞、その他の動詞、マップ、クロス集計、コレスポンデンス、時系列、比較集計、CS分析、概念マップ、分類、キーワードの重み付け、クラスター、Excel出力、等です。これを機能で分けると4つにまとめられます。たぶんですが、どのツールも概ねこの4つだと思います。

  1. 文章細分化機能:文章を最小単位の単語レベルに分割する。単語共起表などの名称がつく。
  2. 辞書機能:基本的な辞書の他に単語を組み合わせたり、一緒にしたりする機能。
  3. 検索機能:文章を検索する機能。
  4. 分析機能:言葉の関連性を見るものと、他のデータとの関係をみるクロス集計、コレスポンデンス、クラスターなど。

(2)へ戻る   (4)へ進む→

-----------------------------------------------------------------
 ◎初出:2006年2月27日
-----------------------------------------------------------------

|

テキストマイニング活用 奮闘記(2)

■前編:テキストマイニングについての整理(1)

具体的な体験記に入る前に、テキストマイニングとは何か、というすごく基本的なことについて考えてみましょう。
取り掛かった当初は、正直、私もあまり考えてもみなかったのですが、進めていくうちに「何故マイニングと言うのか」「テキスト解析ソフトではないのか」どこがどう違うのか、と疑問が沸いてきました。たまたま取り扱ったテキストデータの文章が長かったということも影響しているのでしょうが、私としては、どちらかというとテキスト解析ソフトの方がピッタリくるのです。そんなわけで、何故マイニングと言うのか、そんなことも考えてみなくてはいけないと思ったわけです。

1.テキストデータは氾濫している

まず背景ですが、PC(パーソナルコンピュータ)とインターネットの普及によって、世の中の多くの文章がデジタル化され、会社の中ではいまや文章を手書きで書くことはほとんどありません。もちろん、この文章もワードで作成しています。

あまりにも一般的なことで馬鹿馬鹿しいことかもしれませんが、テキストデータという言葉を「テキスト」と「データ」に分けて考えて見ると、
テキストとは=PCで作成した文章、
データとは=「立論・計算の基礎となる、既知のあるいは認容された事実・数値。資料。与件」「コンピュータで処理する情報」(広辞苑)、
などと説明されています。と言うことはテキストデータとは、"情報として扱われるPCで作成した全ての文章"というわけです。

では、視点を変えてテキストデータをデータの分類(定量データと定性データ)でみるとどちらに入るのでしょうか? 一般的に定量データとは数値化されたデータで、定性データとはそれ以外の文章とか映像/音声などのことです。従って、形式的には、テキストデータは定性データですが、言葉をPCで処理できるようになったことによって定量データにもなった。つまりテキストデータは"定性データであるが定量データでもある"ということになります。

文章がデータとなる、という現状は、全てPCの発達によって成されたことであり、今やあたりまえの事のようになっていますが、これはものすごく画期的なことなのですね。文章は全てテキストデータでかつ定量データとして扱えるということですから、世の中に膨大な量のテキストデータがあるということです。特にWebの関連では、問い合わせやお客様相談コーナーへの苦情、ブログ、アンケートの自由意見など多種多様なテキストデータがあり、まさに氾濫しているわけです。

2.データは活用してなんぼ

データについてよく言われることは「データを情報にしろ」とか「データを活用しろ」ということです。データは、そのままでは宝の持ち腐れというわけです。
データを情報にする、という意味は、平たく言えば読んでわかるようにしろということでしょうね。データを「分析(切り分け)」して「新たな視点でまとめ(組み替え)」「将来に役立てる情報にする」「誰が読んでも分かるようにする」ことです。

そのために分析・解析ということになるわけですが、定量データはクロス集計や多変量解析などを駆使してあらゆる角度から役立つ何かを見つけようとします。定性データもグループインタビューの発言などはそれなりに分析します。
ではテキストデータはどうかと言うと、大量にある場合は、適当な量をランダムに抽出して、代表的な意見の一覧表を作るとか、多い順に並び替えてみるとか、コード表を作って数値化してみるとか。まあ、そんなところで、その他にあまりやりようがありませんでした。

従って、テキストデータは、活用しにくかったわけです。但し、極端な話、活用と言う意味では、ただボーっと意見の一覧を見ながら、閃きを感じ、そこからアクションを起こして、上手くいくことがあるとすれば充分活用したことになるわけです。
まあ、上手くいけば何でも良いわけですが、これではリスク回避の面では問題になる。たまたま上手くこともありますが、失敗は山ほどあるというわけです。
従って、ビジネスの世界では、どんな意見がどれだけ有り、どんな内容なのか、広さと、深さと客観性が求められます。テキストデータにもそれが求められるわけです。そこで、テキストマイニングということになる。いずれにしても、どんなに上手くデータをまとめてもアクションを伴わなければ何もならない。活用とはそのことを基にアクションを起こすことですね。

3.マイニングとは?

テキストデータを分析できるようになったことは大変喜ばしいことなのですが、何故マイニングと言うのか。テキストデータを整理して分析するだけなら、テキストデータ分析ツールとかテキストデータ集計ソフトなどの名前の方が分かり易いと思うのですが、どうでしょうか?

マイニングという言葉が知られるようになったのは、データマイニングからですかね。データマイニングは実際にやったことがないので詳しいことは知らないのですが、これについても6~7年前(テキストマイニングと同じような時期ですが)に工学院大学を会場にしたセミナーでIBMの人が講師でデータマイニングについての話を聞いた思い出があります。
その時の感想としては、コンピュータとネットワークの発達に伴い多種多量のデータを集めることが出来るようになり、それをまとめて分析して、何かとてつもない因果関係を探し出す。確か「缶ビールと紙おむつが関係あるとかないとか・・」。まさに山から金を探し出すごとくのイメージ、とにかく、思いもしない宝を探し出せる可能性があると言うことでした。
つまりデータマイニングの特徴は「多種多量のデータを扱う」ということと「探索型」である(仮説検証型ではない)と言うコトだと思います。まあ多種多量のデータを扱えば探索型にならざるを得ないわけですが、どうなるか全く分からない、仮説が無いところから新たな関係を見出す。その意味でマイニング(採鉱、採掘)と言う言葉が使われている、と私なりに解釈していました。そんなところではないでしょうか。

4.それでは、テキストマイニングはどうでしょうか?

テキストマイニングには2つの意味があると思うのです。1つはテキストデータだけをマイニングする。もう1つはテキストデータと他のデータを一緒にしてマイニングする。どちらなのでしょうか? 前述した、データマイニングの特徴と照らし合わせると、テキストマイニングは「多量のテキストデータを扱う」、そして「探索型」であることになる。

つまり、データ量は多量なのですが、データの種類はテキストデータだけなので、一種類ということになり、データマイニングのように「多種」ではないわけです。マイニングのイメージが「何か予想も付かないことが採掘される」ということだとすると、やはり「多種」は欠かせない重要なポイントのように思うわけです。ただ、テキストの言葉の品詞を「多種」と捉えるなんてこともあるかなと思ったりします。こじつけかな?

「探索型」は単純にテキストだけでもデータ量が多量のために、何が書かれているかテキストの内容がわからないと考えれば、探索型ですよね。これは問題ないような気がする。

さて、前者(テキストデータだけをマイニングする)と後者(テキストデータと他のデータを一緒にしてマイニングする)のどっちか? 私は前者だと思っていたのですが、本当は後者のような気がしなくもない。

5.テキストマイニングの完成イメージ

テキストデータをマイニングするからテキストマイニングだと思っていた私のイメージは次のようなものでした。

分析する時に一番大切なのはデータの精度ですね。精度を保つためには、分析する前にデータのチェックをするわけです。業界ではデータクリーニングとかクレンジングとか言うと思いますが、その時、データを分析にあわせて変換(規準化など)したりします。データを扱うのは結構大変です。その最たるものがテキストデータです。テキストデータを分析し易いように単語を言葉に組み変えていく、使えるようにクリーニング、クレンジングしてくれる、それがテキストマイニングだと。そう思っていました。きっと、その作業がとても大変なので、潜在的に大変なことはツールがやってくれる、と凄く期待していたわけです。テキストデータを使えるようにクリーニングしてくれる。これが出来れば氾濫するテキストデータを定量データのように扱えるようになり、テキストデータを活用する道がもっと開けてくるわけですから。

しかし、考えてみれば、ここまで出来れば、もう一歩進んで、テキストマイニングの完成イメージは、テキストデータを読み込めば自動的にデータが整理され、さらに他のデータとの関係から全く新たな宝が探し出せると言うことなるでしょうね。そうなれば凄いですよね。分析・解析ツールとは明らかに違う。やはり、ここまで出来てテキストマイニングのような気がする。

(1)へ戻る   (3)へ進む

-----------------------------------------------------------------
 ◎初出:2006年2月27日
-----------------------------------------------------------------

|

テキストマイニング活用 奮闘記(1)

『テキストマイニング活用 奮闘記』 
講師:面来利夫(めんらい としお) 
(株式会社アイプラネット 企画制作局ネットソリューション部
webマーケティンググループ エグゼクティブプロデューサー)

■テキストマイニングにチャレンジ

まずは簡単な自己紹介から。一言で言いますと「マーケティング畑を歩いてきた中年男」です。キーワードは3つ、マーケティング、やる気充分、だけど少し歳が行っている、といったところです。
今年の4月に10年ぶりに現場復帰しました。
予想外のことでしたが、ともかく、久しぶりですので、少々わくわくした気持ちでいた時に、最初に私の前に現れた難問、それがテキストマイニングでした。もちろん初めてのチャレンジです。ですからテキストマイニングについての知識もほとんど無く、しいて言えば6~7年前にあるセミナー(三菱総研だったかな)で新しい人事測定という話を聞きに行った時に、人事関連の論文を評価するツールが紹介されていたのを思い出す程度でした。
たしか、採用時の論文や昇級試験の論文を自動的に評価するというもので、その時は「随分進歩したな」と感じました。ただ、そのツールについては、その後あまり聞かないので、どうなっているかわかりません。そんなことが頭の片隅にある程度でした。

仕事柄、何でも前向きに考える質(タチ)ですが、テキストマイニングについては進歩していると思いつつも、あまり世評に上らなかったので(ただ単に私が知らないだけかな?)、まだまだなのでは?という気持ちもあり、正直どちらかと言うと、あまり積極的でなく、少し引いた気持ちで取り掛かりました。

さて、今回チャレンジした感想を先に一言で述べますと、「面白い」です。
もともとデータを前に試行錯誤するのは嫌いでもないし、苦でもないので、久しぶりにデータを扱った新鮮さに加え、扱うデータが言葉なので、こんなふうに分かれるのかとか、こんな言葉が使われるのか等と驚きを感じ、何か凄く勉強したような気になれました。因みに「思い・思う」という言葉はよく使われますね。

次にツールを使用しての感想は、条件付ですが「まあまあのレベル」にきている、「まあ使える」という感じです。ただし、この評価は、テキストマイニングをどのように捉えるかによってだいぶ違うので、現段階では、人によってマチマチなのではないでしょうか。

そんな雑感を、まとめてみたのがこの体験記です。従って専門的な話ではありません。素人がチャレンジした感想を思うままに書いた体験記です。「そんなもの何の役に立つの?」と言われそうですが、思いとしては「はじめてテキストマイニングを使う人、どんなものかと興味を持っている人、の参考になれば」というところです。

■前編:テキストマイニングについての整理
■後編:テキストマイニング作業の4つのステップ

(2)へ進む

-----------------------------------------------------------------
 ◎初出:2006年2月27日
-----------------------------------------------------------------

|