10-テキストマイニング

2007/07/05

テキストマイニングコーナー <目次>

「プロフェッショナル講座(1)」~「(5)」

専門家レクチャーとして、「ここまで進んでいる!テキストマイニング活用最前線」というテーマで林俊克氏(株式会社 資生堂研究開発本部CS開発センター情報開発室)に具体的な活用事例などを解説していただいたもの。「企業活動の中のテキストマイニング」、「活用事例(1)定義法」、「活用事例(2)文章完成法」、「フリーアンサー解析の進化」の4つの講座。
-----------------------------------------------------------------
 ◎初出:2002年5月14日
-----------------------------------------------------------------

「テキストマイニング初歩講座(1)」~(4)

Web DBマーケティング研究会が主催したテキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」の基調講演を再構成した、テキストマイニングの基礎知識を網羅した講座。「テキストマイニングが注目されている背景」、「テキストマイニングという困難」、「テキストマイニングの目指すもの」、「知識創造の手段としてのテキストマイニング」の4回で構成。
-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

「テキストマイニング活用 奮闘記(1)」~(4)

株式会社アイプラネット ネットソリューション部webマーケティンググループ エグゼクティブプロデューサー、面来利夫(めんらい としお)による連載。
-----------------------------------------------------------------
 ◎初出:2006年2月27日
-----------------------------------------------------------------

「テキストマイニング関連リンク」

テキストマイニングに関する学術・理論研究成果、講演、インタビュー抄録、およびテキストマイニングのソフトウェアやサービスを提供している代表的な企業のテキストマイニング関連ページなどの情報源へのリンクを収録。 

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

 *テキストマイニングコーナーの連載は完結いたしました。

|
|

2007/07/02

プロフェッシナル講座(5)

■第4講 : フリーアンサー解析の進化に続く

4-1.非定型自由文を解析できるDIONISOS-

当社独自の手法であるDIONISOS(ディオニソス)についてお話します。「バッカス」と「ディオニソス」という酒の神様の二大巨頭のうちの一人にあやかった名前で、これも登録商標を取得させていただいております。

DIONISOSは、まったくの否定形自由文で書かれたお客さまの声をテキストマイニングすることで要約して把握することができます(図6)。内部では、お客さまの非定型自由文テキストを前処理ののち分かち書きして形態素解析しています。

普通のテキストマイニングでは、分かち書きをしたものを言葉の発言度数とか、同時発言の相関性を分析して、コレスポンデンス分析に持っていくとか、その程度のことしか出来ないわけですけれども、資生堂としてはVACASという考え方のツールを持っていますので、分かち書きされた部品がどういう論理関係でつながっているかがわかれば、ロジックの分析もできるわけです。分かち書きされた部品が現状のことを言っているのか、はたまた希望とか理想を述べているのかがわかれば、価値ポートフォリオで分析することで、価値の所在ということが分析できるわけです。これも特許をださせて頂いているのですけれども。

ワインの例でご説明します。まず「ワインのレベルのよしあしはどのようなところで判断されますか」とか「ワインの味のよしあしとか、どのようなところで判断されますか」という質問を、フリーアンサー形式のアンケートで聞きます。

回答としては「原産国と甘さから」「さらっとしている」「渋くなく甘みがあるもの」「コクがあるかないか」など、様々なことを書いてくれます。これを150名分とりました。そして形態素に分解していくわけです。それで形態素に分解して文法情報から構文解析を行い、関係性を解釈して、このようにタプル生成というところまでを行います。そうすると、例えばこれは、「よくわからないが、おしゃれなデザインで決める」は、よく、わからない、おしゃれなデザインで決める、という構文解釈ができているわけですね。

構文解析の結果から「構文木」といわれるものを作るのですが、いわゆる分かち書きの、このデータから構文を分析するわけですね。どの言葉がどの言葉にかかっているのかをみられるわけです。これもあまり難しい技術ではなくて、言語解析の分野では普通にやられている方法を基本的には採用しています。

この係り受けの情報を使うと、このようにフリーアンサーの情報が解析できるわけです。そうすると、「自分の好みに合うものがよい」「口当たりがよい」「渋みがないものがよい」「価格が高いものがよい」「料理に合うものがよい」とか、VACASを応用して分析できるわけです。

4-2.DIONISOSでできることのパフォーマンス-

今まで一度に一番多くのものをやったのは、6万8千件くらいのものでして、さすがに高機能なCPUを載せたパソコンでやったのですが、3時間くらいかかりました。でも3時間で完結するということですけれども。

もちろん、先ほどのワインの良し悪しの例のように、普通のマーケティングリサーチで行われるようなフリーワードのアンケートの要約も簡単です。

私が執筆した論文をテキストマイニングすることもできまして、「お客さまの言葉をカテゴリ化する」や「潜在ニーズ適合性を探る」や「感性工学的手法を応用した調査システム」「特定のコンセプトを訴求したり、理解するときの論理展開を推測できる」とかが分析されて要約として出てきていました。自分が書いた文章のエッセンスはまあまあ出てきていますので実用に耐えるのかなと。

以上の説明でなんとなく使い物になっているとわかっていただけると思います。

4-3.(まとめ)現時点でのテキストマイニングの評価、課題-

一番大事なのは、物理品質と知覚品質といいますか、いわゆるスペックの評価と感性評価の両方を考える必要があるということです。そこのところが両立しないといけないのです。VACASやDIONISOSのような感性工学的な手法からのアウトプットが目新たらしくて面白いということで、こちらばかりをやっていてはダメで、今までのような物理特性、顕在的な価値をきっちりと把握した上で、今回提案させていただいているようなテキストマイニングから得られるような、お客さま言葉から来る知覚品質も十分配慮し、両方が満たされるような商品を作ることがメーカーとしての勤めですよ、と言いたいですね。

そのためにも、VACAS、DIONISOSもまだまだ色々と改良していかなくてはいけないと考えているわけです。問題点はいくつかあるのですが、定型自由文形式アンケートの完成は急務です。今の聞き方は「定義してください」とか、「~ので~から~」という文章を完成してくださいというものですが、聞かれる側に大きな負担を強いてしまうようです。特に文章完成法については、若い人は平気で書くのですけれども、55歳を境にしてそれ以上の方はほとんど筆が進まないのです。それを補う方法として、インタビュワーがついて、例えば「ワインについてどう思っていますか」といって、「毎晩飲んでいます」、「ではなぜ毎晩飲むのですか?」「毎晩飲むとどういいのですか?」といったいわゆるラダリングインタビューをするのですね。要は文章完成法の( )の中をインタビュワーが埋めていくという操作で何とか補っているわけですが、それをするとコストも時間もかかり、VACASの強みがかなりスポイルされてしまいますので、アンケートでもっと簡単に、VACASの解析に耐えうるようなテキストデータが取れないかという方法論を考えなくてはいけないということが一つの課題です。

また、DIONISOSみたいな全く非定型の自由回答テキストに関しては、先ほどの構文解析の精度が即解析の精度に影響するわけです。分かち書きをして、なおかつ分かち書きをしたパーツパーツが文法的にどういう部品なのかということが正確に分析できる賢い形態素解析エンジンが求められています。

 数理統計的な課題もあります。「原因」と「結果」という形でクロスサポート行列を作ってそれ解析することで、ロジック分析ができるわけですが、グラフ理論ではいわゆる非対称の正方行列で扱える方法論としては「ISM」と「デマテル」くらいしか数学的な方法論がないのです。これは統計学者の人にがんばっていただいて、ISMやデマテル以外に非対称の正方行列からロジックを分析できるような方法論を開発していただきたいと思いますね。

さらに、色々な人から、特にVACASもDIONISOSを批判的にみる人から言われるのですが「検定」の問題があります。VACASにもDIONISOSにも検定という概念は今のところありません。「このロジックはどれくらい信用できるの?」「だってそういう人の数が多いのだもの」と、それしか説明ができていなくて、これにどのような方法で検定の概念を持ち込むのかも大きな課題です。これも数理統計的な課題と思っています。ただし、実用上はこの検定の問題は、それほど問題ではないと思うのですけれども。

調査に必要なn数に関しては、さほど大規模な調査をしなくても特に問題ないと思います。例えば200名と50名くらいの調査の結果を比べてみても結果はほとんど同じですね。でも、サンプルは多ければ多いほどよいと思います。多くのユニークな感性ワードが取れますから。

VACASに限らず、サンプルのリクルートを伴う調査は一般に非常にお金がかかりますので、1500サンプルといった数は非現実的な数字になります。1調査あたり100とか200サンプル程度くらいが順当なのではないかと思いますし、それで十分な情報が得られます。

もちろん、費用と解析に時間がかかるだけですので、データ数に関しては何件あっても全くかまいません。

4-4.テキストマイニングを活かすために求められるスキル-

これはあらゆる調査に当てはまることですが、「誰に聞くのか」、「どう聞くのか」はすべての調査の基本です。解析の方は結局、今騒がれているテキストマイニングもデータマイニングも、扱う対象が定量的に数値化されたものを扱うのか、テキストのようなまだ定量化されていないものを扱うのかということの違いだけで全く同じ手法でできてしまいます。そしてテキストマイニングも、DIONISOSのように、分かち書きをして係り受けを分析しそれらの情報を計量できる数値に変換してやればデータマイニングの手法がそのまま使えるわけです。テキストマイニングに関しては、まだ「黎明期」であり、DIONISOSも自分の頭の中にあることだけを具現化しているわけですから定量的な数値化もまだまだ稚拙であると言わざるを得ませんが。

どのような方法論であれ、解析に関しては、プロフェッショナルでなくてもできます。DIONISOSにしても、データさえ与えれば解析は全てオートマティックですから。何ワードまで出せとか、矢印を100本以内で書けと指示するだけです。問題は、出てきた結果をどう解釈するのかということや、解析する以前のデータのクオリティがどれほど高いものかということなのです。

DIONISOSに関しては、本邦初公開でして価格設定はもちろん、市販するかどうかも今のところ未定です。一般ユーザーの方に広く使っていただけるような状況を作りたいなとは思っているのですけれども、現段階ではVACASと同様に調査サービスとして提供し、フリーワードのデータコンテンツを頂いたらそれを分析してお返しするというサービスを考えております。(終)

(4)へ戻る 

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年6月3日
-----------------------------------------------------------------

|
|

プロフェッシナル講座(4)

■第3講 : 活用事例②「文章完成法」

3-1.価値の認識構造を把握するための文章完成法-

もう一つの方法として「文章完成法」というものがあります。今までのものは定義法といって言葉や短い文章で簡単に物事を定義してもらうテキストマイニングの手法でした。で、今度は文章完成してもらうアンケートのテキストマイニングです。

最近非常に価値の認識構造を把握しましょうという?ロジックを探る方法?が盛んに行われていまして、早稲田大学の豊田先生が本をいっぱい書かれていますが、因子分析みたいなところから持ってくる「共分散構造分析」のようなものもいっぱいやられているようです。やはり価値認識のロジックの把握、つまり原因を探ることが出来るということが非常に重要だと考えられているのです。それを把握するために簡易なテキストマイニングという意味で、私どもはこのような文章を完成してもらうアンケートを実施しているのです(図3)。

「ワインは~なので、~だから、~である」を書いてもらいます。例えば「ワインはポリフェノールが入っているから体に良いのでたくさん飲める」とか、「ワインは高いのでめったに飲めないので悲しい」とかですね、そういうことが書いていただけます。

このようなことを聞くと何がわかるのかといえば、「ポリフェノールが入っていると体によい」とか、「体によいからいっぱい飲める」というロジックがあり、一つの文章を作ってもらうことだけで、お客さまの感性ワードが三つと、ロジックが二つ取れるということなのです。ですから、とても効率よくたくさんの情報が取れるわけです。

このアンケートをしてもらうと、論理関係を分析することができます。それを「デマテル」という方法論を使って分析させていただいております。デマテルが一番ロジック解析に適しているのかどうかについては、テキストマイニングの今後の課題の部分で触れようと思っているのですが、現代段階では一番よい結果を出してきます。

デマテルはどういうことができるかというと「種類が豊富だと楽しいです」とかいうふうに直接的にお客さんが言った場合がこれくらいあるとします。そうすると、別のお客さんが「種類が豊富だと選べるのだ」と、また別のお客さまは「選べると楽しいのだ」と言ったとします。そうすると、このような間接的なパスがあると、「種類が豊富であると楽しい」は、この関係性は本当はもっと太いと考えられます、間接影響があるから。他にも間接影響があるとどんどん太くなって、潜在的な影響関係の太さはものすごく強くなるということです(図4)。こういうことの潜在的な影響の強さを調べる計算手法としてデマテルは優れていると思います。

3-2.潜在的なロジック構造の図式化-

このデマテルを使って、デマテルは数式をとくだけですから、エクセルでも解けてしまう。逆行列を算出できれば、すぐにできてしまいますから簡単な方法です。井上先生が書かれた本の中にエクセルのマクロが収載されているものがありますので参考になさったらいいと思いますが、クロス集計表を作ってデマテルで解けば、このようなワインはどのような価値認識がされているのかが出てきます。たとえば、「ポリフェノールが入っているから体によくてうれしい」ということが強くて、「口当たりがよくてうれしい」のかと思うと、「口当たりがよくて二日酔いになるや困る」といった、逆に困ってしまうというわけです。それから「種類が豊富だと、選べるから楽しい」とか、「飲みやすいと飲みすぎて困る」「飲みやすいとたくさん飲める」とか、「アルコールが高めだから酔う」とか、「コルク栓は開けるのが大変だから困る」とか、こういうロジックでワインを購入していることがわかるわけです。

そうすると、困ることは解決してあげればいいわけですし、うれしいとか、おいしい部分に関してはもっと伸ばしてあげれば、お客さまの喜ぶワインができるとか、こういうロジックに則ってテレビコマーシャルや色々な宣伝をするとお客さまの潜在的な認識構造に合致しているから、すごくよくわかってもらえるということが考えられるわけです。

私どもはデマテルの結果を価値構造図というものに図示しています(図5)。左から右には原因から結果の因果関係を表し、上から下は、デマテルで言うところの「中心度」というスコアでポジショニングしております。中心度というのは矢印の出入りする総和です。ですから全体のロジックの中でどのくらいその言葉がたくさん使われるのか、出入りが多い、お客さまの頭の中にしょっちゅう出てくる言葉の順番に上から並んでいるわけです。

左ほど出の矢印が多くて、入りが少ない、右ほど出が少なくて入りが多いということでプロットしています。デマテルの指標で「中心度」と「原因度」と言うものが算出できますので、それに基づいてプロットするとできるわけですね。この価値認識構造図は要約して、ワード数で上位20ワード以内を出せということで簡便化しているわけですが、これを深掘りしようとすると、バックには150人分のデータがありますから、「体によい」というのは、「ポリフェノールがよい」だけではなくて、「アルカリ性だからよい」、「飲み過ぎないからよい」、というロジックもあるということがわかります。「体によい」とどう良いのかという点では、「うれしい」だけではなくて、「体にいいといっぱい飲む」とかです。そういう方向にも論理が行くということがわかるわけです。

それから「おいしい」というのも、その前には何があるのかというと、香味の表現に関わるワードから「おいしい」にはほとんど来なくて(しいて言えば「フルーティだから」おいしい)、むしろ「料理にあう」「冷やす」「体によい」といったところからから「おいしい」ことが認識されるのですね。

デマテルによる間接パスの影響も踏まえたロジックの解析によって潜在的な影響関係をみていくとこのようなことがわかってくるわけです。

「おいしい」といいことばかりではなくて「太る」とかありますので、おいしさを説明するためには、「すごく料理に合っているからおいしそう」という雰囲気を作ってあげるべきで、「甘いからおいしいのだ」というように変な香味からくる理由をつけるとお客さまは納得してくれないということがわかりますし、おいしいということをただ説明するだけではなくて、「太らない」ということをあわせて説明してあげないといけないのだということがわかってくるわけです。

あと困ることなのですが、基本的には「飲みすぎて困る」「食べ過ぎて困る」、「酔いすぎて困る」「難しすぎて困る」「面倒で困る」というのがあるのです。「ポリフェノールで困る」というのは、「ポリフェノールが多いと体によくて飲みすぎて困ってしまう」という間接パスがすごく大きいのでこんなに線ができてしまうということなのです。

こんなふうにたったあれだけのフリーテキストのアンケートなのですが、そこからこれだけのことが読み取れる(マイニングできる)のです。

3-3.価値認識構造からわかることと資生堂の活用事例-

詳しい事例としてワインの説明のことしかできませんが、スキンケアのこととか、ファンデーションのこととか、メーキャップのこととか分析していると極めて面白いものです。

また、VACASは種々の調査手法の総称でして、他にも色々な手法があります。例えば、「差別化」手法ですが、どれが似ていて、どれが似ていないのかを差別化するためには、どのワード(認知の切り口)を用いるのがよいのかを計るやり方、普通の評価項目を決めてアンケートするにしてもそれをCSポートフォリオにする、そうするとどの評価項目が効いていて何を直すべきなのかがわかるかなど、色々な手法があり、それらをソフトとしてパッケージ化しています。

ファンデーションの事例を少しお話しますと、VACASで価値を割り出すと、「化粧崩れしない」という価値はダントツにすごい。ファンデーションの価値認識の構造を見ても、「汗をかくと化粧崩れする」「化粧崩れするといや」ということが上位に出てきます。

そのようなVACASで得られた情報をものづくりにつなげていき、出来上がったものをまたVACASで評価すると、お客さまに非常に受けるものが出来ているはずです。そして重篤な欠点が無ければ、これは相当いい商品になるのだということで商品化するわけですね。

VACASはソフトとしては市販しておりません。サービスとして販売させていただいておりまして、株式会社アーキテクトと有限会社データアートという会社に対して、このソフトをライセンス貸与しています。一般のユーザーさんはこれらの調査会社にVACAS調査を依頼していただければ、この方法論での調査ができるという形にしております。

有限会社データアートの道官さんという方が、もともとの定義法、文章完成法を開発されていて、その方と共同で特許を出させていただいています。デマテルは公知ですし、ポートフォリオを書くなんてことは、どなたでも実践できますので、皆さんが自力でやられるのでしたらいくらでもやってみていただければいいと思います。ただ、時間と労力がすごくかかるので、VACASのようにシステマテックになっていると、データさえあがっていればすぐにその日のうちに解析結果が出るということになります。

普通のテキストマイニングでは、分かち書き処理など手の込んだ作業がありますが、この定型自由文のいわば簡易型のテキストマイニングは、その分かち書き等の手の込んだ作業をしたくないから、短い単語の一言でデータが取れるように設計しているということなのです。

(3)へ戻る   (5)へ進む

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月27日
-----------------------------------------------------------------

|
|

プロフェッシナル講座(3)

■第2講:活用事例①「定義法」

2-1.具体的なテキストマイニングの手法-VACASの「定義法」の考え方-

「VACAS」というのは、ソフトの名前でして「Value Creation Assist System」の頭文字で、登録商標を取らせていただいておりまして、私たちの方で独自に開発したものです。方法論に関してはこれからご案内するような簡単な考え方で、それを自動的にできるようにしているだけということです。

「感性工学」みたいなところからアプローチしようというところなのですけれども、本当のところ、?創造性豊かなびっくりするようなもの?を作るということが、世の中に対して一番インパクトがあり、すばらしいことなのです。しかしそれはなかなか統計とか工学的な方法を使って実現することがきわめて難しい事です。もしそれがわかったとしたら決して発表はしません(笑)。そこで、工学的な方法で把握が可能な「潜在ニーズの適合性」という「なるほど!」をどれだけ極められるのか、ということを念頭にVACASという方法論を考えてきたわけです。

VACASは、お客さま自身は気づいていないが提示されれば「なるほど」と思うような潜在価値、感性価値を発見したり、それを有効に訴求したり、伝達する方法を提案・検証できます。一言で言うと、暗黙知が形式知化される、漠然となんとなくそうだとわかっている事を絵に描き文字にすることができるということです。アンケート方法については、お客さま自体何について聞かれているのか、何を評価させられているのか、どう応えることを期待されているのか、普通のアンケートですと見え見えなのですが、VACASでは客さまにはそういう事を気づかれないので、お客さまの潜在的な価値意識が引き出せるのではないかと考えております。

それから一番重要なのが、?お客さま言葉?での評価ということでして、フリーワードによる調査なので、メーカー都合の勝手な評価項目での調査とはちがい、お客さまの本当の知覚品質がわかるということです。それからシステム化したおかげで、データはもちろんFAXとかインターネットとかで簡単にそろえることができますし、またアンケートはとても簡単なものなので、データ収集はすごく簡単にできて、それを専用のソフトウェアに流せばすぐに結果が出てくるという特徴も持っています。

しかし絶対に誤解してもらっては困るし、非常に誤解されやすい部分で口を酸っぱくして再三いっているのですが、VACASは?打ち出の小槌?ではありません。誰も思いもつかなかったようなすごいことが出てくるのではなくて、誰かが言語化した或いは文章化したことしか扱えないのです。ですからあくまで「なるほど」を極めるということでご理解いただきたいと思います。また、「これがあれば今までの方法論はいらないのじゃないの?」と何でも物事を一つのものさしで計りたいというのが人間の性なのですけれども、そうではなくて、従来の方法論は、それはそれとして事実をある側面からみているということで真実であり必要な事なのです。そういう意味では今までは物理品質の評価という?片輪走行?していました。今後は感性的な評価、知覚品質の評価も加えて?両輪走行?すれば、もっと成功確率が上がって、さらにより重要なのは、失敗確率が下がるのではないかと思うのです。

2-2.「定義法」の具体的な調査手順と価値ポートフォリオ-

VACASの活用事例として、ワインの顧客価値調査の事例を説明させていただきます。まずは定義法といわれるものです。価値意識の割り出しの仕方ですけれども、簡単な調査を行います(図1)。「普段飲んでいるワインとは」「理想のワインとは」という問いに対して簡単な言葉で定義してもらいます。自分のところのプロダクトを評価してもらうという意味で「国産ワイン」についても、簡単な言葉で評価してもらいます。そうすると例えば普段飲んでいるワインは「安いもの」で、「赤」でとか、「セブンイレブンで買えて」とか言うことを書いていくわけです。理想のワインとは、「ボルドー産」で、「何万円もして」など、そういうことを書くわけです。

※以下の図表は全て、林氏作成の図表やデータを基に編集担当が作成した

これだけなのです。これだけで何がわかるのかということですが、われわれは「価値ポートフォリオ」(図2)といわれるものを作りまして、横軸に「今飲んでいるワイン」はどんなものかという定義されているパーセンテージ、縦軸に「理想」で定義されるパーセンテージをとります。そうすると、例えば「安物」でとかいう要素は、今飲んでいるものは「安物」でという人が38%くらいいるのですけれども、理想は「安物」という人は12%程度しかいないのです。「香りがよい」というのは、今飲んでいるものについては2%しかいないのですけれども、理想では「香りがいい」という人が23%くらいいるわけですね。

これで何がわかるのかというと、対角線を境にして、対角線は「今はそうで、理想でもそうあってほしい」ということですから、ちょうど今世の中に出回っているものがお客さま価値にちょうどぴったりと合致している、「CSちょうどいい」というものが対角線上にきて、それより右下は今の商品で既に満たされている、お客さまの望む価値が提供されているので、もうことさらにそれを訴求したとしてもお客さんは「すごい」と思わないだろう、ということです。

この左の上に来るものは、?今こういう属性は世の中の商品にはないのだけれど、理想ではそういう属性は是非あってほしい?といっているものでして、まだ満たされていない価値領域だということで、「こっちをがんばりましょう」ということを分析できるわけですね。考え方はたったこれだけですね。ここから「香りがいいワインを造ればいい」とか、「まろやか」とか、「おいしい」とかがねらい目なのだとか、そういう事がわかってくるのです。

2-3.「定義法」から得られるデータ解析バリエーション①~CS指数-

これだけみていても色々とわかってくるわけですけれども、座標データから、この辺の座標にあると大体何%くらいの人が喜ぶ価値なのかを推定するような数式を開発しています。これは極秘中の極秘ですから、その数式そのものは申し上げられないのですが、それぞれの事業分野の人がこのポートフォリオと、そういう属性があったものが世の中でどう評価されているのかを検証して、独自の数式を作ってもらえればよいのです。一番簡単なのは、この対角線からの距離を測るというのです。あるいは原点からの傾きが立っていればいるほどまだ満たされていない度合いが強いであるとか、原点からの距離が長ければ「大勢の人が言っているわけですから大事だ」とか色々な指標が取れるわけです。

そういう指標を独自に考えていただければよいと思うのですが、私どもは色々な指標の中から、様々組み合わせて、総合指標を作りましてワインに関する価値意識のランキングを作りました。

「CS指数」と名づけておりまして、何%のお客さまに価値として認識していただけるかの推定値です。例えば「香りがよい」という価値を実現すると、160%というスコアですから、もう100%を超えて、みんな喜ぶ。「まろやかです」は117%ですからこれもみんな喜ぶ、「ボトルのデザインがよい」と86.9%の人が喜ぶ、というように、価値のランキングがこの価値のポートフォリオからできるということです。ですから商品開発の方向性としては、「香りのよいワイン」を造りましょうとか、「まろやかなものをつくりましょう」とか、開発の方向性は明らかになるわけです。そういう意味では、「香りがよい」とか「ボトルデザインがよい」とかということを訴求しているワインはほとんどみたことはないと思いませんか。国内のメーカーは「ポリフェノールがどれくらい入っていて‥」といった感じです。その一方で最近のヨーロッパやアメリカのワインの動向は、まず適度な樽の香りとか、バニラっぽい香りをつけて、すごくボルドーの高級ワインの雰囲気をかもしながら、ボトルのデザインをきれいにしているようです。今回の調査結果に合致しているなあと思いますね。あと「色がきれい」なことも重要であると分析されています。

これは150名の女性に聞いた話でして、男性とは見方が異なると思いますが、女性の財布を開くことが出来れば男性は自然についてくるという説がありますので、女性のことを先に調べるのは賢明でしょう。

2-4.「定義法」から得られるデータ解析バリエーション②~新価値、CSポートフォリオ─

それから「新価値」というのも分析できます。新価値というのはポートフォリオでいう、現状では一切定義されないけど、理想としてだけ定義されるもののことで、理論的に新価値と考えられるわけです。「高い」とか、「ボトルデザインがよい」とかが新価値になります。数式を照らし合わせると、8%くらいの人が新価値として言われていることは、お客さま価値としてはある程度高いということです。「ゴキブリが一匹いれば、10匹はいる」のと同じようなことです。考え方はこれだけなのです。

価値意識に照らし合わせて国産のワインについては、「安価」「手ごろ」「安心」「飲みやすくて」みたいなことが定義されるわけですが、これを先ほどの価値ポートフォリオそれぞれのワード上に、バブルチャートで丸の大きさによって何人の人がそれを評価したかを載せると、どの価値に反応しているのかがわかりますね。そうすると国産ワインは「手ごろな価格」というところには極めて反応するのですが、そのようなあまりどうでもよい価値に反応してくれてもねぇということです。大事なところでは「おいしい」「品質がよい」「高価」「高級感がある」「幸せ」「酸味強すぎない」というところで反応していることがわかって、その商品のパフォーマンスが把握できるのです。

それを先に述べました価値の重要度の総合指標であるCS指数とその価値に対する評価との積を算出して、評価に重要度の重みづけをして積算していくことで、潜在的な価値のパフォーマンスを推定してみますと、国産ワインの強みは「高いこと」、その次は「安いこと」、この辺は非常に矛盾しております。まあお客さまは常に矛盾する生き物ですから、非常に難しいのですが、その次にくる「おいしくて」「手ごろ価格」「香りがよくて」「安心できて」「飲みやすくて」というような価値が国産ワインの強みとして出てきていますね。ですから、すごく両極端のものを作ればいいんじゃないかと思いますよ。国産の技術の粋を尽くした超高い一本1万円以上するようなものと、ディリーな600~700円くらいで十分おいしく、香りのも色も良いといったようなものを作るということが提案できるわけです。

あと価値の重要度と、その評価がわかれば皆さんおなじみの「CSポートフォリオ」というものが描けますね。横軸に重要度と、縦軸に評価をとると、重要度が高いもので評価が低いものというのは致命的なわけですから、そうするとここから国産ワインは何を改良するべきかが提案できるわけでして、その考え方からすると一番価値が重要で評価が低いのは「香りがよい」というところです。まず香りをよくしなくはダメですよと。また「まろやか」「ボトルのデザイン」は、ぜんぜん評価されていないわけですから、重要なのにもかかわらず、これは何とかしなくてならないということが提案できるわけです。これを国産ワインの研究開発の人に見ていただいて、「こうゆう物を作りなさい、しかも価格的には両極端でね」というふうに、たったあれだけのアンケートでここまで分析、提案ができるわけです。

先ほどのものが定型自由文形式のアンケートのテキストマイニングです。広い意味でこれもテキストマイニングだと考えています。

(2)へ戻る   (4)へ進む

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月20日
-----------------------------------------------------------------

|
|

プロフェッシナル講座(2)

■第1講:企業活動の中のテキストマイニング

1-1.現在の業務内容と、「テキストマイニング」という手法に関わるようになったきっかけ-

私は「情報開発室」というところに所属しており、お客さまに対して化粧品や美容の情報をいかにわかりやすくお伝えするのかという情報コンテンツを作成する業務に携わっています。情報作りということについては、どうしてもお客さまの価値意識がどこにあるのか、どういうことを申し上げるとお客さまが喜んだり感動してくださるのか、そういう一番胆のところを探さなくてはいけないということがありまして、そこの部分を担当しております。

一番胆のところを探すといっても、どのような方法論があるのかということで世の中をみてまいりますと、グループインタビューとか定量調査、アンケートとか、色々な方法論があるわけですけれども、どれも物足りないというか、私どもも含め世の中でさんざんやられてきている割にはお客さまの喜びとか、関心とかを喚起することができなくなってきているのです。ではどうすればよいのかということで、人には頼っていられない、自分たちで方法論を開発しなくてはということになり、その方法論自体の開発ということに業務の重点が移ってきました。志は情報開発や商品開発にあるわけですけれども、その前段階として、手法開発という業務が重くなってきているという状況です。

そのような状況のなかでこのテキストマイニングという技術を、方法論として開発してきたということです。テキストマイニングの開発が仕事の全てというわけではありませんで、これはあくまで手段であると考えています。世間でもっとよい方法論が出てくれば、すぐにでもそちらに乗り換えるかもしれません。

1-2.資生堂の社内でのテキストマイニング手法の導入状況-

社内での手法開発を一手に引き受けているわけではなく、様々な部門とコラボレーションをとりながら、お互いのいいところを補いあって進んでいます。本社にお客さまセンターという部門がございまして、そちらの方がお客さまの声をコールセンターで受けたり、CSテストグループみたいな部署がありまして、いわゆるカスタマーサティスファクション(顧客満足)を計ったりということをしているのです。私どもが開発したVACAS(バッカス)とかDIONISOS(ディオニソス)という方法論につきましては、そういった部署でお客さまの意識を計る方法論の一つとしてご採用いただけているといったような状況です。

逆に私たち研究所の人間は、お客さまセンターに集まってくるお客さまの声の情報を頂きそこからテキストマイニングをすることで、「次に何を作ろうか」「どういう研究テーマを起こそうか」、そういうふうなところに使わせてもらっているのです。

本社ではお客さまの声をテキストマイニングしたい、研究所はテキストマイニング的な手法からお客さまの方を見て商品開発に役立てたいというアプローチが両方あったわけですけれども、それらがクリエイティブ・インテグレーション(創造的統合)を遂げて、定型の自由文を解析するVACASとか非定型の自由文でも解析できるDIONISOSというテキストマイニングのツールの形で方法論として確立してきたので、双方の技術や資産を使い合うことができるようになってきたわけです。

1-3.社内でのテキストマイニング手法導入の経緯のなかでの要請-

お客さまセンターにあるコールセンターではフリーダイヤルを中心に年間約45万件のお客さまからの問い合わせを頂いております。それは全部オペレーターがその場でリアルタイムにコンピューターに入力して、データベースとして蓄積されております。そしてフリーワードで自由に検索することができますし、カテゴリーごとに分けてデータベース化しておりますし、それが好意的な意見なのか、それともクレーム的なものなのかという観点から、どちらの比率が多いのかという、そういうデータは瞬時に出るようなシステムは構築されているのです。そのシステムは「ボイスネットC」という名前で、いろいろなところでご紹介させて頂いています。

そういう形では、所謂テキストマイニングという形で昔からやってきていたのですが、コンテンツそのもの一つ一つに立ち入ってどこまで読み込めるのかという観点から言いますと、さすがに45万件の1件1件を読むことは事実上不可能なことです。それで一つ一つのコンテンツまで読み込みながらそれらを要約して、要するに大多数の人は何をおっしゃっているのかということを把握したいというニーズは昔からありました。方法論としていろいろな会社からご提案をいただく「テキストマイニングではこういうことができますよ」というソフトで試してはいるのですが、今のところどれも「ちょっとなあ・・・」というような状況です。そういうことを背景に使えるテキストマイニングツールの必要性が非常に高まってきつつあったのです。

今は各研究員の机の上に1台づつパソコンがありまして、その端末からイントラネットでデータベースとアクセスし、お客さまの声情報を自由に検索できるようなシステムが整っております。自分の担当している商品をボタンでぽんと押すと、「1400件ヒット」とか出てきて、それをワードやエクセルに落として読むのですが、100人分も読むとさすがにウンザリしてきます。ですから何らかの形でそれをサマライズする、テキストマイニングして、「肝は何なのだ」という要約を簡便に出すというニーズはとても強くあるわけです。

1-4.商品開発の手段としてテキストマイニングをはじめた背景─

その一方で私ども研究所の立場として商品開発という観点でものを考えますと、新製品を出す際には必ずマーケットリサーチをかけるわけです。定量的なアンケートですとか、グループインタビューとかで仮説を立ててきて、それで「これはいけるはずだ」「お客さまがこれを望んでいる」という、それで製品を作って「これでどうだ!」というふうに世の中に出すわけです。社内的には、以前はですね、「多変量解析研究会」の幹事的な仕事をする人がいたことがあるくらいマーケティングリサーチには積極的な時代もありましたが、ある時期からその伝統が崩れてしまいまして、最近ではデータに基づいたマーケティングリサーチをあまり行ってきていなかったのですね。どちらかといえば、調査会社であるとか、広告代理店さんに丸投げをしてということが多かったのですが、あまりにも当たらないので、そろそろ、やはり自社で開発しなくてはということになってきていると思うのです。

どうもこう、当たらないといいますか受けない状況があるわけで、何でそうなるのかということを考えてまいりますと、通常のアンケートは大体そのアンケートを設計した時点で、もうアンケートを作る人の主観が入っているわけです。質問でどういう項目を聞くのかということ自体で。例えばクレンジングフォームをテストするときには、常識的には「泡立ちはどうですかとか」「泡の質はいかがですか」「すすぎやすさはどうですかとか」「その後肌ががさがさになりませんか」という、そういうことを聞きますよね。でも今では世の中そういう常識的な部分での品質が劣悪なクレンジングフォームなんかはなくて、お客さまの興味は香りと容器の色、かわいさとかにあるのかもしれないわけです。

ところがアンケートなんかにはそういう質問項目はないわけですね。そうするとお客さまにとっては、まるっきり大きなお世話みたいなことばかりを聞いていて、肝心なことは何も聞いていないアンケートをやって、それから仮説を作って、一生懸命に物を作っているという「愚の骨頂」みたいなことをやっている可能性があるのです。

1-5.テキストマイニングにおけるデータ収集の手法─

われわれ研究所サイドとしては、そういうやり方を盲目的に信じていいのかというで、本当のお客さま価値はどこにあるのかということを考える際には、全くフリーワードで、お客さまに思っていることを言ってもらって、そこを解析していくことをやらなくてはいけない、そちらのアプローチが必要であると思ったのです。そのツールとしてはいわゆるテキストマイニングができればよいのですれども、それをいきなりするというは難しかったので、擬似的なテキストマイニングとして、定型の自由文形式という形のアンケート形式を開発し、それで調べていくということをやっていたのです。それがVACASです。

非定型の自由文の解析については緒に就いたばかりで実際の運用はこれからになってくると思います。ただやはりですね、色々とテキストマイニングしてみてわかることは、非定型の自由文というのはボリュームの割にはコンテンツが少ないです。それに対して定型自由文はアンケートを受ける人には多大な負荷を与えることになりますが、本当に凝縮された情報が取れますね。その意味では、今後は調査の全てが自由文のテキストマイニングに収束するということではなくて、ケースバイケースで用途に応じて定型自由文のテキストマイニングと否定形自由文のテキストマイニングとを使い分けていくということが行われるようになっていくのではないでしょうか。

アットコスメ(@コスメ)という化粧品のサイトがありますよね、そこにある口コミ情報をとってきてそれをマイニングした結果を後ほどご紹介しますが、そのようなものをすぐにマイニングできるという状況になってきました。(マイニングする対象の)コンテンツは自由自在に何からとってきても大丈夫ということです。ただ、このようなマイニングができるようになってきたのは最近の話です。

(1)へ戻る   (3)へ進む

-----------------------------------------------------------------
 講師:林俊克氏(株式会社資生堂 研究開発本部 CS開発センター情報開発室)
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月14日
-----------------------------------------------------------------

|
|

プロフェッシナル講座(1)

『ここまで進んでいる!テキストマイニング活用最前線』
講師:林俊克氏
(株式会社 資生堂研究開発本部CS開発センター情報開発室)

林俊克(はやし・としかつ)
【個人プロフィール】
1985年岡山大学農学研究科卒業後、資生堂入社。製品開発部門、研究管理部門、原料開発部門、CS開発部門を経て現在製品開発センター製品化計画部情報開発室に在籍。魅力工学研究会理事、薬学博士。専門は、多変量解析、統計解析に関する技法など。近著に「ワインの顧客価値調査」(朝野煕彦編『魅力工学の実践』所収)ほか、論文多数。

【関連書籍】
朝野煕彦編『魅力工学の実践』(2001)海文堂出版
※紀伊国屋書店ブックガイド

【関連URL】
株式会社 資生堂 http://www.shiseido.co.jp/
魅力工学サイバーラボラトリー http://www.miryoku.org/index.html
株式会社 アーキテクト http://www.architect.co.jp/
みんなのクチコミサイト アットコスメ http://www.cosme.net/

■連続Webレクチャーの趣旨

「スピード」という言葉が時代のかけ声のようです。本屋に積まれている、図解入りでポイントをかいつまんで説明する流行りの本を読めば、その瞬間はわかった気になるものです。でも、事実や本質を理解するためには、専門家の声にじっと耳を傾けて学んでみる必要もあるのではないでしょうか。何かを学び始める、あの新鮮な気持ちをもって。さあ講義の始まりです。
「学ぶ方法を学ばない人は未来の盲目である(A.Toffler)」

■今回のフロントストーリー

今回の講義は、「データマイニング」と並んで、昨今のシンポジウムでは花形のテーマになりつつある「テキストマイニング」についてです。あるテキストデータを市販の解析ツールにかければ何らかの情報は得られるわけですが、それをいかに経営資源として活かしていくのか、各企業の担当者も頭を悩ませているのが実情ではないでしょうか。そこで今回は、市場の声をマイニングしていかにそれを商品開発の場へ活用しているのか、最も先進的と思われる株式会社資生堂様のノウハウの一端をレクチャー頂きます。

第1講 : 企業活動の中のテキストマイニング
第2講 : 活用事例①「定義法」
第3講 : 活用事例②「文章完成法」
第4講 : フリーアンサー解析の進化

(2)へ進む

-----------------------------------------------------------------
 ※講師の所属・肩書きは取材当時のものです。
 ◎初出:2002年5月14日
-----------------------------------------------------------------

|
|

テキストマイニング関連リンク

【テキストマイニング基礎・基幹研究】(学術・理論研究成果の公表)

IBM東京基礎研究所「テキストマイニング研究プロジェクト」
http://www.trl.ibm.com/projects/textmining/index.htm

魅力工学研究会理事 林俊克氏個人HP
http://homepage3.nifty.com/HAYASHI/

【テキストマイニング読み物】(講演、インタビュー抄録)

豊田裕貴氏(法政大学大学院 社会科学研究科)講演
セミナー特別講演「テキスト・マイニングとClementine:ブランド連想データの分析」
http://www.atmarkit.co.jp/ad/spss/spss0109/

北内啓氏(NTTデータ 技術開発本部 開発担当)
月間ビジネスコミュニケーションのホームページ「最新技術トレンド」より
http://www.bcm.co.jp/site/2003/2003Apr/techo-trend2/techo-trend2.htm

【全文検索型 参考ウェブサイト】

野村総研 http://www.nri.co.jp/
「トゥルーテラー」ホームページ http://www.trueteller.net/

ジャストシステム http://www.justsystem.co.jp/
「コンセプトベース」コーナー
http://www.justsystem.co.jp/km/whats/search_q_105.html

【概念検索型 参考ウェブサイト】

三菱電機 http://www.mitsubishielectric.co.jp/
テキストマイニング(プレスリリース)
http://www.mitsubishielectric.co.jp/news-data/2003/pdf/0213-l2.pdf

クオリカ http://www.qualica.co.jp/
「VextMiner」コーナー
http://www.qualica.co.jp/products/txt/index.html

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|
|

テキストマイニング初歩講座(4)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第4回・知識創造の手段としてのテキストマイニング

ここで視点を変えてみて、消費とは何であるのかということについて、物語という観点で考えてみたいと思います。よく言われることですが、消費者は何か商品を消費する際には、モノだけを消費しているわけではないのです。ヴィトンのバックを持っている方も、女性では多いでしょう。高いわけです。私は1000円くらいのカバンで十分と思っていますから、10万も、20万円も何で使うのか、牛丼が何倍食べられるのだろうかというふうに思うわけです。しかしながら、女性の人はそういうのを持っていないと恥ずかしいということで、大体一つや二つは持っているわけです。それはなぜかと言えば、そこにブランド価値というものが付いているわけです。ブランド価値というものは、要するに、一つの物語や情報であると言ってよろしいでしょう。消費者の方は、結局、ストーリーや情報を消費しているのだと言えます。企業というのは今までそれを付与するために一所懸命に企業活動をし、物語や情報を広告によって付与することをおこなってきてわけです。それは非常にコストがかかる作業なわけです。それは今後もやっていかなくてはいけないことでしょう。

一方、企業が提供する情報、ストーリー、物語だけを消費者は消費しているのか、購入しているのかというと、そうではないと思うのです。消費者は自分たちで、効用やストーリーを作っているわけです。そもそもヴィトンのバックを若い人が持って電車に乗るというのは、先進国の中でも日本だけではないかと言われています。普通、ヴィトンを持つ人というのは、お抱えの運転手かなんかついてですね、車で家から家まで移動するとか、そういう人がヨーロッパだと多いわけです。日本のように地下鉄に乗って、ヴィトンのバックから何か定期券を出すということは、アメリカ人やヨーロッパの人から見れば驚くと言われています。それは日本の女性は、ヴィトンを持つということに関して、ヨーロッパやアメリカの人と違う、ストーリー、物語を付与しているわけです。そういったものを企業は、聞き出していかないといけないわけです。つまり消費者が持っている物語や情報というものを収集していかなくてはなりません。そのために、今までは市場調査という方法が色々と使われてきたわけですが、定量情報に関しては、事前に分かることしか分かりません。これを理論的に「フレーム問題」といいますが、枠組みがあるとその枠組みを超えることができない問題や限界があります。

定性情報、テキストのような情報は、読んでいられない、まず量が多すぎて、目を通せない、まず目を通せても、どこが大事なのかよく分からない。読んだ先から忘れてしまうというような「認知限界」、人間の認知能力の限界というようなものがあるわけです。そこでそのような問題に対応するために、テキストマイニングを使いましょうということが、最近非常に注目を得てきているわけです。

それから、物語という視点を、先ほどの告発人という話と絡めて、別の視点から見てみると、ネガティブ情報というように言ってよろしいかと思います。特にネット社会でのネガティブ情報は簡単に伝播してしまうわけです。「某会社のサービスが悪い」とか、そういう話があるとしますと、500万人見たといわれるように、あっという間に伝播してしまう。今、巨大な掲示板もありますし、とにかく悪いうわさというものはすぐに広がってしまうわけです。あるいは自分のサイトにも変なことが色々と書かれるかもしれない。それに気がつかない、あるいはそれに気がついて、臭いものにフタをして見て見ぬ振りをしていると、実はたいへんなことになってしまう。それよりもむしろ自分のコントロール化におくべきだというように考えてよいと思います。それは、たとえ話で言うと、一戸建てに住んでいると、この時期になると、ゴキブリが出ることがあります。ゴキブリは1匹いると、30匹どこか巣に隠れているといいます。ゴキブリを家から追い出すと結局、巣に戻って却って増殖して帰ってくるということがなるわけです。実はネガティブな情報もそうなのです。これは都合が悪い情報だと排除しようとすると、どんどんと広がって、1匹のゴキブリが30匹になって、わっと押し寄せてくるのです。

ですから、ネガティブな情報に関しては的確に対応することが重要である。ところが、認知限界ということがありますから、普通はなかなか、すごく重要なネガティブな情報なのですけれども、気がつかないということが多いわけです。どんどん世界に広まってしまうということが起きるわけです。注目度が高いネガティブ情報を的確に発見して、的確に対応できるならば、ゴキブリが押し寄せてくるということもないですし、先ほどの告発人の話にあるように、文句を言って告発する人が、むしろ文句を言ったらそれに対して企業が誠実に答えてくれたということで、大ファンになって、伝道人になって、「あの会社はいいよ」「あの商品はいいよ」「あの会社の人はすごく親切だ」というふうに味方になってくれる人も多いわけです。皆さんの人生を振り返っても、苦手だとか、いやな奴と思っている人と仲良くなると、却って素晴らしい友情が育まれたという経験があるのではないでしょうか。そういうことを企業としてもしていかなくてはいけない。ということは、お客さんの持っている声を的確に把握していかなくてはいけない。ともかく、結果として、ネガティブな情報の比率が減れば、顧客満足は却って増えるでしょう。

次に知識という観点から、少しテキストマイニングあるいはマーケティングという話をしてみたいと思います。知識創造とマーケティングというものの関係を考えてみると、大体3つの枠に沿って、説明を申し上げることが出来ると思います。

一つはお客様がロイヤルカスタマーとなって繰り返し買ってくれるというのは、よく言われる「顧客生涯価値」というものが増大することですが、これはお客様が何らかの知識があって買ってくれているわけです。歯ブラシ1本100円でも一生買ってくれればものすごいお金になるわけです。だからこそ、企業は歯ブラシ、歯磨きといったものを一生懸命広告して、お客様にロイヤルカスタマーになってもらおうとするわけです。それは何らかの知識に基づいて行動する。中性洗剤はそうですが、ポトッと1滴たらして、それで油がぱっと広がると、あ、そうかと。「こんなに油が落ちるのか」という知識が、そのお客様の中にできる。そして、そのブランド買ってくれるとそのようなことが起きるわけです。

二番目は、その知識をどんどん他のお客さんに普及して言ってくれる、話をして、どんどん知識を創造してくれるという側面があるわけです。これは言ってみれば、ブランドの価値を伝播してくれているといった機能といってよろしいでしょう。これも言葉で行われているわけです。もちろん一番も言葉になっているわけですね、「こんなに油汚れが落ちるなんて」というように。お客さんの中である言葉になっているわけです。

そして三番目は、企業にとってみれば、一番、二番と、お客さんの中にある知識を得ることができれば、新しいブランドの価値というものを創造することができる。早い話、台所洗剤というのは、本当は成分が同じわけです。これを使った方が、より落ちるということはあまりないと思うのです。「ところが油汚れはこんなにきれいに落ちますよ」と印象的に何か物語にすることが出来れば、それがブランドの価値になるわけです。

ですから、そういったものを企業に提供する、そして企業が再び発信することで、大きな価値を生むわけです。グラフを持ってきているわけではありませんが、例えばブランドの上位5社とその他ですと、売り上げですとか、利益率が非常に異なるといったようなことは実証的にも研究されています。10倍とか、20倍違うとか、それは業界によって異なるわけです。はっきりとした価値がブランドの価値としてあるわけですね。それは企業の利益、パフォーマンスに影響を与えるわけです。最終的には、それは言葉を通じて、形成され、保持をされ、伝播され、獲得されるわけです。

そのような情報、テキストの形というのが、溜まれば溜まるほどよいのかというと、理想を言えばそうですが、情報の量がどんどん増えていく、時間がたってどんどんそれを分析するというと素晴らしくひらめくということになるとそれが理想です。十分な量で、質の高い情報が、時間とともに知識に転化をしていくということになれば、これは理想です。しかし、人生を振り返ってそういうことはあまりないはずです。電子メールがどんどん来ると、それで仕事がよりはかどったというのではなくて、毎朝まず30分電子メールをみなくてはいけない、それからお昼ご飯を食べて、部屋に戻ってきてメールを読まなくていけなくてまた30分くらい経ってしまったと、今、みなさんそのような人生ではないかと思うのです。

つまり理想どおりには現実には行かない。あるところまでは量が増えると、質が増えてくるわけですが、臨界量、クリティカル・マスというのがあるわけです。何事も“過ぎたるは及ばざるが如し”で、今度あるところまで行くとどんどん下がってきてしまうとなるわけです。なぜこのようになるのかというと、要するに情報量が多くて、情報洪水を起こしていたり、ゴミのような情報が多く、管理、認知には限界があるのです。

もう一つは、情報というのは、生ものなのです。知識というのは時間が経てば経つほど、古くなるわけです。10年前の流行を今、論じていてもしょうがありません。ということで素早く活用しなくてはならない。早くできるのかといえば、読んでいたら、それだけで時間が経ってしまう。そのような状況にあるわけです。

これをもう少し具体的にみてみると人手で整理しなくてはいけない、そうすると追いつかない、分類が正しいのか、抜けがないのかということを見ている、と追いつかない。日本では、これを一生懸命やっていても、これは暇つぶしの窓際族がやっているのかというということで、冷たい視線を向けられて、全然尊敬されないのが現状です。そういった悲しい事情があるわけです。あるいはどんどんとメールが来るということで、人間の方でも情報洪水を起こしてしまうということが起きてしまうわけです。ですから、こういったものに対応していかなくてならないわけですが、そのためにも、テキストマイニングというものが非常に有効であろうと期待できるわけです。 (以上、終了)

(3)へ戻る 

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|
|

テキストマイニング初歩講座(3)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第3回・テキストマイニングの目指すもの

データ中心のアプローチの場合には、二つの評定があるといわれています。これはどちらも事前に切り口が限定されてしまっています。まずデータの形式について説明したいのですが、大きくはデータには、「明示的評定」と「暗示的評定」があるといわれています。明示的というのは、よくあるアンケートのようなもので、「あなたはケンタッキー・フライドチキンが好きですか。きらいですか」に対して、「とても好き」「まあまあ」「あまり好きではない」「全く好きではない」との回答項目。あるいは「値段はどうですか」について、「とても高い」「高い」「やや高い」「どちらでもない」「やや値ごろである」…。というような項目を用意して聞いていくわけです、レーティングをして。

それに対して、暗示的評定というのは、そういって何か形を取って聞くのではなくて、お客さんの行動というものをデータ収集して、それを使いましょうということです。さっきお話した、コンビニの例で言いますと、若い女性の方がお稲荷さんを買う、あるいはインターネットのサイトですと、このページとこのページは一緒に見られるというのは、何かアンケートに答えてくれたわけではないのですが、そのデータ自体は、行動を通じてお客さんは評定をしてくれているのだということになるのです。これは再利用は簡単です、数値ですから。色々とデータを検索して、例えばクリスマスにコンビニで買い物をすると言うときには、何が売れるのだろうかということは、すぐに集計をすることできる。それに対して、統計解析とか、データマイニングをかけるというようなことは簡単に出来る。あるいは「コラボレーティブ・フィルタリング」といって、ある人と、例えば、ビートルズをよく聴く人は、ローリングストーンズをよく聴くのではないか。あやや(松浦亜弥)が好きな人は上戸彩も好きなのではないかと。そのような事実は、どういうCDを買っているのかを分析することで分かるわけです。

ところが、クリスマスの日にわざわざ文句を言いに来た人がいる、だけどそれに誠実にこたえたら、お客さんに感謝をされ、誉められたということは捕捉できないわけです。というのも、事前のデータの構造として、こういうものを分析しましょうとデータ項目に載っていないからです。お客さんがいかにケンタッキー・フライドチキンのことを誉めてくれても、それはわからないという、分析しようがないということになってしまいます。

実は、この問題は本質的なことでありまして、今、「CRM」ということが言われているというか、常識になっています。非常に盛んに言われたのが2~4年前に、「カスタマー・リレーションシップ・マネージメント」ということが言われて、今日ではそれは当たり前になってきています。顧客との関係をマネージする、理念としては素晴らしいわけですが、方法論としては今までたいした物はなかったといってよいと思います。早い話、これは購買の履歴をとって、「購買の管理をしましょう」「どのような人が買ってくれるのかを集計してみましょう」「よく買ってくれる人にどんどん薦めましょう」という話なのです。

これらは結果を追いかけているだけなのです。お客さんは何か理由や、お客さんなりの価値判断があって買い物をしてくれるわけです。ところがその結果だけを分析しているだけで、なぜそのような買い物をしてくれるのかという原因とか過程とかは、一生懸命、現場の知識で推定するしかないです。だけど実際には推測しきれない。なぜならば、生の声を言葉で聞いているわけではないのですから、推測できないということになるのです。お客さんが買ってくれる本質的な原因は、お客さんの中にある知識または信念なわけです。先ほどの例で言うと、ケンタッキー・フライドチキンは非常に誠実で、あるいはそのような噂を聞いたと、「だから買うのです」という、物語、知識、言葉があるわけです。これこそが、顧客ロイヤリティの本質なわけです。

しかしながら、その本質はいくらデータをなめてもわからない、一生懸命解釈しなくてはならない。だけど、みなさんにも気がつかないことをお客さんは考えているかもしれない、頭の中で言葉になっているかもしれないが、それが得られないかもしれないわけです。

過程というのは、言葉を変えれば、ロイヤルカスタマーを核にした消費者間、顧客間のインタラクション、そこでやり取りされる言葉なのです。これをいかに捉えていくのかと言うことが、企業にとって非常に重要なことになって来ています。実は昔から重要なのですが、技術がなかったので、いくら重要でもどうしようもなかったのです。最近それを扱う技術が普及してきたわけですから、競合他社がやっていて、自分の会社がやらない、競合他社はお客さんの声を分析している、こちらはちょっとデータをなめているだけどということになると立ち行かなくなってきたわけです。

本当に必要な知識はどこにあるのかというと、もうお分かりでしょうが、データベースに入っているとは言い切れないのです。実際、私は今、文部科学省の調査で、会話型知識プロセスというのをやっていまして、私の専門はコンピュータサイエンスなのですが、そこで難しい手法を作っても、実際にそのニーズがあるかどうか分からない。私は色んな人工知能とか、コンピュータサイエンスの色んな手法について、本当にニーズがあるのかということや、知識に関してどのようなニーズがあるのか、調べてみたことがあるのです。これは800人くらいの方に答えていただいた調査なのですが。データベースでわかるというのは、全体のうちでごくわずかであることが分かっています。あとの残りの8割はどこにあるのかというと、テキストとかマニュアルとか言葉というような形になっています。企業ということになると、必要な知識のかなりはお客さんとのやり取り、お客さん同士のやりとり、会話的なやり取りの中に含まれていると思います。

しかも今日、お客さんの声といったものを大量に蓄積し、自己増殖していくという仕組みがあり、どの企業も持っている。例えば、企業のホームページの中に掲示板があるとしましょう。そこにお客さんが書いてくれたものが蓄積されたわけです。さらにその掲示板の投稿に対して、別の人が答え、コメントをつける、それを見てまた別の人が違う意見を言ってくるというように、どんどん自己増殖をする。単に蓄積されるだけではなくて、自己増殖していくというようなことが起きてきているのです。

コンピューターとネットワークの活用によって、このようなことが加速的に進んでいるというのが今日の状況でしょう。ということは、ガラッと発想を変えて、テキスト中心のアプローチをとっていかないといけないということになるのです。レビューやコメントといったテキストを中心にアプローチしていかなくてはならないでしょう。テキストというのは、データと違って、事前の項目、形式に限定されない、何でも話せるわけです。

ここまで30分くらい話をしましたが、もし、それを表にできる人がいれば、その人は本当に天才だと思います。テキストだと何でも分かるわけですけれども、今度は表のように定型化されていないわけです。ということは、どう分析していいかわからない。全部読まなくてはいけない、ところが全部読んでいたらキリがないわけです。みなさんご自分の会社のホームページにあるテキストを読んでいただいたら、下手したら、それだけで1年終わってしまいます。ですから人間が読んでいるというだけではキリがないということで、今後は、やはりテキストマイニングというものが有望であるだろうといわれています。もう一つ、有望であるといわれているのはXMLとか、XMLを利用した「セマンティックWeb」というもので、私たちはそのような研究をしているわけですが、ご存知のようにXMLというのは、データ、トランザクションデータのやり取りとしてはかなり利用されてきています。会場にいらしている方で、会社でXMLデータを書いたことがあるという人は非常に限られると思います。まして、セマンティックWebというもの自体は始めて聞いたという人が多いのではないでしょうか。ということで、普通の構造化されていないテキストというものを対象にしてマイニングしていくということが、99%正しいことになるのではないかと思います。

(2)へ戻る   (4)へ進む

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|
|

テキストマイニング初歩講座(2)

この「テキストマイニング初歩講座」は、2003年6月17日に東京・丸の内で開催された、テキストマイニングソリューションセミナー「研究から実務へ、テキストマイニングの本格活用に向けて」を再構成したものです。

■第2回・テキストマイニングという困難

ここで大まかな流れはうまく行くのかというと、あるボトルネックがあるわけです。みなさんは現場での専門家ということで、マーケティングの専門家、企画の専門家もいらっしゃるかと思います。しかしながら、このアルゴリズムに関しては、必ずしも専門家というわけではないと思います。アルゴリズムという場合には古典的な統計分析という場合にもあるでしょうし、相関ルールや決定木分析のようなデータマイニングの手法である場合もあるでしょうが、それに詳しい方は必ずしもいらっしゃらないのではないでしょうか。この中で、「コレスポンデンス分析」「双対尺度法」「対話分析」の3つの関係がお分かりになる方はいらっしゃいますか。実はこの3つは同じものなのですが、ご存知でない方も多いと思います。私自身、昔ある企業の広告部門で、外国の女優さんを使ったりして、海外向けの広告を作っていたことがあります。当時、広告部に50人くらい人がいたわけですが、私の経験では、広告代理店や調査会社の方が統計の説明してくれて、分かった感じがしているのは、正直言っていません。いたとしても一人か二人しかいない。その一人か二人に私が入っているかもしれないという状況だったのです。あとしばしば、統計のアルゴリズムが分かっていないと、何か分析結果を出してもらっても、何かとんちんかんな解釈をしてしまうということがおこりがちです。

例えば、これは東京大学の飽戸先生というライフスタイルの研究をされている方が、生活者の分析ということをされて、確か因子分析か、数量化3類かどちらかをなさったわけですが、「お江戸軸」というのが出ましたということを発表されたわけです。

「お江戸軸」というのはどういう軸だと思いますか。てんぷらや寿司を食べるという軸でしょうか、歌舞伎を見たり花魁ショーを見たり、隅田川下りをするとか、色んな軸が解釈できるわけです。実は全部違っておりまして、江戸っ子というのは、「火事とけんかは江戸の華」、あるいは「宵越しの金は持たない」というように、割と享楽的、刹那的な生活をする。享楽、刹那という、“現在を重視する”という軸が出てきたので、飽戸先生は、これは「江戸っ子」みたいだと考え、「お江戸軸」というようにつけたわけです。しかしながら、普通は「お江戸軸」と聞くと、さっき言ったように、花魁ショーとか、隅田川下りとか、そういうことかなというようにどうしても思ってしまいます。ですから、解釈をする時にアルゴリズムが分かっていないといけません。因子分析の場合ですと、因子付加量を読みこなせないと、どうしても間違った解釈をしてしまいがちであるということがわかります。

ということは、専門家の会社さんとお付き合いをして、そことのコラボレーションをしていくということが、非常に重要であろうということが言えるわけです。

先ほどの例で言うならば、アルゴリズムを中心とした部分に関しては、専門家の人にお願いした方が安全であろうと言えるわけです。もちろん、その辺が全部分かっています、現場の知識も分かっていてデータの扱い方もわかっていますという方は、データマイニングやテキストマイニングのツールというものを、高価で何百万もするのですが、購入して自分で分析なされば、それはそれでよろしいかと思います。そうでない方は、専門家に手伝ってもらうことの方が結局は安上がりであると思います。実際、価格的には数十万円というサービスからあるようですから、数百万円のパッケージを買って使えないということよりはよろしいでしょう。

もう一つは、一人で何かを考えると、どうしても視点が狭まってしまうということです。専門家の人とコラボレーションしていけば、それだけ多様で、多角的な視点で、ものが見られるようになります。どう解釈していったらよいのか、そこからどういう指針を得るのかということに関しても、より豊かな視点を得られると期待できるのです。

それでは、次にテキストマイニングをマーケティングの見地から考えてみたいと思います。

マーケティングとは何であるのかというと、様々な定義やイメージがあるわけです。例えば、かわいい女優さんを呼んでコマーシャルをしてもらうことかなと色々とあるわけです。ここにいらっしゃる方は、もっと高度なことをご存知だと思います。

一応、基本からおさらいをしますと、マーケティングの定義は色々とされています。一番有名なのは、アメリカマーケティング協会が1985年に出した定義で、マーケティングとは、個人および組織の目標を満たす交換を創出するためのアイデア、財、これは商品ですね、およびサービスのコンセプト、企画といっても良いでしょう、価格形成、プロモーション、および流通についての計画と実行の過程であるとされています。ここでは「商品」「価格」「プロモーション」「流通」と、いわゆる「4P」という概念が入っているわけですが、「交換を創出する」というように、踏み込んだ定義ということで注目されました。つまり単に売ったりするというだけではなくて、もっと相対的な幅の広い活動なのだというようにマーケティングが定義されているわけです。

これを受けまして、日本マーケティング協会ではさらに踏み込んだ定義をしています。マーケティングとは、企業および他の組織、つまり企業だけではないわけで、NGOとかですね、そういうのを対象に、グローバルな視野に立ち、顧客との相互理解を得ながら、公正な競争を通じて、市場創造するという、そのための総合的な活動であると定義しています。顧客との相互理解、あるいは市場創造というものがキーになっていることがお分かりいただけるかと思います。

言い換えれば、これはお客さんの間、つまり顧客同士で、色々な会話、つまり知識の交換が行われる、あるいは交換に基づいて新たな創造が行われることを示唆していると考えられます。そして、その知識が、自然言語で書かれているテキスト、言葉というものを対象にすることが重要であるということに気がついてくるわけです。これはかなり崇高な理念ですが、目標をもっと具体的に考えてみれば、次のように言ってよろしいでしょう。

例えば、新規顧客を獲得するコストをいかに下げるのか。これはよく言われることですが、新しくお客さんを得るのには、非常にコストがかかります。新しくお客さんを得て、何かを買ってもらったとしても、それでは利益が出ません。なぜならば、それ自体に非常にコストがかかっているからである、というように言われます。ですから、一見さんではなくて、「ロイヤルカスタマー」を育成する、あるいは維持をすることが必要なわけです。つまり、顧客獲得コストがかからないお客さんというのは、そもそもコストがかからないので利益があがります。また、ロイヤルカスタマーというのはいつも買ってくれるわけですから、利益があがりやすいわけです。

ですから、企業としては、ロイヤルカスタマーをいかに増やすのか、あるいは、逃がさないようにするのかが、利益を上げる上で非常に重要なものとなってくるということです。ロイヤルカスタマーというのは言ってみれば、「オピニオンリーダー」なわけですから、そのほかのお客さんにどんどん薦めてくれる、というような効果があるわけですね。そこのお客さんはいつも食事をしてくれる。それだけでもお金を落とし、利益を上げさせてくれるわけですが、「近所の奥さんを、ちょっと一緒に行きましょうよ」と連れてきてくれる。「美味しいからあなたも行きなさいよ」と薦めてくれる、ということで、他のお客さんにも波及してくれる、こういうありがたい、企業にとってはまさに神様のような存在なわけです。

「伝道者と告発人」というセオリーがあります。伝道してくれるという人は、そういったオピニオンリーダーのロイヤルカスタマーなわけです。そういった人は、この商品のどこが良いのか、そういうことをうまく説明する能力があるし、他の人に影響力があります。ですから、一種カリスマのような形で伝道してくれるわけです。

ところが、こういったカリスマのような伝道者は、一歩誤ると、敵になると怖いというように言われています。つまり、それだけ言語化して人に影響を与えることができる人ですから、その人がもし悪口を言う告発人になったならば、「この企業はこんなにひどい企業だ」「ここの商品はこんなにひどい」「私あのレストランでひどい目に遭った」といわれると、今度はそのダメージは計り知れないわけです。その有名な例として、ケンタッキー・フライドチキンの話があります。あなたが店長だとしましよう。そこでお客さんが雪の降るクリスマスの日にやってきたとします。多分、クリスマスに七面鳥を食べる習慣があるので、家族にフライドチキンを食べさせようとして買いに寄ってくれたのかもしれない。その人はフライドチキンのファミリーパックのようなものを持ち帰って店を出たのですが、また何分かして後に再び店に来たのです。「いつもこのパックには7本フライドチキンが入っている。だけどさっき見てみたら、6本しか入っていない」と、文句を言ってきたとします。皆さん、どうしますか。その人はもしかすると途中で1本食べてしまったのかもしれない。それで、もう1本食べたくなって引き返してきたのかもしれない。でも、そうではないかもしれない。だけど本当のことは分からないわけです。これは事実に基づく話なのですが、その時、店長さんは、ファミリーパックに7本入っていることを知っているということは、この人はロイヤルカスタマーなのだと思ったわけです。初めて買った人ならば、何本入っているのか良く分からないはずですから。いつも食べてくれるから、「いつも7本入っている」と言ってくれるわけです。この人はもともとロイヤルカスタマーです。また、わざわざ文句を言いに来たわけです。ということは行動力がある、そういう人を敵に回すと、今度はすごく悪口を言う告発人になってしまいます。店長さんは、「どうも申しわけございませんでした、私たちの落ち度でございました。クリスマスにここで買っていただいてありがとうございます」ということで、もう一箱渡したわけです。そうするとその人は非常に喜んだし、もちろん家に帰って子供も奥さんも喜んだでしょう。そうすると、前よりも「あそこは本当に良い会社だ」「顧客の言うことを信じて、尽くしてくれる」ということを言ってくれるようになったのです。

このようにロイヤルカスタマーというものは、利益を生むという意味でも、波及効果があるという意味でも、その中でも特にカリスマ性がある人というのは、大事に扱わなくてはいけないということが分かるわけです。そういうロイヤルカスタマーの発する言葉というものに耳を傾けることは、企業にとって計り知れない財産になるであろうとご理解いただけると思います。 しかしながら、データ中心のアプローチだけでは問題点があるだろうということです。

(1)へ戻る   (3)へ進む

-----------------------------------------------------------------
 ◎初出:2003年10月20日
-----------------------------------------------------------------

|
|