自主インキュベーション

WAZAセミナーレポート

第2回『技術系サービスができるまで“日本発の検索エンジン”』

第2回セミナーの様子をここで紹介いたします。

以下セミナーのレポートとなります。

7月29日(土)に開催された第2回WAZA CTOセミナーの運営をさせて頂いた竹井です。セミナーの内容をまとめてアップさせて頂きます!

第2回WAZA CTOセミナー2

7月29日に「第2回WAZA CTOセミナー」が開催され、インターネット関連企業のCTOの方々を中心に40名近くの方々に参加して頂いた。パネラーを務めて頂いたのは……

Team Lab株式会社 CTO 青木俊介氏 「Sagool」、
paperboy&co. 大日田貴司氏 「Qooqle」、
経済産業省八尋俊英氏 (情報大航海プロジェクト・コンソーシアム責任者)、
株式会社マーズフラッグ 西田光良氏 「MARS FLAG」、
筑波大学情報学類生 吉田光男氏 「CEEK.JP」、だ。

コーディネーターには、早稲田大学理工学術院教授 山名早人氏に務めて頂いた。

目次

長文となるため、ここではインデックスのみ紹介させて頂き、各詳細に関してはタイトルをご参照の上、各々の記事をご覧頂ければ幸いです。

前半部 講演 ~サービスができるまで~
「Sagool」(青木氏)
「Qooqle」http://qooqle.jp/(大日田氏)
「CEEK.JP」http://www.ceek.jp/(吉田氏)
情報大航海プロジェクトに関して(八尋氏)

後半部 パネルディスカッション ~日本発の検索エンジン~
検索エンジンを使用するのに適した「欲しい情報」とはどのような情報か?(青木氏、西田氏、八尋氏、吉田氏)
欲しい情報にたどり着けない理由は何か?
「欲しい情報」にたどりつくために、今後求められる改善点は何か?(青木氏、八尋氏)
最近気になっている検索技術、サービスは何か?(青木氏、西田氏)
現状の検索エンジン以外にどのような検索エンジンが有望なのか?(全員)
新しい検索エンジンが出てきた際、メタ検索エンジンに採用するポイントは何か?
日本の検索エンジンに関する技術レベルは高いのか。技術レベル向上のネックは何なのか?(青木氏、西田氏)
Q&A

Sagool」(青木氏)

サービス概要

よりおもろいものを探す、通が納得するコアなことを知る検索エンジン。なかなか見つからないディープな情報を例えば探し、よりおもろい結果を提供していきたい。

ミッション

チームラボという会社はソフトウェアの開発を行っているが、自社サービスは少なく、売上のほとんどは受託開発である。しかし、技術志向の会社を目指す上で、自分達の技術で世の中にインパクトを与えたいと考えていた。その際、産経新聞社の総合ポータルサイトであるIZAに検索窓として採用されるかもしれないチャンスが一年前あったので、自社の検索エンジンを試してみようということでプロジェクトが立ち上がった。

2001年くらいで初めてGoogleを検索したときは、かなりアンダーグラウンドな情報が載っていたが、現在はGoogleの検索結果に昔ほどのワクワク感がなくなったのではないだろうか。これは、ページランクによって、アンダーグラウンドな情報が排除され、多数のリンクを獲得している資本力のあるサイトがランク上位に来るからである。これではおもしろくないのではないだろうか。

一方で、Googleのページランクの論文を読むと、ユーザーがポータルサイトなどを基点としてサーフィンをして、時々ページをジャンプすることになっているが、現在はmixiやRSSやソーシャルブックマークで見つけた、自分なりの起点をもとに、ダイレクトにサイトを探すように変わってきているのではないだろうか。この点に着目してSagoolのアルゴリズムを考えた。

サービス構築をする上で突き当たった課題

「ウェブ検索を作れ!」と社長に言われ、色んな人に相談したのが最初。相談すると、「ギャグでしょ?」と笑われ、GoogleとYahoo!の規模が圧倒的過ぎて、「今更なにをやるの?」という反応が返ってきた。更に、資金に限りがあり、何億円も使えるわけではなかったので、何十万台もサーバーを買う資金がなく、インデックスを限定する必要があった。

ブログだけに特化するのは、作る側にとってはいいのだが、既にその分野の検索エンジンは既に多くあったので、最終的には、誰も自信はもてなかったが、「おもろいものを探せるランキングができるのではないか?」と決めて作り出した。このコンセプトに辿り着くまでに、多くの時間がかかった。

アルゴリズムに関しては、ユーザーがおもしろいと思っている要素を上位にくるように、「おもろアルゴリズム」という計算式を行列計算で行っている。計算するのにハードのリソースがシビアなので、現在もCPUとメモリと格闘している。

インターフェースに関しては、インターフェースの使い勝手がユーザーに使われるかどうかを左右するので、この部分もユーザーを楽しませるようにおもしろくしようとした。やはり、ランキングが優れていても、ユーザーを惹きつけるインターフェースがなければ、ヒットしない。

インフラに関しては、ゼロからのインデックスの開発はコストがかかることと、インデックスで差異を出すのは、この分野での専門家はとても多いので、勝負は難しいため、オープンソースで使えるものを積極的に使う方向を取った。

今後の課題

一番の課題は「稼げるようになること」、すなわち、ユーザーに使ってもらえるようにしたい。新機能の連続リリースして、新しいサービスに敏感なユーザーに使ってもらえるようにしていきたいと思っている。今は、動画の検索や自分に“おもろランキング”をカスタマイズできるものを作っていて、一ヶ月以内にリリースする予定。

次の課題は、「検索インフラのクオリティの向上」。システムの分散をしてサーチをできるように作ったが、つぎはぎになっている部分が結構あるので、改善していきたい。また、インデックスも増やしていくとともに、運用コストも下げていきたい。ここでは、現在時間がかかってしまっているので、インデックスの方針をもっと簡単にしていきたい。

最後に。

Sagoolリリースの際に、「チームラボ、Googleに歯向かいます!」という題名のメールをそれまでお付き合いのあった方々に送った際に、手違いで日本のGoogleの社長にも出してしまった(笑)討ち死に覚悟でやっていきたい!今後は熱い想いだけではなく、検索エンジンを作るという夢を成し遂げていきたい。

Qooqle」(大日田氏)

サービス概要

Yahoo!のウェブサービスからキーワードによる検索結果をひっぱってきて、それに対してはてなブックマーク(以下、はてブ)の登録数によって重み付けをしている。順番はYahoo!の検索結果と同じだが、はてブで多く登録されているものほど大きく表示される。また、Googleサジェストの機能も取り入れたり、はてブのホットエントリーやアマゾンの関連商品を同時に表示する機能もついている。

ミッション

Yahoo!のウェブサービスが昨年末に公開されたので、それを使って何かをしたかったのが動機。Yahoo!の結果はロボット型で機械的なので、上に表示されているものでも役に立たなかったりするので、そこに、はてブの登録数という人間味のある要素を掛け合わせた。

また、メタ検索のような個人で作ったサービスはマニアックな方向で行くことが多いが、多くのユーザーの方々に使って頂けるように、インターフェースを単純にして、分かりやすいものにした。Googleを使っていて、検索結果に新鮮味がないが、見せ方を変えるだけで、ユーザーにおもしろく思ってもらおうとした。

最近気づいたこととして、Qooqleを使うことで、はてブのユーザーはネットに詳しい人が多いので詳しい人にアドバイスを受けながら、ヤフーの検索結果を見ているような感じが実現できていると感じている。

作る上で突き当たった課題

技術的には簡単。2,3時間くらいでできる(笑)敢えていうのであれば、最初、Googleのロゴを使っていて、怒られたこと(笑)

今後の課題

メタ検索なので、APIの提供元が止まっているときに影響を受けてしまうので、自動的に判別して対処できるようにしたい。

Qooqle Videoでは、提供元のYouTubeが止まっているときには、自動的にサービスが止まるようになっているので、Qooleも同じように改良を加えたい。機能追加は、Qooqleのシンプルさを守りたいので、現時点では行わない方向でいるが、パソコンや携帯以外でも、色んなデバイスで使えるインターフェースを作ってみたい。既にDSブラウザ用に作成済みである。

CEEK.JP」(吉田氏)

サービス概要&今後の課題(CEEK.JP)

複数の検索エンジンにまとめてアクセスして、検索結果をまとめてしまうメタ検索エンジン。日本ではこのタイプの検索エンジンが少ない。検索ボックスに入れて、どの検索エンジンを使いたいか選べるのは多いが、それよりも一気にまとめた方が便利だと思い作った。

作った動機は、本音を言うと、作り始めた高校3年の時に、自己推薦入試(AC入試)の受験を控え、自己のPRの1つとして開発を行った。建前は、その時はまだ検索エンジンが乱立していたおり、スコアがまだ良くなく、用途に合わせていくつも使い回さなければいけなかったので、作成した。

現在は決定的な検索エンジン(Google、Yahoo!)が出てきたので、検索結果が遅くなるメタ検索エンジンは不要になった。今後はエンジンではなく、例えば「ピザを食べたい」と打つと、ピザが届くといったように、CEEK.JPだけで、ネットでできる全てのことができるようにしていきたい。

サービス概要&今後の課題(CEEK.JP NEWS)

ロボット型のニュース検索エンジン。2003年末にこれからニュース検索が来そうだと思い開発した。定期的に約80サイトをクロールしていて、そのサイトごと最適な解析をプラグインで作っている。クエリを投げるとDBから取ってくれる。未踏ソフトウェアに出したが、採択されなかった(笑)

ロボット型ニュース検索のいい所は、ニュースの配信元にとらわれないので、いくらでもニュースを増やせることを利用して、提供元ごとに異なる論調を見極めることができることだが実際には実現していない。今後はもっと個々のユーザーがメディアリテラシーを高く持たなければならない。

今後は、ネット系のプレスリリースがニュースになるケースは多いので、それを調べてみて、必ずニュースになるように書ける分析を進めたい。

情報大航海プロジェクトに関して (八尋氏)

情報化社会で時代が大きく変わっていく中で、今後どうすればいいのかということを、国と産業界と大学で一緒に昨年から勉強を行ってきた。そこから更に様々な勉強会がうまれ、そのひとつ形になったものが、「情報大航海プロジェクト」である。

現在、検索エンジンとは言わないような時代が急速に近づいている。そこには、現在の情報検索の領域は言語検索ではあるが、音声で対話ができる形・リアルタイム情報検索・テレビや情報家電向け検索・医療など複合的に様々に発展していく可能性がある。また、電子ペーパーなど、デジタル情報になってないものを、デジタル情報に変える部分も今後発展することが予想される。情報大航海プロジェクトではこういった分野をまとめて扱っていく予定。

日本が戦後成長したのは、もの作りでの小型化であったが、今後の競争の軸は、「いかに情報の中から意味を見出すかの知識戦争」にシフトしていく。この分野に関しては、アメリカは軍事として、ヨーロッパは文化を守るために、国をあげて大規模な予算を投じている。また、この分野の一線の人たちは、意外にお互いを知らないケースが多いので、国として大航海プロジェクトを行う意義はある。

今後、競争はより人におもしろいものを勧めていくパソナライゼーションの所で行うというように、競争していくところに変えていってはどうかという点にフォーカスを当てたのが、このプロジェクトである。またバックエンドが現在、GoogleやYahoo!だけになってしまっていて、規模感のあるDBを持ったところが日本には存在していない。今後、情報を種にして事業をしようと思ったときに、日本に根本的な材料がなくなってしまうので、その部分をここから3年くらいで、進めていきたいと考えている。

パネルディスカッション ~日本発の検索エンジン~

 

検索エンジンを使用するのに適した「欲しい情報」とはどのような情報か?

青木氏
テキストで、なおかつ文書で説明しなければならないもの。単語で検索できる情報が現時点では検索の中心となる。

八尋氏
欲しい情報が明確ではなく、情報を漫然と眺めたい場合は覆いが、現在の検索エンジンでは難しい。現在の検索エンジンはどんどんディレクトリの中に入ってしまうが、普段物事を考えているときは関係性のあるところを4象限くらい考えている。それが今の検索エンジンではできず、思考を止めてしまっている。

西田氏

検索のニーズは2種類ある。
1. 目的が完全に決まっているブックマーク的な場合。
2. 発見するために使う。
既に前者はかなりやられているので、今後は後者に関してはまだやれるとこがあると感じている。また、検索した後の行動まで含めた情報を提供することが大事である。

吉田氏

CEEK.JPのニュース検索のログを見てみると、トップページアクセスに対して、実際の検索回数は2割くらい。RSSで読まれている場合が、8割程度ある。新しい情報というのは、「自分のとこに流れてきて欲しい」というのが、ユーザーの表れではないか。探すのは古い情報で、新しい情報はRSSで試してみて、おもしろいものがあれば、探すというのが消費者のスタンス。

欲しい情報にたどり着けない理由は何か?

大日田氏
検索エンジンでひっかかる情報は、人が作った情報で、それを集めて、並び替えるのが検索エンジンである。そもそも元の情報がないケース。例えば、大工さんが良い金槌欲しいときなど、ネットで発信している層に弱い情報は辿たどりつけない。

西田氏
ユーザーの検索スキルが低い。例えば、地域を指定したり、ワードを複数考えたりするスキル。データはインデックスされているが、それを引っ張るすべに関して、サイト側とユーザー側で度差があるので、今後、検索エンジンはこの温度差をいかに埋められるかが運営側にとって重要な視点となる。

吉田氏
口コミ情報を知りたいときに、ユーザーによって、重みを置く点が違う。例えば、レビューのスコアを気にするのか、レビューの中に重きをおくのかなど。メタ検索では、情報が一元的でないとまとめられないので、この点は取り入れるのは難しい。ユーザーを求めているものと、そもそも利益を求めている企業でギャップが存在している。

「欲しい情報」にたどりつくために、今後求められる改善点は何か?

八尋氏

検索の際の動機や場所がはっきりしているほうがいい。位置情報などのユーザー環境の情報が今後提供され、ユーザーの環境を感知できるようになれば、そこからパーソナライズできるようになる。例えば、お寿司屋さんを探す場合も、お寿司じゃなければいけないのか、高いものを食べたいのかなどでも大きく違いがある。この場合、上から下にずらーっと並ぶ検索以外の検索方法が必要となってくる。例えば、フランスでは可視化の検索エンジンが開発されている。今後、この分野の改善がもっと進むべき。

青木氏
文脈/場の空気を読んでくれる検索エンジンが究極的!例えば、「やばい」をどう捉えるか。プラスもあれば、マイナスもある。今の検索エンジンはクエリを作る技術がないと欲しい情報に辿りつけないし、欲しい情報は曖昧なケースが多いく、完全に欲しいものをはっきりさせるのは、ユーザーにとってストレスなことである。

最近気になっている検索技術、サービスは何か?

青木氏
場の空気を読む技術は、実際はまだ夢の段階。今出てきている技術の中だと、人力検索の仕組みは人間の意図を汲み取って返してくれ、ユーザー同士が、互いに持っている知識を提供しあう仕組みを作っているので、将来的には人力検索がもっと自動化されるといい。
今は、教えて!goo・はてな・OKWaveだけだが、今後もっとこれらを工夫することで、応答速度が上がったり、ユーザーが広がったりすると良い。掲示板ではなく人力検索がいいのは、掲示板の場合、質問する際にユーザーがそれまでの議論の空気を読まなければいけないから。

西田氏
パーソナライズの部分を追いたい。ユーザーがキーワードをいれなくても、的確に探せるようにしたい。例えば、過去の履歴をどう応用するかの部分や、地域に密着した情報を提供するような仕組みが今後重要となる。後者に関して、例えば同じ沖縄旅行でも、沖縄、東京に住んでいる人では求めているものが違う。

会場
そのときの気持ちの状況で言葉の持つ意味は一人一人変わる。なわち、自分の持っている言葉と、世の中のワードのズレがあり、その差を認識することが大事。この点に関してはどうか。

西田氏
インデックス自体を変えることは不可能。間に入る辞書と重み付けを変えていくことで、ユーザーの持つ意味合いの違いを認識していく。この辞書や重み付けも簡単な一次元や二次元でワードを増やせるようにするのではなく、見ている番組や起きている時間などを合わせたものをいかに作るかが大事。

山名氏
場の雰囲気を読むために、PCにカメラをつけて顔色を見て、勝手に検索することや、将来的にはPCの容量が大規模になり、夜寝ている間に自動的に自分専用のインデックスが人のPCの中に作成されるなどの可能性もある。

現状の検索エンジン以外にどのような検索エンジンが有望なのか?

青木氏
動画検索に関しては、Sagoolでも行う予定。動画の中身までの検索はすぐにはできないが、今後動画の中身を検索する音声技術や動画中のモジを認識する技術などの要素技術が今後有望なのではないか。また、人力検索とSNSと組み合わさっていくのではないか。例えば、SNSで本をオススメしてそれが買われるとお金が入るような仕組み。

大日田氏
大日田氏動画の内容を自動的に解析して、キーワードで検索できるようになったらおもしろい。また、人力検索は、現状の検索エンジンだと、機械が簡単に判別できないものも、人であれば簡単に判別できる点がおもしろい。この分野では、アメリカのアマゾンがカニカルタークをやっていて、API公開済み。この方向で、今後おもしろい展開があるのではないか。

吉田氏
地図検索とモバイル検索が有望。数年後にはモバイルで正確な位置情報が取れるようになるので、現在はコンテンツにマッチした検索が多いが、位置にマッチした検索が出てくる。夢を言えば、何もしなくてもいい検索エンジン。例えば、血圧計をつけておいて、ヒートアップしすぎていたら、自動的に電源を落とすような仕組み。言葉に出せない情報を認知できる検索があれば良い。

八尋氏
データで増えているのは、動画なので、画像と文字と場所の情報が組み合わさると新しい価値を生むのではないか。また、何かを検索しているときに、リアルタイムにそのワードを検索している世界中の人たちが、他に何を検索しているのかが分かるとおもしろい。また、検索の結果とコミュニケーションを結びつけるような技術も有望。例えば、今日一日あったことを、簡単にコミュニケーションをとれるような端末などがあればいい。

西田氏
全てをまとめてできる検索。ユーザーにとって、有力な情報が載っているのであれば、動画でもブログでも良い。パーソナライズできた上で、複合的な検索エンジンが今後有望。ただ、現時点でできない技術が多いので、今のある検索エンジンをいかにうまくまとめた上で、大学や研究機関で大きなお金をかけて要素技術を研究して、発展してから事業として投資するスタンスでいきたい。

新しい検索エンジンが出てきた際、メタ検索エンジンに採用するポイントは何か?

大日田氏
普通の検索エンジンはもういらないが、APIは原則公開して欲しい。できれば、今後は何らかの新しい要素を盛り込んで欲しい。例えば、結果を音声で返す検索エンジンなどあれば良い。

吉田氏
CEEK.JPに、関しては日本語が使えれば何でも採用する。あくまでメタ検索は、検索は子、情報が親とした場合に、孫であって、決めるのはユーザーである。ただ、ユーザーのメディアリテラシーがもっと上がるといい。情報化社会というのは、インターネット上の情報だけではなく、社会全体で情報が増えているから、情報化社会である。リテラシーをあげるためには、「ものを疑う」ことが大事。

山名氏

APIはずっと提供されるかが分からないし、商売になったとき訴えられる可能性があるので、ビジネスとしてAPIに頼るのは難しい。今後、APIの提供元が提供期間を明示できれば、もっと盛り上がるのではないか。

日本の検索エンジンに関する技術レベルは高いのか。技術レベル向上のネックは何なのか?

青木氏
日本のエンジニアリングレベルは高い!地方にも大学や研究所があって、また人件費の面から行っても、シリコンバレーほど高くないので、何か作る場合もエンジニアを集めやすい環境がある。要素技術に関しても日本は十分に高い。技術で足りないものはない。検索エンジン全体で見ると、大きな遅れ理由は、エンジニアが実際検索エンジンを使って、試行錯誤する場所(会社)がないから。また、グーグルが成功しているのは、ビジネスとして成功したから、技術としても成功した。創業者はページランクを思いついたが、その他の技術に関しては詳しくなかった。ビジネスとして成功したことで、その他の必要な技術を開発することができた。ビジネスとして成功することがキー。日本では、NTT研究所にいるような優秀なエンジニアが新しいサービスを作る場所がない。

西田氏
日本の技術レベルは高い。日本人は発想力や勤勉性もあり、また日本語の構造上、検索の発展もしやすい。ネックになっているのは、資金力。お金を研究に使うときに、出す側と研究する側のギャップが大きい。研究する側の想定する期間より出資側の求める機関が短すぎる。Googleはこれをうまくできた会社であって、ヤフーの場合は先に稼いでから、後で研究に投資を行った。日本では、各々の考え方の違いが大きい。この点が克服できれば、検索エンジンに関して、日本は世界で一番成長可能性が大きい。

Q&A

Q.検索される側が変わること(Ex,ブログのエディター)で、検索されやすくする方向もあるのではないか?

A.青木氏
本のレビューやレストランのレビューなどの各社でフォーマットが一緒だと良い。現在、ブログツールを使ってサイトを作る人が増えているので、この点でも検索されやすくなる可能性はある。

Q.日本のエンジニアへの報酬が少ないとあったが、量よりも質の高いエンジニアが大事である。大企業には技術の高いエンジニアは ごろごろいるが、彼らがベンチャーに移るための制度はないのか?

A.西田氏
完全成功報酬制として格差をつけている。来て頂いている方は大抵年収が高くなっている。ただ、お金で解決するというよりも、一緒に夢を追えるかどうかがキー。

A.会場(ベンチャーに移られた方)
大手企業は情報を隠すので、外に可能性があることを研究所にいるエンジニアは知る機会が少ない。外に出た際、自分の可能性に築いて転職に繋がるケースが多い。心配なのは、自分の健康でいれるかどうかという点。

A.青木氏
オフィスをベンチャーの方に安く貸して、少ないリスクで行えるように協力している。また夢を追いかけるだけでなく、リターンもある程度期待できないとチャレンジはしづらい。

ページの先頭に戻る
WAZAトップページに戻る