Activate 2018(旧 Lucene/Solr Revolution) に参加してきました

2018年10月15日〜18日モントリオールで開催された Activate 2018 に参加してきました。 カンファレンスは Lucene/Solr Revolution から Activate に名前を変更して、 Lucene/Solr だけでなく、「The Search and AI Conference」という風に検索一般と AI に重点を置いていました。

会場はモントリオールのダウンタウンにある Le Centre Sheraton Montreal という 歴史のあるホテルで、セッション・食事などにホテルの B1, 2F, 3F, 4F が使用されました。 参加者人数は39ヶ国から612名、セッションの個数は70個でした。参加者の15%が過去の Lucene/ Solr Revolution に参加したことがあり、残り85%は初めてだったらしいです。

10月15日と16日はトレーニングワークショップでセッション自体は17日から始まりました。 今回のカンファレンスは、トレーニングを受けませんでしたので、16日の夕方のレセプションから カンファレンス終了まで参加してきました。

16日のレセプションは、食事はプーティンという代表的なカナダ料理や牛肉など、飲み物はワイン、 ビールなどありました。雰囲気としては割とカジュアルな感じでカンファレンスの主催者である Lucidworks のお客さんやカンファレンスのスポンサーの人が多い気がしました。

セッション初日

17日からセッションが始まったんですが、朝は朝食とキーノートがあり、 Université de Montréal の Yoshua Bengio 博士が登壇しました。キーノートはディープラーニングの現状と今後についての話で、 技術者・ディープラーニングスペシャリスト向けな部分もあれば、一般的な AI のこれからの進歩、方向性、 希望、危険性などについても話しました。特に発表の最後に、希望・危険性については以下のスライドがありました。

キーノートが終わるとセッションが始まりました。様々なセッションがありましたが、特に面白いと思ったのを 以下まとめたいと思います。

Learning to Rank: From Theory to Production

このセッションでは、Bloomberg が登壇し、Solr の LTR プラグインを開発した後、実際に ニュースサービスに活用しようとしたら、パフォーマンスがかなり下がり、それを解決したら、 LTR でないコンポーネントも早くなったという話をしました。

パフォーマンスの落下問題を解決し、無事デプロイすることができました。登壇者によると、 訓練データは 1 か 0で、専門家の社員に人手でラベルをつけてもらったそうです。

最初はクライアントの1割に先にデプロイし、問題なさそうだったので全てのお客さんにデプロイ しました。ニュースサイトの他の様々な部分も変更されたため、LTR のデプロイによる効果 を独立して測定するのが難しかったので、今後の課題としては実際の効果の測定と、さらなる Feature Engineering (特徴量選択・抽出)と他のアルゴリズムの実装と試験があるという 話でした。

セッション最終日

18日も朝食とキーノートがありました。キーノートは Hewlett-Packard の Global VP が登壇し、 AI とモラルコード、そしてダイバーシティの話をしました。キーノートというよりは、「Fireside Chat」 というセッションで、10〜15分くらい話した後、もう一人の人が登壇し、カジュアルな感じでダイバーシティや モラルコードの話し合いをしました。終わると、セッションが始まりました。

Apply Learning to Rank in The Home Depot Type Ahead Service

The Home Depot という北米のホームセンターのチェーンでウェブサイトの「Type Ahead Service」に LTR を利用し、具体的に何をやったかというセッションでした。The Home Depot の「Type Ahead Service」 というのは、Solr の Suggester のような機能で、ユーザがクエリを入力し始めたら、自動で完成したクエリの いくつかサジェストされます。

The Home Depot は、そのサジェストされたクエリのリストを LTR で表示順の改善を目指していました。サジェストに LTR を活用するためには、入力された文字列をクエリにして、その文字列に対するクエリリストを文書のリストにします。 LambdaMART という勾配ブースティングのアルゴリズムを実装したそうです。

入力された文字数も考慮します。文字数を考慮するというのは、例えば HOM を入力したら、HO を入力したときに サジェストされたクエリをクリックしていないということにはなるが、それは必ずしもサジェストされたクエリが不適切だと いうわけではありません。そういう風に、文字数に何かの意義があるだろうという考え方です。The Home Depot は trie を 使って文字数を考慮したが、具体的な解説や数式は特にありませんでした。用いられた特徴量は以下の Features Engineering という スライドに載っていて、全体的な LTR パイプラインのイメージはその下のスライドに載っています。


Activate 2018 カンファレンスに参加してきてAI が検索を改善しつつあると実感しました。The Home Depot の LTR の斬新な活用や Lucidworks のシノニム辞書の自動生成手法などの話を聞いて、 オープンソースで皆で検索と AI を進めているなと感じ、私もオープンソースで、LTR や AI で活躍して行きたいと思いました。

activateReport

Popular posts from this blog

「機械学習の論文をスクラッチから実装しよう!」LambdaMART の数式をコードに落とす

ランキング学習 〜情報検索への機械学習の応用〜

ランキング学習勉強会第1回 まとめ