2016年8月20日 かわさき科学技術サロン~喜連川先生による講演と質疑

 ミューザ川崎セントラルタワー21FNEDO会議室で、1917時半-21時位に開催された、「かわさき科学技術サロン」に参加した。

 メインテーマは、AI、ビッグデータ、IOTの現状と関係

  今回は、国立情報科学研究所(NII)所長、東大生産技術研究所教授の喜連川優先生による「ビッグデータのインパクト~ビッグデータはAIの食糧、IOTはビッグデータの生成源」と題する基調講演。

 NII100Gネットを全国に展開するSINET5の重要性

 喜連川先生は、東大教授とNII所長を兼務されている。NIIは、日本でコンピュータしか研究していない唯一の研究所(コンピュータも研究している機関は多い)で、皇居に近い一橋にある。研究所としての機能と、全国に「SINET5」という100Gのネットワークを提供、運営の機能もある。20163月までは40GSINET4であったが、SINET5で日本海側や僻地も張り巡らされた。http://www.nii.ac.jp/

 今後、データの量は2.0ZByteというボリュームになり、その中身も、従来のデータセンタよりもクラウドでの処理が多くなる。

 そうなると、各大学や自治体でも、その中の処理よりは、外のネットワークの処理が増え、外のトラフィックがどんどん増える。また、最近のビッグサイエンスでは、スパコンでの処理が増え、天文台やスーパーカミオカンデ等から膨大なデータが送られてくる。コストもクラウドの中でネットワークのコストが大きくなり、こうした100Gのネットワークインフラは極めて重要である。米も100Gだが欧州はまだ数十Gのレベルである。

AI3つの事件の考え方

 AIの分野では最近3つの大事件が起こった。

第一は、グーグルのAlpha GOがチャンピオンに勝った。既にIBMAIがチェスに勝ち、将棋でも日本でプロ棋士が負けたが、難しいだろうと言われていた碁でも勝って話題となった。これで、人間が何をしたらいいのだろう、というSADNESSと、これまで人間が常識あるいは定石と考えていた範囲や世界が何と狭く、AIが世界を広げてくれるとうBEAUTYという両方の見方が出てきた。

第二は、MSチャットポットであり、人々と、相手に合わせてお喋りをして、学習もするというAIだが、悪意のある人が悪いことも教えた結果、ヒトラー礼賛をしてしまい、たった一日で閉鎖となった事件だ。

第三は、テスラの「自動運転」車事故である。これは、反射光で外部環境をうまく認識できず、事故が起こった。自動走行ではない(トヨタは、レベル4でもあと100年かかるとしている)との周知はされたが、Auto Pilotという名前で販売しており、これがドライバーに誤解を与えているとの指摘も多い。なお、米国運輸省道路交通安全局 (NHTSA)の定義によると、テスラのモデルSはレベル2であり、自動運転ではない。現時点ではレベル4は無人で走行するロボットタクシーや無人運行バス等を検討していて、市販の車両はないようだ。

 

 この3つの事件の捉え方として、ゲーム等のクローズドな世界では、どんどん人間を超え、人間の可能性を広げる一方、オープンな世界ではまだまだであり、オープンな世界で想定外のことが起きた場合への対処も含め、丁寧に人間がルール作りや対処法を考えなければならない。

 IBMがとったワトソンのアプローチ

 今回のAIブームの火付け役は、クイズ番組で、IBMAI「ワトソン」が人間のチャンピオンを破った成功が大きい。横軸に、クイズの分野(スポーツ、芸能、歴史など)をとると、人間は、ある領域で正答率が高く、AIは、満遍ないが当初は低い。ここで、ワトソンに社会ビッグデータから常識を教えこむと、最初は低いが、どんどん常識がつき、広い分野で人間を追い越す。社会常識のビッグデータがある閾値を超えるとどんどん正答率が上がる。ここでのポイントは、クイズで使われる構文や語句と、社会常識でのものの知識との比較照合である。歴史なら、西暦と和暦の換算、何年前という場合には足し引き計算が必要になる。同じ意味を色々な言葉で表現するが、それを同じことだと教え込むことが必要である。1000並列、3000個のプロセッサ、15TBの記憶容量のマシンを動かし、インターネットと切断された状態で使用されたそうだ。http://www.math.ryukoku.ac.jp/~www-qma/lab/IPSJ-MGN520717.pdf

  IBMはもともと肉切り包丁の会社だったそうで、最初にコンピュータを発売した時、世界で5台しか売れないだろうと言ったというのは有名な話だが、100年で大きく変わった。こういう100年間に、データ量も大きく変わり、どんどん、賢くなるというところに目をつけたIBMの戦略は見事である。

 ただ、ここで分かったことは、人間の常識や発想とワトソンのそれが異なることであり、補完的である。そもそも、世の中には、問題を作成する側と、問題を解く側がある。東大教授になると1度は問題作成を経験するが、「答が一つに決まって、そこそこ難しい気が利いた問題」を作るのが大変なようだ。だから解く側が楽だそうだ。そもそも、そんな「問題」は実は少なく人類が直面する多くの課題は答が無い。

ワトソンはまずヘルスケアで医師のアシストには非常に有益だが表現解釈が難しい

 もちろん、こんなクイズ番組がワトソンやIBMの目的ではなく、オバマケア政策もあり、ヘルスケアが、ターゲットである。ヘルスケアこそ、究極のビッグデータである。

 そもそも病気の数は、米では1万という説、日本では2万という説があるそうだが、いずれにせよ、医師が覚えきれるレベルではない。専門医なら範囲も決まっているが、内科医といっても、覚えきれないだろう。しかも、どんどん、論文は増え、薬も増えていき、全部、1万以上の病気に関して、フォローしきてない。そこで、ワトソンの出番であり、あらゆる病気について、全ての論文、専門誌、新薬の情報をインプットし、「賢く」なり、医師を助ける。ただ、完全自動というわけではなく、相当、手作業で教える処理があるようだ。しかし、それでも、医療分野では十分にペイするようだ。

 難しいのは病理学であり、物理や工学と異なり、表現が婉曲で、難しい面も多い。実は、これはヘルスケアだけでなく、知財でも同様であり、著作権法は、非常に難解で、変更に変更を重ねており、解釈が難しく、弁護士の中でも見解が分かれるそうだが、そういう微妙な解釈はワトソンには苦手だろう。

コーパスとビッグデータ

 その意味では、知識の創出とは、膨大な知識の整理と統合でもある。

こうした自然言語処理に関連するのは、自然科学というより、もともとは言語学や国語学の文系の世界であり、同じ意味の言葉がどのような場合にどういうふうに使われるかという文例集は、言語学や情報処理の研究者の間では「コーパス」(corpus)と呼ばれている。コーパスを用い、文法情報を付加することで、辞書編纂、国語教育、心理学・認知科学の実験などに応用される。AIでも、言語処理アルゴリズムの評価用データとなる。http://www.ninjal.ac.jp/publication/catalogue/kokken_mado/32/02/

 WEB情報から150億個ものテキスト文書を解析、横軸に、コーパス(文例集)を取ると、縦軸に正答率を取ると、多くの分野で1万倍コーパスが増えると飛躍的に正答率が向上する。構文解析では、元々、精度が高く、格解析はある閾値から上昇するが途中で一定、省略解析も同様、同義語は、どんどん精度が上がる。この辺りは、いろいろ知的興味がわくところである。

 今後、人文科学と自然科学の融合が必要だろう。既に、以前から、学会では色々な動きがあるようだ。http://jinmoncom.jp/sympo2016/

 AIとビッグデータの境目はない、データアナリシス=AIである

  こうしたワトソンなどの成果を見ていると、AIとビッグデータの境目はなく、AIとは、データアナリシスともいえよう。

 ビッグデータは、現在、2.0の段階に来ている。ビッグデータ1.0は、従来の統計処理の手法だけでも実現可能な段階。次に,1.5があり、従来の統計処理の手法に加えて,HadoopCassandraといった大規模データの大規模分散処理を援用した段階。そして、現在のAIと境目がなくなってきたビッグデータ2.0の段階である。この背景には、ネット空間やIoTが生成する膨大なデータの増加があり、このデータの膨大な爆発が、ビッグデータ1.01.5へ、そのデータの非定型さにより、2.0の段階へと,切り拓きつつあるといえる。https://www.jstage.jst.go.jp/article/johokanri/56/2/56_71/_pdf

社会に役立つIOTとビッグデータ、データは資産

 そこで重要なのは、社会価値であり、BOPなど貧困の対応である。ここでは、ケータイ「グラミーフォン」を利用した遠隔治療「ポータブルヘルスクリニック」が流行しており、健康レベルの向上に役立っている。また、刑務所に入る人間の判断や、銀行融資なども有効な分野だ。

 病院では、ナースの人件費や重労働に負担が問題となっているが、ナースに3DセンサとRFIDをつけて調べると、最も浪費している時間は看護記録のPC入力である。元々のデータは、検査機器にあるのに、それを手書きして、また、それをPCに打ち込む。これは、ナースも意識しておらず、このムダを省けば多いに労働時間が短縮される。こういう意識しない行動パターンが分かるのもIOTの成果である。なお喜連川先生がご存知かどうか不明だが、この問題は、経営戦略では有名な話であり、冷静に考えれば導入効果が明らかなのに米でも失敗しており、「ワイドレンズ」(東洋経済2013 ロンアドナー著、清水訳) のエコシステムのケーススタディ(P114 電子カルテ)にある。

 クルマも有望な分野である。センサは、クルマについているのだが、なかなか、そのデータは利用できないので、外からつける必要がある。IOT・ビッグデータの研究は渋滞が多いが、事故はもっと重要である。走行距離当たりの事故発生率は、タクシーが最も多く、平均の2倍近いが、トラックやバスは低い。これは、タクシーが知らない場所を走り地図情報が貧弱だからである。ドライブレコードを使ってスピードを見て、その変化が大きいところが危ない場所である(本来は、ブレーキに付けたいが、クルマメーカーが嫌がる)。そうして見ると、公的データにない地図情報が得られ、これを利用すれば、事故を無くせる。また、事故を起こすドライバーの運転パターン、振動から道路の凸凹、なども分かる。

 日本には、多くのセンサがあり、河川、気象などの観測データが豊富である。世界的にも多いレベルだろう。さらに自治体が持つ保険レセプトデータも有用であり、日本には多くのデータがあり、活用できる。

 まさに、こうしたIOTから得られるビッグデータは、貴重な資産として認識しないといけない。

 質疑討論

  質疑時間は30分程度で、馬来氏が司会。

質問3-1(私)ゲームの世界で、AIは麻雀名人に勝てるか?、碁や将棋で全く同じアルゴリズムで対戦した場合、どういう勝敗パターンになるか、先手後手有利はあるか?

 この質問の意図は、①こういう話題をAI研究者が考えているかどうか、②将棋や碁は、収束性、解の一意性とも関連するし、何手くらいから決定的となるのか、③碁麻雀は運が少ない殆ど無い世界だが、麻雀は運の要素が多い上、多数での戦いであり、その駆け引きや精神力みたいなもの(状況の有利不利感応度)が要素としてあり、実際のビジネスや運用に近い。

 例えば、今後、政府などがビジネスでの規制を考える場合に、ゲームの種類(丁半ばくち、パチンコ、麻雀、将棋碁、トランプ)で、それが近いのか、効率的市場仮説にも関連し、特に金融では重要な気がする。当局のイメージは不明だが、市場参加者は、投資というより、パチンコや丁半ばくち感覚で参加している例も多い。半導体メモリのトップや経営者のパファーマンスは、ゲームの中では麻雀と相関性が高いように思う。http://www.nikkei.com/article/DGXMZO76499780S4A900C1000000/

 AIやビッグデータの研究者側では、将棋や碁と違って、麻雀の例は見いだせなかったが、むしろ麻雀サイドでは関心が大きいようだ。http://j.people.com.cn/n3/2016/0318/c94475-9032096.html

 http://mj-news.net/news/2016012833181。勝つ方法はコンセントを抜けばいい、というのは至言ではある。

 喜連川先生:難しい問題だ。直接でなく、別な形で答える。AIは、想定外の打ち手には弱い、将棋では駒落ちだと弱いが棋譜が無いからである。また、エモーショナルな要素もある。

質問3-2(私)GDPなど経済指数予測への適用、下手なエコノミストやアンケートよりも、偽GDPと言われる中国での李克強指数ではないが、幾つかのビッグデータを使う方が、リアルタイムで精度良く出るだろうし、機械統計の工場出荷など、そのままM2Mで可能ではないか?

喜連川先生:まったくその通りで、有効だろう。

 

 素人からは簡単にみえて実は難しい質問もあったようだが、いずれも丁寧にユーモラスに回答された。AIやビッグデータに何でも期待するのは間違いで、想定外、カオスティックなものは難しいそうだ。かなり成功しているワトソンも手入力があり、実態は分かった。

 

私なりの解釈

 今回の講演を聴いて、私なりにまとめると、下記のように、データが定常的で、数多くを取れる分野。また、クローズドであり、リニアリティがあり、あるいは、また、プレイヤーが2人しかなく、ガウス分布をしているような場合は、AIもビッグデータも非常に強く、人間を遙かに超える。しかし、非定常で、ガウス分布でなく、あるいは、そもそもデータ頻度がない(1000年に1度、決算期もそうだろう)場合や、複雑な世界、オープンであり、リニアリティがなく、マルチプレイヤーで相互に複雑に影響しあいという場合は難しい面が多い。さらに、リアルタイム性、緊急性が高い場合は、データの収束性も鍵になる。そのデータが定常的で、これまでの場合と同じ分布だと分かれば有効だが、それが突発的、想定外であれば、AI適用の有無が鍵となる。

 それゆえ、「AIが麻雀名人に勝った」というニュースを聞くまでは、経営戦略には、まだ大丈夫かもしれない。経営にとり、AIやビッグデータ活用は必須だが、実際の判断は、まだ先である。逆にいえば、経営者、さらには、経営学も経済学も、AIやビッグデータが強い領域は、どんどん活用(人文・社会科学と理工学の融合は必要だが)、任せていいだろう。学者も、そこを、いくら精緻にしても、サンプルはしょせん少ないし、AIには勝てないことを認識していくのだろう。そして、むしろ、AIが弱い領域にフォーカスすべきである。ここで左下の領域は、ゲーム理論の領域でもあるが、むしろそこから右の領域、非定常の領域に向かうべきだろう。ここは、少ない確率でイノベーションが起こる領域だが、まさに、数少ないケースを収集し、分析すべきである。ここが、研究でも実践でも、オリジナルな面白い領域であろう。また、データの少なさは、統計物理学のアンサンブル平均などの方法論を使えるどうか、など、ここでも、社会科学と自然科学の融合や対話が重要である。