SSブログ

AI翻訳が人間超え、言葉の壁崩壊へ 日経エレクトロニクス 2019年9月号 [新聞・雑誌]

hyosi.jpg

【特集】AI翻訳が人間超え、言葉の壁崩壊へ
 日経エレクトロニクス 2019年9月号

なかなかセンセーショナルなタイトルですね。
この特集の中で、現在最も精度が高いとされているのがMicorsoftのMASSです。
フリーでアプリとEdge用のアプリが使えるようになっています。

精度は、この特集によると、BLEUスコアで28.3点とのこと。

bleuスコア.JPG
出典:Google

多少は文法の誤りがあるものの、意味は理解出来るので、私が翻訳するよりは良さそうです(笑)。
試しに、日本語→英語と翻訳してみましたが、Google翻訳とあまり変わらない感じでした…。

この特集には、みらい翻訳のシステムも取り上げられていますが、こちらはGoogle翻訳よりは良さそうです。

これで、ますます英語の文章を書く敷居が下がりそうですね。[グッド(上向き矢印)]
コメント(0) 

多変量共分散分析(MANCOVA)のテキスト [既刊情報]

日本語では良いものがないのそうなので、英語版の書籍を紹介してもらいました。

Analysis of Multiple Dependent Variables (Pocket Guides to Social Work Research Methods)

Analysis of Multiple Dependent Variables (Pocket Guides to Social Work Research Methods)

  • 作者: Patrick Dattalo
  • 出版社/メーカー: Oxford Univ Pr on Demand
  • 発売日: 2013/02/11
  • メディア: ペーパーバック

読むのが結構大変そうです。
できれば、最初だけでも…。
睡眠薬にならなければいいのですが(笑)。
コメント(0) 

確率の話がわかる確率?

先日、知人と喫茶店で血液型の話で盛り上がっていたら、多くの人は私が説明する確率の内容がさっばり理解出来ないと言われました。

具体的には、武田知弘氏の著書「本当はスゴイ!血液型」の日経の広告に書いてあったような内容です。

ゴルフの歴代上位はB型が独占(確率500分の1)

本当はスゴイ! 血液型

本当はスゴイ! 血液型

  • 作者: 武田 知弘
  • 出版社/メーカー: ビジネス社
  • 発売日: 2018/05/22
  • メディア: 単行本(ソフトカバー)

takeda2.png

この文章は、ゴルフの歴代上位はB型ばかりで、その確率は500分の1だから絶対偶然じゃないよね、という意味としか解釈しようがありません。
#私が「素直」に読めば…ですが。

しかし、この知人によると、多くの人は、

ゴルフの歴代上位はB型ばかりのはずなのに、全体の500分の1しかいないのはおかしい

と思うというのです(笑)。

面白い冗談だと思って、近くの女子店員に質問したら、まさにそのとおりの反応でした。[あせあせ(飛び散る汗)]

となると、このブログの内容、たとえばMANCOVAなんて読んでも誰も判らないということになります。

だから、統計学者が妙なことを書いても、私のようなマニアックな人以外誰も指摘しないから、間違いが訂正されないのでしょうかね?

少々考えさせる1日となりました。[あせあせ(飛び散る汗)]
コメント(0) 

心理学の性格検査の結果は、「血液型人間学」とぴったり一致する!【奥村教授の勘違い】《再度追記》 [サイト紹介]

前回の続きです。

繰り返しになりますが、統計学の大家である三重大学の奥村晴彦教授のサイトで、血液型の統計解析があることを見つけました。

・話題: B型の彼氏 / 血液型と性格の無関連性 / またまた血液型と性格

okumra3.JPG

奥村教授が作成した次のグラフ(Persistence=継続性)を見るとわかりますが、血液型の傾向どおりA型が最も忍耐強い」「B型が最も飽きっぽい」「O型もその次に飽きっぽいという結果になっています。

※点がその血液型の値で、誤差の推定範囲は点から上下に伸びる実線で示されています。

okumura2.jpg

奥村先生は、これは「偶然である」として、こう書いています。

論文では年齢・性別でコントロールしたMANCOVAが使われているが,年齢・性別がわからないので,ここでは単なるMANOVAを使ってみる:

いずれも有意ではない(Pillai 以外の方法については manova() のマニュアル参照)。

okumura4.JPG

確かに、最初と2番目の赤の下線にあるように、遺伝子型(Blood types)も表現型(ABO)もp>0.05ですので有意ではありません。

しかし、この数字は間違っているのです。なぜなら、一番下の赤の下線にあるように、なぜか「Pillai 以外の方法」の値の記述がなく、元の(土嶺さんの)論文では有意になった「Pillai 以外の方法」の値を採用しているからです。

※元の論文にはp=0.001で有意とあります。

下に、私が教授と同じ方法でフリーソフトのjamoviを使って計算した結果を示します(欠損値を除いた1435サンプルで計算)。

okumura6.JPG

確かに、Pillai's Traceこそ奥村教授と同じp=0.282となっていますが、Roy's Largest Root は、p=0.002ですから有意水準0.05よりはるかに小さく、文句なく有意となります。

奥村教授は、おそらくRoy's Largest Rootは計算しなかったのでしょう。 なぜなら、これらの4種類の数値、Pillai、Wilks、Hotelling、Royは、普通はだいたい一致するからです。
[2019.9.23 8:30追記 もう一度チェックしたら、論文中に"we used Roy's largest root statistics"とあるので、有意差が出ているのに無視した可能性もあります。仮にそうだとすると、少々問題なのではないかという気もしますが…。そもそも、MANCOVAのp値(genotypeで0.001、phenotypeで0.014)はAbstractも含めて何回も出ているのに、まったく書かないというのはケアレスミスとは考えにくいですしね。[ふらふら]

※jamoviの使い方は、こちらのサイトに日本語で解説されています。⇒MANCOVAはこちら
以前はRとEZRを使っていたのですが、jamoviはGUIで使えるので非常に使いやすいです。技術の進歩はすごいですね。


よって、奥村教授の「偶然である」という判断は否定されることになります。
ということで、奥村教授の次の文章、

慣習的な統計的検定を使う際には,多重比較に陥らないように注意すべきである。この論文のように変数が7個もある場合は,全部をまとめた検定(上の例ではMANCOVAやMANOVA)をまず行い,それが有意にならなかったら,個々の変数についての検定は参考程度にとどめる。

okumura5.JPG

は、MANOVAがp=0.002で有意なのですから、Persistenceに有意な差があることは確定と考えていいことになるでしょう。

結局、奥村教授の言う、差が出たのは「偶然」だという主張は、現実のデータで否定されてしまうのです。

では、なぜRoy's Largest Rootだけが他の3つの値と違うのでしょうか。
手持ちのデータでシミュレーションをしてみたところ、男女や年齢で血液型の影響が変わってくる場合、Roy's Largest Rootだけが有意になったりするようです。
よって、血液型のデータをMANOVAで分析する場合、奥村教授のように、Pillai's Traceだけで判断するのは「危険」ということになります。

ここで、念のために他の質問項目を調べると、Persistenceだけではなく、Reward DependenceやCooperativenessではほぼ血液型が予測するとおりの差が出ているようです。
RDは前回報告したとおりですが、Cでも、O型とA型は、B型やAB型より数値が高いのです。
7項目中3項目でそうなのですから、やはりこれらの差は偶然ではないと判断するのが妥当かと思われます。

実は、奥村教授のこのサイトには、もう一つの致命的な間違いがあります。

特に日本や韓国など血液型性格判断を信じる人が多い国では,性格テストに現れる性格は,血液型に影響されてしかるべきである。「□型の性格は○○である」と聞いて育った□型の人は「自分の性格は○○だ」という先入観を持ち,性格テストでもそのように答える傾向があってもおかしくない。

okumura5.JPG

しかし、血液型の性格で「自己成就」しているなら、仮に他の性格指標で差がないとしても、それは「見かけ」だけで、本当は差が出るはずです。よって、有意差に関係なく帰無仮説は棄却されることになります。

統計の専門家だから、かえって「血液型と性格」を誤解するのかもしれませんね。帰無仮説が無意味なんて、普通は考えないですからね(笑)。

このように、血液型は「統計の常識」をことごとく否定してしまうのです。
遺伝子が性格に与える影響を直接的に研究しているケースはほとんどないはずなので、こんな奇妙なことが起きても特に不思議ではないのかもしれません。

現時点では、真相は神のみぞ知る…というところ、ですかね?

誰かが一刀両断に謎を解き明かしてくれないでしょうか…。

【2019.9.22 18:20 追記】

調べてみたところ、
・Pillai's Traceが適していないのは、自由度が1より大きい場合
・Roy's Largest Rootが適しているのは、帰無仮説からのずれが大きく、固有値が大きく異なる場合
とあり、どちらも土嶺章子氏の論文に当てはまると思うのですが。

なお、ソースは次のとおりです。
https://www.statisticshowto.datasciencecentral.com/pillais-trace/
http://www.jmp.com/japan/support/help/13/flm-multiple-response-10.shtml
元々のソースは、いずれも Seber, G.A.F. (1984). Multivariate Observations. とのことです。


後者のサイトには「残念ながら常に他よりも優れている検定というのものはありません」ともあります。

【2019.9.22 21:30 追記】

ところで、MANOVAの計算には線形代数(行列)を使います。
私は、数学は嫌いではありませんが、線形代数は大の苦手でした。[あせあせ(飛び散る汗)]
それでも、ちょっと気になったので、TCIの7つの性格因子の関係が「線形」代数でうまく扱えるのか、直感的にわかるように分布図を書いてみました。

少々極端な例として、HAとSDの関係を示しておきます。

okumura7.JPG

結果は見たとおりで、2つの関係は「線形」(1次方程式)ではなく、2次(以上の)方程式でないとうまくフィットしません。

実は、MANOVAの計算にはいくつかの条件があり、
1. 正規分布
2. グループのサンプルサイズが同じ
3. 従属変数間に相関があってもよい
ということになっています。

このHAとSDでは、rは0.565(R2=0.319)ですから、結構な相関があります。
しかし、この相関は「線形」ではありません。
この場合、MANOVAはたしてどのような結果になるのでしょう?
Roy's Largest Rootだけ極端にpが小さいのは、そういう理由からかもしれません、ね…。

【2019.9.22 23:30 追記】

Roy's Largest Rootだけ極端にp値が小さい理由がやっとわかりました。[るんるん]
私は線形代数は苦手なのですが、さすがに固有値λぐらいはわかります(どうやって計算するんだっけ?[あせあせ(飛び散る汗)]

MANOVAでは、p値を計算するのに、擬似的なF分布を使います。
簡単に言うと、従属変数ごとにこのλを計算し、λの値が大きいほど(逆数の場合は小さいほど)p値が小さくなります。
計算方法はわからないので省略します。[あせあせ(飛び散る汗)]

okumura8.JPG
ソース:心理統計法-多変量分散分析(1)

では、具体的にMANOVAの4つの値
・Pillai's Trace
・Wilks' Lambda
・Hotelling's Trace
・Roy's Largest Trace
はどうやって計算するのでしょうか。

私が一番わかりやすかったのは、次の英語版Wikipediaでした。

okumura9.JPG

これなら素人でもわかりますね(笑)。

・Pillai's Trace
・Wilks' Lambda
・Hotelling's Trace
の3つは、すべての従属変数のλの平均値です。
#平均の出し方にはいろいろな方法があります。

ところが、Roy's Largest Rootだけはすべての従属変数のλの最大値なのです!

土嶺章子氏の論文を読めば明らかなように、TCIの7つの性格因子は、Persistenceだけがかなり小さなp値で有意なものの、残りの6つにはほとんど有意差はありません。

これはどういうことかというと、Persistenceだけが有意な場合は、Roy's Largest RootだけがMANOVAの結果で有意になるということです。Pillai's Traceなどの残りの3つは、7つの性格因子の平均値なので、有意差は小さくなるか、消滅するということになります。

これは、最初の16:20の追記の内容
・Pillai's Traceが適していないのは、自由度が1より大きい場合
・Roy's Largest Rootが適しているのは、帰無仮説からのずれが大きく、固有値が大きく異なる場合
ともうまく符合します。
やっと謎が解けたので、これで枕を高くして眠れますね。[ウッシッシ]

【2019.9.23 9:20 追記】

我ながらしつこいのですが、手持ちのデータでMANOVAをやってみました。
少数の従属変数だけに有意差がある場合は、Roy's Largest Rootが適していることは明らかです。
6つの質問項目のうち、血液型で最も差が大きいのはq3-2ですが、予想どおりRoy's Largest Rootだけがp=0.002で有意で、他はp=0.092だから有意ではありませんでした。
奥村先生もうっかりしたのですかね。
弘法も筆の誤りということでしょうか…。

okumura10.JPG

コメント(4) 

牧田寛氏の論考と現実との大きなギャップ《北朝鮮製新型ミサイル》 [北海道大停電]

1年ほど前の北海道大停電について、牧田寛氏のハーバーオンラインの記事についてコメントを書きました。
そうしたら、ピーク時には、まさかのSo-netブログのアクセスでトップになったのには驚きました。

で、最近、この記事のアクセスが妙に多いなと思ったら、牧田寛氏は今回「北朝鮮製新型ミサイル」のセンセーショナルな記事を書いていたのです。

MAKINO1.JPG

2019.09.11 北朝鮮製新型ミサイルの画期的性能は日本の防衛に何をもたらすのか?

この記事のポイントですが、問題の新型ミサイルの命中精度は極めて高く、日本の原発(たとえば大飯原発)は簡単に破壊できるため、万一攻撃された場合には大惨事が発生するというものです。確かに、彼の指摘が本当なら真剣に対策を考えるようでしょう。

しかし、そんな話は誰もしていません。なぜなら、この記事は、誰にでもわかる初歩的なミスのオンパーレードだからです(苦笑)。

もっとも、この記事の間違いは、北海道大停電よりはるかにわかりやすいです。
そこで、私的な備忘録として書き留めておくことにします。

【ごく初歩的なミス1】命中精度が極めて高い?

牧田氏によると、

イスカンデル系SRBMの性能を引き継ぐとされるKN-23は、命中精度をしめす半数必中界(CEP:半数が着弾する半径、例えば10発撃てば5発がCEP内に着弾する)が、5~7mと精密誘導巡航ミサイル並みの極めて優れた値とされています。

とあります。しかし、これはベストな状態の話で、現実に日本に飛んでくる場合には、この精度が保証されるわけではありません。

他のサイトを見てみると、

CEP(半数必中界)は、INS、グロナス併用で30m以内、光学センサー誘導では数mとされる。

とあります。

INSは慣性誘導装置、グロナスはロシア版GPSなので、これらは「標準装備」です。
光学センサーというのは、レーザー光線による誘導ということですから、現実には北朝鮮から日本に届くレーザーでもなければあり得ません。もちろん、そんなことは不可能です。
つまり、このミサイルの命中精度を示すCEP(半数必中界)は、牧田氏の言う「5~7m」ではなく、現実には「30m程度」ということになります。

もっとも、大飯原発の格納容器は直径45m程度ですから、精度が30mなら結構な確率でミサイルが命中しそうですが、実はそうではないのです。

この点を次に説明します。

【ごく初歩的なミス2】大飯原発を余裕で破壊できる?

牧田氏によると、大飯原発の構造は次のとおりです。

65e106e6ed0dcb1ed3425fa08bb78503-768x1252.jpg

大飯原子力発電所3,4号炉の格納容器は、外径45.6m、高さ65.6m、胴部が厚さ1.3m、ドーム部が厚さ1.1mのプレストレスト・コンクリートであり、更に内側を厚さ6.4mmのライナープレート(金属板)で内張りされています。

鉄筋コンクリート(RC)とプレストレスト・コンクリート(PC)の違いはありますが、1.8mの厚さのRCを2~9倍の余裕度で貫通するKN-23は、1.1mのPCを余裕で貫通すると考えて良いでしょう*。
<*改標2型PWRのPCCVには、密度のたいへんに高いコンクリートが使われている。従って、運動エネルギーが小さい軽量弾頭には持ちこたえる可能性はある>

これらの記述は、他のサイトと照合しても正しいようです。

では、ミサイルが格納容器を貫通して、弾頭が格納容器の内側で爆発するとどうなのでしょう?
牧田氏によると、

格納容器が貫通されると、内部で500kgまたは250kgの弾頭が炸裂し、格納容器内部を破壊されます。原子炉は、運転中に格納容器内部で数百キロの高性能爆薬が爆発することなど全く想定していませんので、100~300kgの高性能爆薬の内部爆発には耐えられません。原子炉は、想定を遙かに超えたきわめて甚大な打撃を受けることとなります。
大飯3,4と、同型の玄海3,4は、第二世代原子炉としてもたいへんによく出来た優れた原子炉ですが、双発大型航空機の突入には、燃料火災を除き耐えられると思われるものの、弾道弾の直撃では打ち抜かれ、破壊されます。

私は、この図を見たときに妙な感じがしました。
そこで、他のサイトで確認してみたところ、なんと肝心の「原子炉本体」(原子炉容器=次の図ので囲んだ部分)が描かれていないことに気が付きました。
原子炉のない原子力発電所なんて、原発とは言えないことはもちろんです。[あせあせ(飛び散る汗)]

次の図は、関西電力の大飯原発のサイトからです。

setsubi_pic_02.jpg

残念ながら、この図には「原子炉容器」の大きさが書いてありません。
同じ加圧水型原発である川内原発のサイトによると、

SENDAI.JPG

原子炉容器は、重さ約330トン、直径約4メートル、長さ約12メートル、厚さ約20センチメートルの鋼鉄製・円筒形の容器です。

とあります。原子炉容器の大きさは直径4m、長さが12mとのことなので、これを精度30mのミサイルで狙ったら、まぁほとんど当たらないと考えるのが普通でしょう。

つまり、北朝鮮の新型ミサイルが原子炉に命中する確率は意外と小さいことになります。

それだけではありません。

厚さ1m以上のコンクリートで出来ている格納容器を貫いたミサイルが、そのまま直進して見事原子炉本体に命中すると考える人は…まぁ例外でしょう。[むかっ(怒り)]
また、仮に格納容器を貫通したとしても、首尾よく「重さ約330トン、直径約4メートル、長さ約12メートル、厚さ約20センチメートルの鋼鉄製・円筒形の容器」である原子炉容器を破壊できる…かどうかは、わざわざ考えるまでもないでしょう。[むかっ(怒り)]

北海道大停電のときもそうなのですが、なぜ牧田氏の論考がここまで間違っているのか、私にはまったく理解出来ません。[あせあせ(飛び散る汗)]
コメント(0) 

第4次安倍第2次改造内閣の血液型

O3、A8、B6、AB2です。
O型が半減し、その分B型とAB型が増えました。
初入閣は13人です。

e8fcd020e92eb7977cb78446acccef58_s.jpg

第2次から現在までの血液型構成を見ると、O型が少なく、B型が多くなっています。
前例にとらわれず、新しいことに取り組んでいくという姿勢の表れなのでしょうか?

総理大臣 安倍晋三 B
副総理兼財務大臣 麻生太郎 A
総務大臣 高市早苗 A
法務大臣 河井克行 A
外務大臣 茂木敏充 O
文部科学大臣 荻生田公一 AB
厚生労働大臣 加藤勝信 B
農林水産大臣 江藤拓 A
経済産業大臣 菅原一秀 A
国土交通大臣 赤羽一嘉 B
環境大臣 小泉進次郎 AB
防衛大臣 河野太郎 O
官房長官 菅義偉 O
復興担当大臣 田中和徳 B
国家公安委員長 武田良太 B
一億総活躍・領土担当大臣 衛藤晟一 A
情報通信技術担当大臣 竹本直一 A
経済再生・社会保障改革担当大臣 西本康稔 B
地方創生・規制改革担当大臣 北村誠吾 A
五輪・女性活躍担当相大臣 橋本聖子 B

【参考】第2次安倍内閣から第4次安倍改造内閣の血液型
第2次 O 6、A 6、B 5、AB 2
改造後 O 4、A11、B 3、AB 1
第3次 O 3、A10、B 2、AB 2
改造後 O 4、A 7、B 8、AB 1
第2次改造後
    O 3、A 9、B 6、AB 1
第3次改造後、第4次
    O 5、A 6、B 7、AB 2
第4次改造後
    O 9、A 7、B 4、AB 0
第2次改造後
    O 3、A 8、B 7、AB 2
合計  O38、A64、B42、AB11

【2019.9.21】初出の記事でB型の人数が間違っていたので訂正しました。
コメント(4) 

「入閣待機組」の血液型は?

9月11日に内閣改造が行われる予定です。
そこで、入閣が噂されている政治家の血液型を調べてみました。

nyukaku.JPG
出典:【図解・政治】自民党の主な「入閣待機組」(2019年8月)

B型が多いのが目に付きますね。

【入閣待機組】
西村康稔官房副長官(細田派)B
田中和徳元財務副大臣(麻生派)B
三原朝彦元防衛政務次官(竹下派)B
竹本直一元財務副大臣(岸田派)A
平沢勝栄元内閣府副大臣(二階派)A
古川禎久元財務副大臣(石破派)O

【その他】
小泉進次郎 AB
三原じゅん子 B
松川るい O
コメント(0)