AppEngineの書き込みオペレーションに付いて(前回からの宿題)

AppEngineのDataStoreでインデックスを無効にした場合、書き込みコストが下がるか調べてみました。

まず、全てのModelの全てのフィールドにてindexを無効にしました。

下記のコード参照
AppEngine DataStore Model which is disabled index

class Post(db.Model):
    id             = db.StringProperty(required=True, indexed=False)
    from_name      = db.StringProperty(required=True, indexed=False)
    from_id        = db.StringProperty(required=True, indexed=False)
    message        = db.TextProperty(required=False, indexed=False)
    type           = db.StringProperty(required=False, indexed=False)
    created_time   = db.StringProperty(required=False, indexed=False)

上記の設定にてAppEngine上のサービスを起動。

結果:

  1. 各フィールド毎のインデックスは作成されなくなった。よって書き込みオペレーションの回数が減り、コスト削減。
  2. しかし、DataStoreのエントリーの数と同数のインデックスが作成されている。よって、書き込みオペレーションの回数は書き込んだ(Put)エントリーの2倍発生。下記のイメージ参照。

考察:

キー(Key)でしかデータを参照(Lookup)しないので、なんとかインデックスを完全に無効にしたい。推測であるが、もしかしたら、このインデックスはキーでの参照用に作成されているのかも?自分のアプリのコストは、書き込みオペレーションからくるので、どうにかしたい。。。。。。

検索エンジン on AppEngine 開発の問題点

最近、Google AppEngine上で動作する、単純なFacebook個人コンテンツ検索エンジンを開発している。現在幾つかの問題点にぶつかっているので、その問題点を列挙しておこうと思います。

1. Facebookコンテンツの取得(クロール)に時間がかかる

Facebookのデータ取得にはFacebookのGraph APIを利用しています。自分のユーザー権限を利用して取得できるアップデート(ポスト)の数は約50,000件になります。1度のAPI呼び出しに25件取得出来るので、データを全て取得する為には、2,000回APIを呼び出す必要があります。さらに1度のAPI呼び出しに約数秒かかり、遅いケースでは5秒以上かかるケースもあります。(Slow facebook API via Python on Google App Engine (GAE))ユーザーがサインナップしてから、検索を始める事が出来るようになるまでに、1時間とか2時間とか待たなければならない事は避けなければなりません。コンテンツにプライオリティを付けて重要なものから取得するなどの工夫が必要です。

2. AppEngineのDB(DataStore)への書き込みが遅い

検索エンジンには、転置インデックスというデータ構造を用いています。転置インデックスはKey-Valueのデータ構造を用い、Keyにはキーワード(単語)、Valueにはキーワードを含むドキュメントのリストが保持されます。キーワードの種類はインデックスするドキュメントにもよりますが、ロングテイルとなります。さらに実装にも依存しますが、同じキーワードに対して何回かの更新がかかります。現在共有出来る数値はありませんが、大量の書き込みがある場合はAppEngineのDataStoreは遅いように感じます。

AppEngineのHigh Replication DataStore (HRD)は、信頼性を上げる為に書き込み速度を犠牲にしています。「What are the speed comparisons of NDB vs DB (on High Replication Datastore)? 」によると、HRDの書き込み速度は45ms、Master-Slaveの書き込みは20msかかるようです。

3. AppEngineのDB(DataStore)への書き込みコストが高い

自分のケースでは、アップデート(ポスト)の件数が、約50,000件、転置インデックスインデックスのデータ数が約25,000件あります。合計約75,000。これだけのデータを書き込む(更新も含む)のに、AppEngineのダッシュボードによると0.77M (77万)回の書き込みオペレーションが発生、1M の書き込みオペレーションのコストは$1なので、実際に77セント課金されています。プラス読み込みoperationにも課金され、読み込みには57セント課金されています。合計$1.24。1人分のインデックス作成(約180人の友人がいるケース)に$1は個人サービスとしては高すぎると感じる。

補足

あまりに書き込みオペレーションの回数がデータ数に対して大きいので、もう少し調べた結果、DataStoreがサポートするインデックの為に作られるデータの書き込みもカウントされているようです。自分のデータでは、74,608のデータに対し、977,995のインデックの為のデータが作成されています。上記のデータと一致しないのは、情報取得時のタイミング?インデックスを自動的に作成されないように、インデックスを無効にすることにより、書き込み速度の向上、および書き込みコストが下がるか調べようと考えています。

プロトタイプ

現在のバージョンは自分のアップデートしか検索できませんが、下記から試す事が出来ます。

https://locateweb.appspot.com

僕の中では、”今”オンライン学習が熱い!(もしかしたら僕の中だけ?)

今(今年)、オンライン学習が熱いと感じています。現在どんなオンライン学習サイトが立ち上がって来ているのか紹介したいと思います。

新しいサイトを紹介する前にまずは、「今までのインターネットを利用したオンライン学習ってどんなだっけ?」と言う所を見てみたいと思います。

1)大学の講義を受講する手段としてビデオ聴講が選択肢として提供されている。大学の講義に参加する代わりに、ビデオを見て学習し、宿題・課題を提出し、テストを受け、クレジット(評価)をもらう。約10年前にHarvard Extensionでコースをとった時には、既にビデオによる聴講手段は提供されていたので、かなり歴史が長いですね。コンピューター関連のクラスの殆どはこの方式をサポート。大学から遠い、仕事が忙しい人に学びの手段を提供していて、多くの学生が恩恵にあずかっている事と思います。昨年、同僚がStanfordのコースを取っていたが、仕事もある為、ビデオ学習していた。大学の講義なので授業料は安くないです。

2)大学が、講義のビデオを無料公開。大学に属する学生以外が、講義のビデオを見ることが出来る。MITやStanfordのクラスなど。大学側は、教授、学友とのインターラクションに価値を見出している為、講義のビデオを無料公開に踏み切った。ウィキペディアによると2002年に試験プログラムを開始したようですね。この方式も歴史が長いですね。1コースは大体、1回1時間から2時間程のクラスを10回又は20回分です。全てのビデオを集中して見続けるのは大変な為、自分には合わない方式です。

3)群衆の知恵方式。知識を持った人が、その知識をブログ、知識共有サイト、Q&Aサイトなどで共有。知識・解決策を探している人が、検索し知識を得る方式。多分インターネットを利用している人が既に毎日利用している方式ですね。知識共有サイトには、StackOverFlowなどがあります。最近流行りのQ&AサイトにはQuoraなどがあります。群衆の知恵+Google検索により多くの問題を解決出来るので大変素晴らし方式なのですが、体系的な知識をつけるには(100%じゃやないけど)向かない方式だといえます。。

他にも色々あると思いますが、ぱっと思い浮かんだのが上記の3方式です。

今年(2012年)の熱い状況

1)新年早々、スタートアップである、Codecademyがオンライン学習サイトを開始。現在はJavaScriptのクラスを週1回のペースで提供。何が凄いって?新年早々、40万人がサインアップして、JavaScriptの学習を開始。しかし、実際に勉強している人の数はかなり少ないとは思います。立ち上げたばかりのプログラミング学習サイトに40万人集めるのも凄いのですが、40万人もの人がJavaScriptを学ぼうと思った所がもっと凄い!。特徴として、課題などを終わらせる事に、バッジなどがもらえ、ゲーム感覚でプログラミング言語を学べる。現在はJavaScript入門的なコースなのですが、内容もしっかりしていて、学べるサイトだと感じています。

2)先週コースの第一週目が始まったのが、Stanfordの有名教授が始めたUdacity。ロボティクスのクラスを担当しているセバスチャンは本当に有名な大学教授らしいです。内容としては、大学と同クオリティーの授業をインターネットで提供。現在は2つのコースを提供しています。一つは、コンピューターサイエンス入門、入門ながら最終的には、検索エンジンを作ってしまおうという超野心的なコース。GoogleのFounderも紹介ビデオに出てきます。もう一つは、自動運転自動車のプログラミングコース(ロボティクス入門)。ロボット・人工知能の基礎が学べてしまいます。コンピューターサイエンス入門にはCS101の番号が付いていて、101の番号が付くものはアメリカでは、入門クラスという意味なのですが、Pythonをアカデミックな観点から勉強でき、かなり為になります。ロボティクスクラスはCS373と番号が付くだけに、コンピューターサイエンスの中ではアドバンス(ハイレベル)なクラスなのですが、ロボット(AI・人工知能)の基礎は統計(特に確率)で、基礎をしっかり学べます。いつかロボット作ってみたいなどの夢を持てるコースです。

3)まだ始まっていないのです(何らかの理由で延期)が、Stanfordも無料オンラインコースをはじめるようです。NLPのクラスに大変興味ありです。コンピュータサイエンス以外のコースもいくつかあります。リンク先の一番したに提供予定のコースリストがあります。コンピューターサイエンス以外のコースもあり。

4)正直リサーチ不足なのですが紹介しておきたいのがKhan Academy。jQueryの作者であるJohn ResigがKhan Academyの為に働き始めたりして自分のレーダーに引っかかり始めました。Khan Academyはコンピューターサイエンス以外のコースも多く提供しています。

5)上記4つとは少し違うのですが、tuts+のコースがプラクティカルでオススメ。自分が勉強しているのはjQueryの30日コース、毎日10分から30分程のビデオがアップされ毎日少しづつ学ぶ事ができます。仕事でjQueryを使っているのですが、体系的に学んだ事がなかったので、大変助かっています。一日分が短いため、継続できるのが凄く良い。内容もかなり良い。オススメ。チュートリアルなどWeb関連はかなり充実しています。

他にも色々あるとは思いますが、上記5つが自分のレーダーに入っています。よく見れば皆コンピユーターサイエンス関連ですね。他の分野も、オンライン化されているのでしょうか?

ちなみに自分の中では、オンライン学習ブームで家に帰って来ると上記のサイトにアクセスしてばかりいます。その他にもやらなきゃいけない事が多くあるのに。自分の中のこのブームが習慣になるように心掛けたいと思います。

1 ÷ 998001 = 興味深い結果

知っている方もいるかもしれませんが、ウエブで面白い数学のFactを見つけたので紹介したいと思います。

↓元ネタ
http://www.iheartchaos.com/post/16393143676/fun-with-math-dividing-one-by-998001-yields-a

1を998001で割ると小数点以下が000、001、002、003、004,005、006、007、008、009、010、011、012、013、014、015、016、017、018、019、020、021、022、023、024、025、026、027、028、029、…、999と並ぶのです。

1/998001 = 0.000001002003004005006007008009010011012013014015016017018019020
0210220230240250260270280290300310320330340350360370380390400410420430440450
4604704804905005105205305405505605705805906006106206306406506606706806907007
1072073074075076077078079080081082083084085086087088089090091092093094095096
0970980991001011021031041051061071081091101111121131141151161171181191201211
2212312412512612712812913013113213313413513613713813914014114214314414514614
7148149150151152153154155156157158159160161162163164165166167168169170171172
1731741751761771781791801811821831841851861871881891901911921931941951961971
9819920020120220320420520620720820921021121221321421521621721821922022122222
3224225226227228229230231232233234235236237238239240241242243244245246247248
2492502512522532542552562572582592602612622632642652662672682692702712722732
7427527627727827928028128228328428528628728828929029129229329429529629729829
9300301302303304305306307308309310311312313314315316317318319320321322323324
3253263273283293303313323333343353363373383393403413423433443453463473483493
5035135235335435535635735835936036136236336436536636736836937037137237337437
5376377378379380381382383384385386387388389390391392393394395396397398399400
4014024034044054064074084094104114124134144154164174184194204214224234244254
2642742842943043143243343443543643743843944044144244344444544644744844945045
1452453454455456457458459460461462463464465466467468469470471472473474475476
4774784794804814824834844854864874884894904914924934944954964974984995005015
0250350450550650750850951051151251351451551651751851952052152252352452552652
7528529530531532533534535536537538539540541542543544545546547548549550551552
5535545555565575585595605615625635645655665675685695705715725735745755765775
7857958058158258358458558658758858959059159259359459559659759859960060160260
3604605606607608609610611612613614615616617618619620621622623624625626627628
6296306316326336346356366376386396406416426436446456466476486496506516526536
5465565665765865966066166266366466566666766866967067167267367467567667767867
9680681682683684685686687688689690691692693694695696697698699700701702703704
7057067077087097107117127137147157167177187197207217227237247257267277287297
3073173273373473573673773873974074174274374474574674774874975075175275375475
5756757758759760761762763764765766767768769770771772773774775776777778779780
7817827837847857867877887897907917927937947957967977987998008018028038048058
0680780880981081181281381481581681781881982082182282382482582682782882983083
1832833834835836837838839840841842843844845846847848849850851852853854855856
8578588598608618628638648658668678688698708718728738748758768778788798808818
8288388488588688788888989089189289389489589689789889990090190290390490590690
7908909910911912913914915916917918919920921922923924925926927928929930931932
9339349359369379389399409419429439449459469479489499509519529539549559569579
5895996096196296396496596696796896997097197297397497597697797897998098198298
3984985986987988989990991992993994995996997999 ...

どこで働きたい?自分の会社(21%)

Techcrunchに、「スタートアップで働くなら、どこで働きたい?(The Startup You Want To Work At The Most Is Your Own)」という記事がアップされていました。このウエブベースの調査が記事になった時点で約5千人程、現在は6千人強が調査に参加しています。その内、約21%(現在は約23%)が自分のスタートアップで働きたいと答えています。この質問の仕方だったらメジャーなスタートアップが人気なんだろうなと思って結果を見たので、この結果に嬉しい驚きと、みんな起業家精神旺盛だなーという感想を持ち、ポジティブな気持ちにさせてもらいました。Go Enterpluners!! 二番目に人気なMilkと言うスタートアップ、調べてみたらKevin Ross(Diggのファウンダー)のステルスモードのスタートアップだそうです。これは、Kevin Ross効果というのがあって、彼が”Vote us up! http://t.co/3TxuVnj”とつぶやいた効果だそうです。ちなみにKevinには126万のフォロアーがいる。すごい。サンプル(調査に参加した人)に、偏りはあると思うし、フェースブックなどがスタートアップであるか疑問であるが、なかなか面白い調査結果でした。

実際のPollが行われているサイト =>
GoPollGo (If you could work for a startup, any startup, which one would it be?)

Phil Libin (Evernote CEO)のお話

一昨日、7月15日(金)のお話。今の上司が、スタンフォード大学で夏の間、週に一度教えていて、今週はEvernote(日本でかなり人気?)のCEOとNetflixのArchitectが、ゲストでトークしに来るから聞きに来ればと誘ってくれたので、金曜日の午後スタンフォードに行って来ました。EvernoteのCEOである、Philの話が興味深かったので、忘れないように、ここに書いておこうと思います。

いきなりPhilが話しだした事は、「起業家は大変だからやめとけ、殆ど成功しないし。自分はたまたま3つ目の会社(Evernote)が当たっただけ。」と言い始めたのです。技術系のクラスなのに、起業の話だし、「やめとけ」ってなによ?この後どう話が展開するのか興味が湧く。

次のスライで、Philは「起業したいだったら、世界を変えたいやつだけ起業しろ」と、「世界を変える」は言い換えると「Save Humanity(人間性を守る)」と言う事だと言っていました。

現在の環境は下記の5つの点で昔とは違うから、起業するには好条件がそろっている。

  • App Store (アップルのAppストアーなど、ディストリビューションの環境?)
  • Cloud Services (AmazonのEC2などの環境)
  • Open Source Infrastructure (MySQLなどのオープンソース)
  • Social Media (Twitterなどのメディア)
  • Freemium Economics (フリー経済)

これは、「Geek Meritocracy!」だと、日本語に直訳すると「ギーク能力主義社会」。勝手に意訳すると、「ギークが活躍できる社会」だと。

ビジネスの観点でも世の中は進化している:

  • 産業時代は、価値は時間と共に減って行く。
  • 情報時代は、価値は時間に関係なく変わらない。
  • クラウド時代は、価値は時間と共に上昇する。

上記の事をEvernoteのデータを使用し、説明してくれました。

  • Evernoteのベータ版を立ち上げた最初の1ヶ月に加入したユーザーは、最初の2ヶ月間でかなり減り、50%のユーザーが残ったそうです。しかし、そこで残った50%のユーザーは過去3年間使い続けているそうです。(フラット)価値が時間と共に変わらない話にリンクしているのだと思う。
  • 3年前に、Premium(有料)サービスを始めたが最初は、上記の最初の1ヶ月に加入したユーザーの内、1%がフリー版から有料版に以降してくれた。最初の1ヶ月に加入してくれた方からの売上は月$700(月6万円位)。しかし、過去3年間で、有料版に切り替えてくれた人が増え、最初の一ヶ月に加入したユーザーの23%が今では有料版を利用してくれている。その方々からの売上が月$10,000(月80万円)になったそうです。価値が時間と共に上昇する話にリンク。

毎月新規のユーザーが過去3年間加入してくれていて、最初の2ヶ月を経つと常連ユーザーとなり、その内の多くのユーザーが無料版から、有料版に切り替えてくれつづけていると。これが「Freemium Economics」だと。

その他には、Evernoteは自前でホスティングしているそうです。その方がEvernoteにとってはコストパフォーマンスが良いので。ウエブバージョンより、ネイティブアプリに力を入れているそうです。

上手く行かなかったら辞めるという選択肢

Off | 書評:「グローバルキャリア:ユニークな自分の見つけ方」を読みました。読んでいて昔を思い出したので、久しぶりのブログを書いてみようと思います。リンクしたブログの中に下記の一節を見つけました。

で、家庭教師などしながら7年フリーター的通訳・翻訳業を続け、バージニアにMBA留学、さらにハーバードの博士課程へ、と。博士課程進学時は、就職とハーバード行きを迷っていた石倉さんに、バージニアの教授が

「ボストンはいい所だから、気に入らなかったらやめればよい」

と。

ああ、これ、殺し文句なんですよねぇ。

「やってみて、いやだったらやめる」

これ、大事。

13年前にアメリカに行ける可能性が出来た時、友人の何人かに相談してみました。後で考えると、相談相手がなんと言をうと、アメリカに行ったと思うが。殆どの友人が、会社からの長期出張(3年間位)や、留学という形ではなかったので、「信頼できるか分からない環境(情報があまりなかったので)に行くのはやめた方が良いよ」とアドバイスをくれた。一人だけ、「上手く行かなかったら、3ヶ月間位英語学校でも行って、帰ってくれば」と言ってくれた。一人でも賛成してくれて嬉しかったのを思い出す。上手く行かなかったら辞めるという選択肢を選択しても、それ程カッコ悪く無いようにも思えて助かったようにも思う。

今日は7月16日なのですが、11日程前にアメリカに来てから13年経っていました。

叶うという字は十回口にすると書く

lalhaさんのtweetより

(2) エベレスト無酸素単独登頂の栗城さんの話。全般的にとても印象的だったけど、「夢はとにかく口にすること。叶うという字は十回口にすると書く。毎日10回口にしていれば応援してくれる仲間も現れる。失敗することを恐れて行動しないよりも口に出していったほうがいい」という話。

今日、lalhaさんのつぶやきに、「叶うという字は十回口にすると書く」と書かれていた。僕にも人生に一度はチャレンジしたい事がある。彼のつぶやきを読んでいたら、まずは声に出すところから始めようという気になった。実際に10回声に出してみたので、10回文字にしてみようと思う。

起業する。 x10

ゴールに辿り着くための、中長期的なプランは現在描けていないが、一ヶ月程度の短期的なプランを下記に。

7月31日までに、ウエブサービスの初期バージョンを起ち上げる。(基本的な機能のみ)

アイデアは盗まれないそうなので(アイデアと遂行はどちらが大事か)、下記にアイデアも晒します。

まずは一ヶ月間、1日10回声に出すところから始めます。

カテゴリー別、1日の時間の使い方

人が一日の時間をどのように使っているのかのグラフをカテゴリー別に表示してくれます。眺めてると結構おもしろいです。

自分はあまりテレビと映画を見ないので、結構みんなテレビと映画に時間を割いているの驚き。これだけ割いていたら、でかいスクリーンのTVを買うのも頷ける。

How Different Groups Spend Their Day