InfoQ: Structure Big DataでのHadoopの未来:DataStax Brisk, EMC, MapR

InfoQは氏にCassandraの成熟について、また、HBaseとの比較について話を聞いた。 特に、Cassandraを作ったFacebookは大規模なメッセージングリアルタイム分析にHBaseを利用している。氏はHadoopは大きなコミュニティを持っているが、HBaseのコミュニティは小さく、そして、Cassandraは大きなコミュニティと勢いを持っていると主張する。DataStaxはバグ修正や未修正バグのバックログ、コミュニティでの議論をマトリクスとして利用し、比較を行っている。過去に起きたCassandraの配置の問題(Diggのような)について尋ねると氏は、"速く成熟"する技術は時期尚早な利用や間違った利用をされる場合があるが、DataStaxはCisco、Rackspace、Constant Contact、Real Networks、Netflixのような広く成功を納めた企業を顧客にしていると答えた。氏はまた、FacebookはHBaseに投資してきたので、CassandraよりもHBaseを使うという決定は実際はたんなる内部決定以上のことだと述べた。氏の考えではストレージの一貫性は単に注目を集めるものにすぎない。というのは、Cassandraは結果整合性をサポートしているし、強い一貫性も実現できるからだ。

Briskはまだ、内部でテストをしている段階だと氏は言う。まだ、ベータ版を利用している顧客もいない。Cassandraの大規模利用について尋ねると、氏が言うには実際に運用している最大の環境は、政府機関によって使われてる700ノードのクラスタだそうだ。トランザクション量からいうと、Twitterは1秒間に200,000回のデータ書き込みを行っている。ストレージでは"数百テラバイト"のデータを保持するクラスタがあるという。

InfoQは氏とリーダエンジニアであるJake Luciani氏にBriskとファイルシステムの実装であるCassandraFSに話を聞いた。現在のHadoop DFS (HDFS)のバージョンとの大きな違いや、HDFSの可能な改善点、CassandraFSの計画は下記の通り。
現在のHDFS HDFSの可能な改善点 CassandraFS
ネームノード(NN)が単一障害点(SPOF) NN SPOFを取り除くためのいくつかの方法を開発中。 CassandraFSはCassandraにデータを保存する。CassandraにはSPOFはない。
ファイルのメタデータは単一のプロセス内のRAMに保持されるので、全体のファイル数は制限される。 連結したHDFSとBookKeeperを使うことでHDFSをスケールする方法を開発中。 CassandraFSは制限のない仮想ファイル環境を提供する。
WANレプリケーションはサポートしない。 WANレプリケーションはサポートしない。 Cassandraは複数のデータセンター間のレプリケーションをサポートする。
Appendをサポート(Hadoop 3のClouderaのディストリビューションとApache Hadoop 0.21) n/a Appendをサポートできるように設計されているが、初回リリースにはサポートされない予定。しかしHDFSのAppendはほとんどHBaseをサポートするために使われてきた。これはBriskが利用している技術とは似ていない。
技術的にはCassandraFSはpathをキーに、inodeをファイルオーナやパーミッション、ブロックのリストなどのメタデータを含むバリューとして扱うテーブルを作成する。そしてこのテーブルがブロックのIDをキーとし、シリアライズされたブロックをバリューとするもうひとつのテーブルを保持する。

Werther氏はBriskは他のHadoopのエコシステムのコードに取り組んでいると言う。Cassandraが生成しなかったログデータを読み込むにはどうすればいいかという質問に対しては、ClouderaのFlumeが使えると答えた。彼らの検証によれば、Briskでも利用できるようだ。また氏はClouderaのHue