Pandas から
コネクタと組み合わせることで、Pandas を使用してHDFS データを含むデータフレームを生成できます。 作成したデーフレームは、他のさまざまなPython パッケージに渡すことができます。
接続
Pandas はSQLAlchemy エンジンに依存してクエリを実行します。Pandas を使用する前に、インポートする必要があります。import pandas as pd from sqlalchemy import create_engine engine = create_engine("hdfs:///?Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;")
データのクエリ
Pandas では、SELECT クエリはread_sql() メソッド呼び出しで、関連する接続オブジェクトと共に提供されます。Pandas はその接続上でクエリを実行し、さまざまな目的で使用されるデータフレームの形式で結果を返します。df = pd.read_sql(""" SELECT FileId, ChildrenNum, $exNumericCol; FROM Files;""", engine) print(df)