第2回 超簡単! データクレンジング

取得と変換=Power Query

多彩なデータ処理が手軽にできるPower Query。

まだ体験されたことのない方は、ぜひ一度試してほしいと思います。

対応するExcelに関しての記事は、こちらをご参照ください。

Excel では[データ]タブをクリックし[データの取得と変換]グループの[データの取得]アイコンをクリックすることで [Power Query エディター]を起動することが可能となります(図表1)。

図表1 データの取得と変換

データの取得から読込まで、

一連の流れを動画で確認!

動画1 基礎(取得、空のクエリ、読込、名前の変更)

データは読み込まず、まずは変換

経理や財務、経営企画や総務などのデータ処理・分析の仕事を想定した場合、現在開いているExcelブックのワークシートから対象となるデータ範囲を選択し[テーブルまたは範囲から]コマンドをクリックすることで、Power Queryエディターにデータを読み込むことができます。

テキストファイルの場合は[テキストまたはCSVから]をクリックします。

この他、WEBをはじめとする様々なデータを Power Query エディターに読み込むことができますので色々試してみてください。

データをPower Queryエディターに取り込みプレビュー画面で問題がなさそうであれば、通常は[データの変換]をクリックします。

ここで[読み込み]をクリックしたいところですが、データをPower Queryに読み込んだ後でデータ分析できるようにデータを整理する、いわゆる“データクレンジング”を行う必要があることを考えると

[読み込み]をクリックせず、[データの変換]をクリックする方が実務的です。

[データの変換]をクリックすると、Power Queryエディターが現れます(図表2)。

図表2 Power Queryエディターと適用したステップ

大抵のデータクレンジングは可能!

Power Queryエディターを使えば大半のデータクレンジングが可能です(図表3)。

図表3 Power Queryの様々な機能

要な[列の削除][行の削除]も簡単です。

ちなみに、不要なデータを削除するとデータを軽くでき、データ処理時間を節約できます。ビッグデータを扱う際、不要なデータを削除し、必要なデータのみを分析対象にするというのはデータ分析で大切な視点の一つです。

一方、必要に応じて既存データから必要な列を追加することも[列の追加]で簡単にできます。

「列の追加」は、こんな感じ!

色々できて、便利!

動画2 列の追加

他にもたくさんのデータクレンジング機能がPower Queryに備わっています。

Null値と呼ばれるデータの欠損値がある場合[フィル]という機能を使えば簡単にデータを補正できます。

住所を都道府県名と市町村名に分けたければ[列の分割]を使えば一発です。

追加したデータ処理過程は[適用したステップ]に自動的に表示されます。

どんなデータ処理をしたのか確認したければ[適用したステップ]を確認してみてください。

元のデータはそのままに、データ処理過程を明示できるこうした機能は従来のExcelにはない斬新な機能です。

データの収集・整理(俗にいう、データクレンジング)後、[Power Query エディター]の[ホーム]タブにある[閉じる]グループの中の[閉じて読み込む]または[閉じて次に読み込む]を選択します。

4つの方法でExcelに読み込む

[閉じて読み込む]を選択した場合、Power QueryのデータがExcelのワークシートに読み込まれます。

一方、[閉じて次に読み込む]を選択すると、Excelのワークシートにテーブルとしてデータを読み込む方法のほかに全部で四つの方法により Power Query で作成したデータをExcelに読み込むことができます(図表4)。

図表4 データのインポート

データ分析という仕事の半分はデータクレンジングにある、ともいわれます。Power Queryでスマートにデータクレンジングして欲しいと思います。

今回のポイント

・Power Queryはデータクレンジングが簡単。しかも、元のデータをそのままに、データ処理過程を[適用したステップ]に明示できる。

・Power Queryの起動は[データの取得と変換]から行う。

・Power Queryエディターでデータ処理後、データインポートする方法は4つ。Excel上に明示する必要がなければ[接続の作成のみ]とすればよい。

【ワンポイント】 適用したステップ

Power Queryでは、[適用したステップ]にデータの加工や変換の処理が記録され、どのようなデータ処理をしているかがわかります。

各ステップに任意の名称を付すこともでき、誰にでもわかりやすくデータ処理ステップを伝えることができるので、Excelにありがちな「何のためのデータ処理なのか?」ということが起こりにくくなるのが、Power Queryのメリットでもあります。

処理内容を確認したければ、該当する[適用したステップ]の項目を選択すれば、どのような処理をしたステップなのかプレビューデータで確認できます。

「このステップを前に持って行ったほうが良いかも…」など、記録されたステップの削除や追加なども可能です。データ処理の過程で期待する結果が得られない場合、データ処理を比較的簡単に見直せるのがPower Queryの便利なところです。

[適用したステップ]は常に同じ処理を実施することになるので、定型業務に最適です。

月次更新される財務データを用いて変動費と固定費に分けて損益分岐点分析を行うなどの場合は、分析元となる月次財務データを差し替えれば良いだけです。

いちいち最初からExcelでセルに数式を入れたりする必要もなく、差し替え用のデータを用意すればデータの集計や分析を自動更新できる、というのは大変便利な機能だと思います。

モダンExcel研究所

フォローお待ちしてます!

error: Content is protected !!