【基幹寄り企業向け】Azure Synapseで実現する会計・販売・在庫データ統合分析基盤の設計と活用

基幹寄り企業が直面するデータ分断の課題をAzure Synapseで解決。会計・販売・在庫データを統合し、意思決定を加速する分析基盤の設計と活用法を解説します。

この記事をシェア:
目次 クリックで開く

多くの企業において、経営判断の生命線である「データ」は、オンプレミスの基幹システム、各部門のSQL Server、そして分散するSaaSの中に孤立しています。いわゆる「データサイロ」の状態です。販売データは営業部、在庫データは物流部、会計データは経理部がそれぞれの形式で保持しており、それらを横断して「製品別の貢献利益」や「需要予測に基づいた適正在庫量」をリアルタイムに把握することは、従来の技術スタックでは極めて困難でした。

本ガイドでは、Microsoft Azureが提供する統合分析サービスAzure Synapse Analyticsを活用し、これら膨大な基幹データを一元管理する「統合分析基盤」の構築手法を詳説します。単なるツール導入に留まらず、データレイクハウス構造の設計、ETL(抽出・変換・書き込み)パイプラインの構築、マスタ名寄せの実務、さらには運用後のトラブルシューティングまで、15,000文字規模の圧倒的な情報密度で網羅します。

1. Azure Synapse Analyticsが基幹データ統合に選ばれる理由

Azure Synapse Analytics(以下、Synapse)は、エンタープライズ・データウェアハウス(EDW)とビッグデータ分析を一つの環境に統合したプラットフォームです。なぜ、AWS GlueやGoogle BigQuery、Snowflakeといった並み居る競合の中で、基幹システムを有する企業がSynapseを選ぶのか。その理由は「エコシステム」と「ハイブリッドクラウド対応力」にあります。

1-1. 基幹システム(SQL Server / SAP / Oracle)との親和性

国内企業の多くが利用しているSQL Serverとの高い親和性は、移行コストと学習コストを劇的に下げます。また、SAPなどのERPパッケージからのデータ抽出においても、専用のコネクタやCDC(Change Data Capture)機能が充実しており、安全かつ確実にデータを同期できます。

1-2. サーバーレスとプロビジョニングの共存

Synapseは、あらかじめリソースを確保して安定したパフォーマンスを出す「専用SQLプール」と、クエリごとに課金される「サーバーレスSQLプール」を使い分けられます。これにより、日次の決算集計のような「重く、定期的」な処理と、突発的なアドホック分析のコスト最適化を両立させることが可能です。

1-3. セキュリティとガバナンス

基幹データを扱う上で、セキュリティは最優先事項です。Azure Active Directory(現Microsoft Entra ID)による統合認証、仮想ネットワーク(VNet)による閉域網接続、行・列レベルのセキュリティ(RLS/CLS)など、エンタープライズレベルの要求に応える機能が標準搭載されています。

表1:Azure Synapse Analyticsの主要コンポーネントと役割
コンポーネント 役割・特徴 主なユースケース
Synapse Pipelines データ統合・ETL(旧Data Factory機能) オンプレミスDBやSaaSからの定期データ抽出
Synapse SQL (専用) 高性能な分散データウェアハウス 数億件規模の履歴データに対する定型レポーティング
Synapse SQL (サーバーレス) データレイク上のファイルにSQLを実行 CSV/Parquetファイルのクイックな探索・分析
Synapse Spark Apache Sparkによる分散処理 機械学習、高度なクレンジング、在庫需要予測
Synapse Link DBからのほぼリアルタイムなデータ同期 Cosmos DBやDataverseのデータをETLなしで分析

出典:Azure Synapse Analytics とは — https://learn.microsoft.com/ja-jp/azure/synapse-analytics/overview-what-is

2. 統合基盤の根幹を成す「データレイクハウス」の設計指針

基幹データの統合において、かつての「単一の巨大なDWHに全てを入れる」手法は、柔軟性の欠如から失敗するケースが増えています。現在は、データレイクの柔軟性とDWHのガバナンスを両立させたレイクハウス(Lakehouse)構造が主流です。

2-1. メダリオン・アーキテクチャ(Bronze/Silver/Gold)の適用

Synapse上では、Azure Data Lake Storage Gen2(ADLS Gen2)をストレージとし、以下の3段階でデータを洗練させていきます。

Bronze(Raw)レイヤー:生データの「防波堤」

ソースシステム(基幹DB、SaaS)から抽出したデータを「そのまま」保存します。ファイル形式はCSVやJSON、バイナリ等、ソースに準じます。

  • 原則: 削除フラグが立ったデータも物理削除せず、スナップショットとして残す。
  • 責務: データの永続化。何らかの理由で後続の処理が失敗しても、ここから再開(リプレイ)可能にする。

Silver(Cleansed/Enriched)レイヤー:標準化の「工場」

Bronzeのデータを、分析に適した列指向形式(ParquetやDelta Lake)に変換し、クレンジングを施します。

  • 処理内容: データ型の変換(文字列→日付型等)、NULL値の補完、文字化け(Shift-JISからUTF-8への変換)の解消。
  • 責務: 会計データと販売データを「突き合わせられる状態」にする。

Gold(Curated)レイヤー:価値創出の「ショールーム」

ビジネスルールに基づき、高度な集計や計算を適用したデータセットです。Power BIや機械学習モデルが直接参照します。

  • 処理内容: 部署別利益率、在庫回転率、ABC分析用スコアリング。
  • 責務: 経営判断に必要なKPIの提供。

2-2. データの鮮度管理と取り込みサイクルの最適化

全てのデータをリアルタイム化すると、クラウドコストが跳ね上がるだけでなく、基幹DBへの負荷も無視できなくなります。業務の性質に応じた「鮮度の仕分け」が必要です。

表2:データ種別ごとの推奨更新頻度と優先順位
データ種別 更新頻度(推奨) ビジネス上の理由 優先順位
販売・受注データ 1時間ごと(準リアルタイム) 当日の売上着地予測、営業現場の進捗管理のため
在庫・物流データ 3〜6時間ごと 欠品リスクの早期検知、出荷指示の最適化のため
会計・仕訳データ 1日1回(夜間バッチ) 前日の確定値に基づき月次着地を可視化するため
マスタデータ(顧客・商品) 1日1回 or 随時 分析時の名寄せ、属性変更の反映のため

関連記事:高額なCDPは不要?BigQuery・dbt・リバースETLで構築する「モダンデータスタック」ツール選定と公式事例

3. 【実務ステップ】データパイプライン構築とETL実装の全手順

ここでは、Synapse Pipelinesを使用して、実際にオンプレミスの基幹DBからAzureへデータを吸い上げる実務的なフローを10のステップで解説します。

Step 1:Self-hosted Integration Runtime (SHIR) の構築

オンプレミスのSQL ServerやOracleとAzureを安全に接続するため、社内ネットワーク内のWindowsサーバーにSHIRをインストールします。これにより、インバウンドのポートを開放することなく、アウトバンド(443)経由で安全にデータを転送できます。

Step 2:Linked Service(接続情報)の設定

Synapseからソースシステム(基幹DB)およびシンク(ADLS Gen2)への接続情報を定義します。パスワードや接続文字列は、セキュリティ上Azure Key Vaultに格納し、Synapseからシークレットとして参照するのが鉄則です。

Step 3:データセットの定義

抽出対象のテーブルや、保存先となるフォルダ構造を定義します。フォルダパスには yyyy/mm/dd などのパーティションを設けることで、後続の検索効率を高めます。

Step 4:Watermark(基準点)テーブルの作成

差分抽出を実現するため、最後に抽出したレコードの「更新日時」を記録する管理テーブルをDB内に作成します。

Step 5:Copy Activity(抽出)の実装

「Watermarkより大きい更新日時を持つレコードのみを抽出する」SQLクエリをCopy Activityに設定します。

Step 6:Mapping Data Flowによる型変換とクレンジング

GUIベースの変換ツール「Mapping Data Flow」を用い、データのクレンジングを行います。ここで、在庫データなどに「UPSERT」ロジック(存在すれば更新、なければ挿入)を組み込み、冪等性(べきとうせい:何度実行しても同じ結果になる性質)を担保します。

Step 7:会計データの遡及修正(取り消し・再発行)への対応

会計データ特有の「過去日付の仕訳修正」に対応するため、特定期間のデータを洗い替える(Delete & Insert)ロジックをパイプラインに組み込みます。

Step 8:監査ログと例外処理(Error Handling)の追加

処理に失敗した際、システム担当者にメールやTeams通知を送るロジックを実装します。Synapseの「Until失敗」条件を使用し、一時的なネットワークエラーに対する自動リトライ(3回程度)を設定します。

Step 9:トリガー(スケジュール)の設定

前述の頻度に基づき、スケジュールトリガーを設定します。また、先行するジョブが完了したことをトリガーにする「依存関係トリガー」も活用します。

Step 10:CI/CDパイプラインへの組み込み

作成したパイプラインをGit(Azure DevOpsやGitHub)で管理し、開発環境から検証・本番環境へ安全にデプロイできる体制を整えます。

出典:Azure Data Factory または Azure Synapse Analytics のパイプラインを監視、管理、および運用する — https://learn.microsoft.com/ja-jp/azure/data-factory/monitor-operating-guidelines

4. 基幹システム特有の「異常系」シナリオと回避策

システム構築において最も時間と労力を割くべきは、正常に動くことではなく、異常が起きたときにどう動くかです。基幹データ統合で必ず遭遇する4つのシナリオを挙げます。

4-1. 在庫データの「時点」不整合と二重計上

在庫データは変動が激しく、抽出中に在庫数が更新される「ダーティリード」が発生しやすい項目です。

  • リスク: 抽出が長時間に及ぶと、合計値が理論在庫と合わなくなる。
  • 回避策: ソースDB側でスナップショット分離レベルを使用するか、Synapse側で「Staging Copy」を有効にし、一旦静止点を作ってから転送します。

4-2. スキーマドリフト(テーブル構造の突発的変更)

基幹システムの改修により、DBに突然新しい列が追加されたり、既存の列の型が変わったりすることがあります。

  • リスク: ETLパイプラインが「列の不一致」で停止し、翌朝のBIレポートが更新されない。
  • 回避策: Synapseの「Allow Schema Drift」機能を有効化。予期せぬ列の追加を自動で許容し、レイク層まで流し込む設計にします。

4-3. APIスロットリング(SaaS連携の壁)

Salesforceやfreee、楽楽精算などのSaaSからデータを取得する際、短時間にAPIを叩きすぎるとアクセスが遮断されます。

  • リスク: 429 Too Many Requestsエラーによる停止。
  • 回避策: Synapse Pipelinesの「並列コピー数」を制限(最大5程度)し、再試行間隔を「指数バックオフ(30秒→60秒→120秒)」で設定します。

4-4. 会計仕訳の「逆仕訳」と「修正仕訳」

一度確定した売上が取り消された際、基幹DB上では「元の行を削除」せず「反対の仕訳を入れる」のが会計のルールです。

  • リスク: 単純な差分抽出では、取り消された事実を反映できず、BI上の売上が過大計上される。
  • 回避策: 伝票番号をキーとしたマージ処理を行うか、過去一週間分などの一定期間を常にフルリロード対象とする「スライディングウィンドウ方式」を採用します。

関連記事:【完全版・第4回】freee会計の「月次業務」フェーズ。給与連携・月次締めを爆速化し、決算の精度を高める手順

5. 実践事例:アサヒグループHDのデータ統合基盤

Azure Synapseを活用した大規模な成功事例として、アサヒグループホールディングスが挙げられます。同社は、世界各地に分散していた拠点の基幹データをSynapse上に統合しました。

  • 導入前の課題: グローバル全体での売上・コスト・在庫の可視化に数週間を要し、機動的な意思決定が困難。
  • 構築のポイント: 多種多様なERPからデータを集約し、Synapse Sparkを活用して高度なデータクレンジングを実施。
  • 導入後の変化: データの可視化スピードが劇的に向上。単なるレポーティングだけでなく、機械学習を用いた需要予測や物流最適化にもデータを活用。

出典:アサヒグループホールディングス:Azure Synapse Analytics で世界中の拠点から集まるデータを統合。真のデータ駆動型経営へ。 — https://customers.microsoft.com/ja-jp/story/1388655655768392100-asahi-group-holdings-consumer-goods-azure-ja-japan

6. 成功を左右する「名寄せ」とマスターデータ管理(MDM)

どんなに優れたパイプラインを作っても、データの「中身」がバラバラでは意味をなしません。例えば、販売システムの「株式会社A」と会計システムの「㈱A」を同一とみなす必要があります。

6-1. 法人番号を核とした自動名寄せロジック

最も確実なのは、国税庁が公表している「法人番号(13桁)」を共通キーとして各システムに持たせることです。

  1. データ抽出: 各システムの取引先マスタを抽出。
  2. 正規化: 全角・半角の統一、空白の除去、ビル名の分離処理。
  3. 法人番号紐付け: 法人名と住所から法人番号を推定、または既存の保持データと突合。
  4. 変換テーブル作成: 「システムAのID:101 = システムBのID:205」といった変換用のマッピングテーブルをSynapse内に構築。

6-2. 曖昧一致(Fuzzy Matching)の活用

法人番号が取得できないケースでは、Synapse Spark上で「ジャロ・ウィンクラー距離」などのアルゴリズムを用い、名称の類似度をスコアリングします。

  • スコア 0.95以上: 自動統合。
  • スコア 0.8〜0.94: 「同一の可能性あり」として人間がチェックするUI(Power Apps等)に飛ばす。
  • スコア 0.8未満: 別名義として処理。

関連記事:WebトラッキングとID連携の実践ガイド。ITP対策・LINEログインを用いたセキュアな名寄せアーキテクチャ

7. データ統合基盤のコスト管理とガバナンス設計

Azure Synapseは非常に強力ですが、設計を誤るとクラウド費用が高騰します。特に、基幹データを定常的に回す場合、以下の3点を徹底してください。

7-1. 「ポーズ」と「スケール」の自動化

Synapseの専用SQLプールは、稼働時間に対して課金されます。業務時間外(深夜や土日)に大規模な処理が不要な場合は、一時停止(Pause)させる、あるいはパフォーマンスレベル(DWU)を下げるオートメーションを実装します。

7-2. 列レベル・行レベルセキュリティの徹底

基幹データには、原価情報や従業員の給与、顧客の個人情報が含まれます。

  • 列レベルセキュリティ(CLS): 一般の分析ユーザーには「仕入単価」列を見せない。
  • 行レベルセキュリティ(RLS): 「東京支店」のユーザーには、東京支店のデータのみを閲覧可能にする。

7-3. ライフサイクル管理によるストレージコスト削減

Bronze層に溜まり続ける生データは、1年経過したものをアーカイブ(Azure Blob Storageのアーカイブ層)へ自動移動させ、ストレージコストを90%以上削減します。

表3:主要データ統合プラットフォームの比較(2026年時点)
比較項目 Azure Synapse Snowflake Google BigQuery
得意領域 MS製品連携、統合ETL マルチクラウド、シェアリング 高速クエリ、AI連携
ハイブリッド対応 SHIRによる強力なオンプレ連携 各社クラウドストレージ経由 Dataflow中心のクラウドネイティブ
ライセンス Azureサブスクリプション クレジット事前購入制 スキャン従量制 または 定額
推奨組織 SQL Server / M365利用企業 データ利活用を全社展開する企業 マーケティング、Web系企業

出典:Azure Synapse Analytics の価格 — https://azure.microsoft.com/ja-jp/pricing/details/synapse-analytics/

8. 基幹データ統合に関するよくある質問(FAQ)

Q1:オンプレミスのOracle DBからデータを抜く際、本番環境への負荷が心配です。

A:本番DBへの直接参照は避け、可用性グループの読み取り専用セカンダリを参照するか、Oracle GoldenGate等のCDC連携を用いてログベースで抽出することを推奨します。また、Synapse Pipelinesの抽出スケジュールを業務ピーク時間外に設定するのも有効です。

Q2:ファイル形式はParquetとCSV、どちらが良いですか?

A:分析用のSilver/Gold層では圧倒的にParquetを推奨します。CSVに比べてファイルサイズが小さく、列指向であるためクエリ速度が数倍から数十倍高速になります。Bronze層(生データ)については、ソースから吐き出されるそのままの形式(CSV等)で構いません。

Q3:データが壊れた際、どこまで遡って復旧できますか?

A:ADLS Gen2の「論理的な削除」および「バージョン管理」を有効にしていれば、指定した期間(最大180日程度など設定可能)の状態に戻せます。また、Synapse専用SQLプールは自動で復旧ポイント(スナップショット)を作成しており、過去7日間以内の任意の状態にリストア可能です。

Q4:Azure Data Factory(ADF)とSynapse Pipelinesは何が違うのですか?

A:エンジン自体はほぼ同一です。ADFは「データ統合のみ」の単独サービス、Synapse Pipelinesは「分析基盤の中に組み込まれた統合機能」という位置付けです。新しく分析基盤を作るなら、SQLやSparkと同じ管理画面で扱えるSynapse Pipelinesの方が運用効率が高いです。

Q5:SAPのデータ統合は可能ですか?

A:はい、Synapseには「SAP Table」や「SAP BW」「SAP CDC」などの専用コネクタが用意されています。ただし、SAP側のライセンス条件(サードパーティ製ツールによるデータ抽出の可否)については、必ずベンダーへご確認ください。

Q6:BIツールはPower BI以外でも使えますか?

A:可能です。TableauやLookerなど、主要なBIツールはSynapse用のコネクタを持っています。ただし、Entra IDによるシングルサインオンや、RLS(行レベルセキュリティ)の自動引き継ぎなど、最も親和性が高いのはPower BIです。

Q7:構築にはどの程度の期間が必要ですか?

A:要件定義から1つの主要データの統合(例:販売データのみ)までで、概ね3〜4ヶ月が目安です。そこから会計、在庫と広げていき、全社基盤として完成させるには1年程度のロードマップを組むのが一般的です。

Q8:個人情報保護法(改正法)への対応はどうすればよいですか?

A:Synapse SQLの「Dynamic Data Masking(動的データマスク)」を使用します。これにより、開発者や分析者には「住所」や「メールアドレス」を伏せ字(XXXX-XXXX等)で見せ、特定の権限保持者のみが実データを確認できる運用が可能です。

出典:Microsoft が提供するコンプライアンス オファリング — https://learn.microsoft.com/ja-jp/azure/compliance/

9. まとめ:データサイロを解体し、意思決定の速度を上げる

Azure Synapse Analyticsを用いた基幹データ統合は、単なるITプロジェクトではなく、企業の「神経系」を再構築する経営改革です。販売、在庫、会計のデータが一本の線で繋がったとき、初めて「なぜ利益が落ちているのか」「次にどの製品をどこに配備すべきか」という問いに、客観的なエビデンスを持って答えられるようになります。

まずはスモールスタートとして、最も課題の多い「販売データ」の統合から着手することをお勧めします。そこで得た成功体験とデータのクレンジングノウハウを、徐々に会計や在庫、さらには社外のオープンデータへと広げていく。この着実なステップこそが、DX(デジタルトランスフォーメーション)を単なるスローガンで終わらせないための唯一の道です。

関連記事:SaaSコストとオンプレ負債を断つ。バックオフィス&インフラの「標的」と現実的剥がし方(事例付)

参考文献・出典

  1. Azure Synapse Analytics とは — https://learn.microsoft.com/ja-jp/azure/synapse-analytics/overview-what-is
  2. Azure Synapse Analytics の価格 — https://azure.microsoft.com/ja-jp/pricing/details/synapse-analytics/
  3. アサヒグループホールディングス:Azure Synapse Analytics で世界中の拠点から集まるデータを統合。 — https://customers.microsoft.com/ja-jp/story/1388655655768392100-asahi-group-holdings-consumer-goods-azure-ja-japan
  4. Azure Data Factory と Azure Synapse Analytics のパイプラインを監視する — https://learn.microsoft.com/ja-jp/azure/data-factory/monitor-operating-guidelines
  5. 自己ホスト型統合ランタイムを作成して共有する — https://learn.microsoft.com/ja-jp/azure/data-factory/create-self-hosted-integration-runtime
  6. データ レイクハウスのメダリオン アーキテクチャ — https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse/medallion
  7. Azure Synapse Link for SQL の概要 — https://learn.microsoft.com/ja-jp/azure/synapse-analytics/synapse-link/sql-synapse-link-overview
  8. Azure Synapse Analytics のセキュリティ — https://learn.microsoft.com/ja-jp/azure/synapse-analytics/security/white-paper-overview
  9. 国税庁 法人番号公表サイト — https://www.houjin-bangou.nta.go.jp/
  10. 総務省:デジタル・トランスフォーメーションによる経済・社会の変容 — https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r03/html/nd111120.html

10. 導入前に確認すべき「ネットワーク・ガバナンス」チェックリスト

Azure Synapseを用いた基幹データ統合を成功させるには、技術的なパイプライン構築以上に、社内のインフラ部門やセキュリティ部門との合意形成が重要です。実務で特に躓きやすい項目をチェックリストにまとめました。

  • 閉域網接続の要否: 基幹DBがオンプレミスにある場合、Azure ExpressRouteやVPNゲートウェイを介したプライベート接続が必須か、SHIR(Self-hosted Integration Runtime)のアウトバウンド通信のみで許容されるか。
  • Private Linkの設計: SynapseワークスペースやADLS Gen2へのアクセスを、パブリックインターネットから遮断し、VNet内からのアクセスに限定する設計ができているか。
  • 管理操作の権限分離: Synapseの管理者権限(Workspace Admin)と、データの閲覧権限(SQL Admin/Data Accessor)を適切に分離しているか。
  • コストアラートの設定: サーバーレスSQLプールのクエリ実行量や、専用SQLプールのDWU設定ミスによる予算超過を防ぐため、Azure Cost Managementで予算閾値アラートを設定しているか。

【比較】Azure Synapse Analytics と Microsoft Fabric の選択基準

2024年以降、Microsoftは次世代のデータプラットフォームとして「Microsoft Fabric」を展開しています。現在の基幹システム統合において、どちらを選択すべきかの判断基準は以下の通りです。

表4:Azure Synapse と Microsoft Fabric の特性比較
比較項目 Azure Synapse Analytics Microsoft Fabric
主な管理単位 Azureリソース(PaaS) SaaS(Power BIの拡張)
インフラ管理 ネットワーク、スケーリングの詳細設計が必要 インフラ管理の大部分が自動化(抽象化)
データ形式 Parquet, CSV, JSON 等(任意) OneLake(Delta Lake形式に最適化)
推奨されるケース 高度なネットワーク制御や既存PaaS資産を重視 迅速な立ち上げとPower BI親和性を最重視

出典:Microsoft Fabric とは — [https://learn.microsoft.com/ja-jp/microsoft-fabric/overview-what-is-fabric](https://learn.microsoft.com/ja-jp/microsoft-fabric/overview-what-is-fabric)

11. データの「出口」を最大化する設計の重要性

統合されたデータは、分析(BI)だけでなく、他のSaaSや基幹システムへ「書き戻す(リバースETL)」ことで、より大きな業務改善効果を発揮します。例えば、Synapseで算出した「顧客ごとの信用スコア」をCRMに戻す、あるいは「店舗別の適正在庫」を販売システムへフィードバックするといった活用です。

このような全体像を描く際は、【図解】SFA・CRM・MA・Webの違いを解説。高額ツールに依存しない『データ連携の全体設計図』を参考に、各システムの責務を再定義することをお勧めします。また、クラウドネイティブなアプローチを強化したい場合は、モダンデータスタックの選定ガイドも併せてご参照ください。

会計・経理DX

freee・マネーフォワードの導入から、AI仕訳・請求書自動化・銀行連携まで一貫対応。経理工数を大幅に削減し、月次決算を早期化します。

AT
aurant technologies 編集

上場企業からスタートアップまで、数多くのデータ分析基盤構築・AI導入プロジェクトを主導。単なる技術提供にとどまらず、MA/CRM(Salesforce, Hubspot, kintone, LINE)導入によるマーケティング最適化やバックオフィス業務の自動化など、常に「事業数値(売上・利益)」に直結する改善実績多数。

この記事が役に立ったらシェア: