「統計検定データサイエンス発展試験」(以下、DS発展と呼称。)は、データ分析に関連する知識に加えて、プログラミング(Python)に関する知識や統計学(統計検定2〜3級)の知識も求められるため、データサイエンスを業務に活用したい方には非常におすすめの資格です。
2021年から開始した新設の資格で注目が集まるものの、公式参考書も過去問もまだ出版されていないため「どのように対策すればよいかわからない」といった方も多いのではないでしょうか。
本記事では現役のデータサイエンティストかつG検定講師に監修いただき、DS発展の難易度・勉強方法を徹底解説していきます。記事の最後にはおすすめの講座・本・学習サイトもご紹介していますので、ぜひ最後までご覧ください。
監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。
統計検定データサイエンス発展の試験概要
統計検定とは?
「統計検定」とは、統計に関する知識や活用力を評価する全国統一試験です。統計検定の各級の分類を行うと、大きく ①数理・統計知識 ②統計調査の知識を身につけるもの ③データサイエンティストとしての分析・実装能力が問われるもの の3つに分類できます。
身に付く知識 | 統計検定の分類 |
---|---|
数理・統計の知識が身につく | 統計検定4級~1級 |
統計調査の知識が身に付く | 統計調査士、専門統計調査士 |
データサイエンスの知識が身につく | データサイエンス基礎・発展・エキスパート |
統計検定には、2021年から新たに「データサイエンス」が設置されており、基礎、発展、エキスパートの3段階で構成されています。
試験名 | 使用ツール | 学べること |
---|---|---|
DS基礎 | Excel | Excelを活用したデータ処理・アナリティクス基礎 |
DS発展 | Python | 数理、計算、統計、倫理に関する大学教養レベルの内容 |
DSエキスパート | Python | 計算、統計、モデリング、領域知識に関する大学専門レベルの内容 |
編集部では初学者向けの資格である「統計検定 データサイエンス基礎」の解説記事も用意しています。興味のある方はぜひこちらの記事もご覧ください。
試験形式・問題
試験はCBT方式で、問題数は30問程度・制限時間は60分です。1問あたり2分つかうことができますが、問題の中には線形代数・微分積分などの計算が必要なものや、Pythonのコードを読み解いた上で解答をする必要があるものもあるため、時間をかけすぎないように注意しましょう。
DS発展の出題範囲・難易度
2024年2月現在、DS発展の過去問・公式の参考書は存在していないため、統計検定公式HPの出題範囲表・サンプル問題などから、読み解いていく必要があります。
編集部独自に出題範囲をグルーピングした表が下記になります。数理統計、プログラミング、ビジネス・倫理など幅広く出題されていることから、所感としては「1人前レベルのデータサイエンティストが求められるスキル全般」が学べる資格と言えるでしょう。
出題分類 | 内容 | 学習すべき用語(一部) |
---|---|---|
①数理・統計知識 | ・線形代数 ・微分積分数列 ・統計法 ・順列と組合せ ・確率分布の概念 ・主要な確率分布 ・統計的モデル ・標本分布 ・点推定 ・仮説検定の考え方 | ・平面ベクトル、空間ベクトル、n 次元ベクトル、ベクトルの和、内積、直交性、ノルム ・正方行列、単位行列、転置行列、対称行列、行列の積、逆行列、行列式 ・線形独立、部分空間・指数関数、対数関数、三角関数 ・積の微分、合成関数の微分、関数の最大最小、線形近似、原始関数、積分と微分の関係 ・偏微分、接平面、重積分、累次積分・数列の和、Σ記号、極限 ・階乗(n!)、順列(mPn)、組合せ(mCn) ・確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立 ・ポアソン分布、指数分布、一様分布、正規分布、2 変量正規分布・統計的モデル、母数、パラメータ ・独立同一分布、標本平均、標本分散 ・モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解 ・帰無仮説、対立仮説、2 種の誤り、有意水準、検出力、p 値、検定統計量 |
②データエンジニアリング | ・デジタル情報とコンピュータの仕組み ・アルゴリズム基礎 ・データ構造とプログラミング基礎 (主に Python) ・データ ハンドリング | ・数と表現(2 進数の表現、論理値) 接頭語(k,M,G,T,m,μ,n,pなど)を使った表現) ・文字の表現(ASCII コード、シングルバイト文字、ダブルバイト文字) ・デジタル化(連続値、離散値)、画像・動画(ラスタデータ、ベクタデータ、コーデック) ・インタープリタ言語(ソースコード、機械語、実行) ・構文(変数、代入、計算、分岐、繰り返し)、演算(オブジェクト、四則演算) ・関数(引数、返り値)、制御文(for, while, if 文)、入出力(print 文) ・部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング(Python、R) |
③時事問題 | ・社会におけるデータ・ AI 利活用 ・データ・AI 利活用における留意事項 ・データリテラシー ・データ取得とオープンデータ | ・ビッグデータ、IoT、AI、ロボット ・Society 5.0、データ駆動型社会 ・複数技術を組み合わせた AI サービス ・調査データ、実験データ、人の行動ログデータ、機械の稼働ログデータ ・データ解析:予測、グルーピング、パターン発見、最適化、シミュレーション・データ同化 ・データ可視化:複合グラフ、2軸グラフ、多次元の可視化、関係性の可視化、地図上の可視化、挙動 ・軌跡の 可視化、リアルタイム可視化 ・特化型 AI と汎用 AI ・認識技術、ルールベース、自動化技術 |
試験には線形代数学・微積分・数列など、統計検定2級~準1級レベルの数学知識が求められます。理系大学で学ぶ応用数学レベルの知識が求められるため、不安な方は数学の学習も並行して行いましょう。
DS発展の出題範囲の数学の学びなおしは下記の本がおすすめです。個人的には石川さんのシリーズの微分積分・線形代数は非常にわかりやすいです。
合格点・合格率
ここからは定量的な難易度を合格点・合格率から見ていきます。
DS発展の合格点は60点以上(100点満点)です。統計検定の合格点は他の級・種別も大体6~7割程度ですので、ここは変わりなさそうです。
合格率・合格者数は非公表ですが、DS発展の出題範囲と類似しているである「統計検定2〜3級」の合格率を参考にすると、合格率は統計検定2級よりもやや高い30~40%程度ではないかと推察しています。
前提として、統計検定は数理・統計知識が大学レベルである2級以上の級では合格率が一気に下がります。DS発展は、2級よりも数理・統計分野の割合が少なく、時事問題やビジネス寄りの知識も相当な割合出題されます。従って、その分試験の難易度は2級よりも低くなると想定しています。
参考:統計検定2級の合格率
試験日 | 合格率(統計検定2級) |
---|---|
2021年6月 | 34.1% |
2020年(試験実施なし) | - |
2019年11月 | 41.7% |
2019年6月 | 45.6% |
DS発展の勉強方法
DS発展は、2021年開始の新設資格のため「過去」に関する情報が少なく、公式問題集なども出版されていないため、傾向と対策を練りにくいことも特徴です。
今回は編集部がGoogle検索でDS発展の合格者体験談をピックアップし、受験対象者の前提知識、学習にかかった勉強時間、勉強につかった手段(本、講座など)を具体的にまとめてみました。
DS発展は合格者の体験談や評判の記事が少なかったですが、いずれも統計検定2級・準1級程度の前提知識をある程度保有しているため、少ない勉強時間での合格をしています。
DS発展の合格者の勉強方法
記事タイトル | 前提知識 | 勉強時間 | 勉強方法 |
---|---|---|---|
統計検定データサイエンス発展 合格体験記 | ・G検定 ・統計検定2級 ・Pythonエンジニア認定基礎試験 | 5時間 | ・出題範囲表のなかでわからない語句をネットで調べる |
統計検定 合格者の声 | 統計検定準1級・1級程度 | ー | ・統計検定1級~準1級の学習 ・日々の業務でプログラミング実務を行う |
これらを鑑みると、どの程度の統計学の事前知識を有しているかにより、合格に必要な勉強時間が大きく異なるといえそうです。
DS発展の出題範囲は広く、項目も多岐にわたるため、ひとつひとつに時間をかけずぎずできる限り出題範囲をグルーピングして勉強していくことが必要です。
そこで編集部は上記の試験範囲のグルーピングと対応するように、①数理・統計知識 ②データエンジニアリング ③時事問題 のそれぞれをどのように対策すればよいかを解説していきます。
勉強方法①:統計学2~3級程度の数理・統計の学習
DS発展の出題範囲を細かく見ていくと、統計検定2〜3級程度の統計学の知識と大学基礎レベルの数学が幅広く出題されることがわかります。
領域 | 大項目 | 小項目 | 学習すべき用語 |
---|---|---|---|
数理基礎 | 数理基礎 | ・線形代数 ・微分積分数列 | ・平面ベクトル、空間ベクトル、n 次元ベクトル、ベクトルの和、内積、直交性、ノルム ・正方行列、単位行列、転置行列、対称行列、行列の積、逆行列、行列式 ・線形独立、部分空間・指数関数、対数関数、三角関数 ・積の微分、合成関数の微分、関数の最大最小、線形近似、原始関数、積分と微分の関係 ・偏微分、接平面、重積分、累次積分・数列の和、Σ記号、極限 |
統計 | ・確率と確率分布 ・統計的推測 | ・統計法 ・順列と組合せ ・確率分布の概念 ・主要な確率分布 ・統計的モデル ・標本分布 ・点推定 ・仮説検定の考え方 | ・階乗(n!)、順列(mPn)、組合せ(mCn) ・確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立 ・ポアソン分布、指数分布、一様分布、正規分布、2 変量正規分布・統計的モデル、母数、パラメータ ・独立同一分布、標本平均、標本分散 ・モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解 ・帰無仮説、対立仮説、2 種の誤り、有意水準、検出力、p 値、検定統計量 |
データサイエンス初学者や統計学・数学に自信のない方には下記の『完全独習 統計学入門』がおすすめです。説明が非常に丁寧で、わかりやすく書かれています。
この本では極力難しい数式を記載せず、なぜそういう式が作られるのか、といった考え方の部分を懇切丁寧に教えてくれます。大事な箇所は何度も繰り返し書かれているので、重要なポイントを何度も学ぶことができます。
勉強方法②:データ分析・プログラミングに関連する学習
次に「倫理・AI」「情報」「可視化」の出題範囲を具体的に見てみましょう。
領域 | 大項目 | 小項目 | 学習すべき用語 |
---|---|---|---|
情報 | ・デジタル情報とコンピュータの仕組み ・アルゴリズム基礎 ・データ構造とプログラミング基礎 (主に Python) ・データ ハンドリング | ・デジタル情報 ・コンピュータの仕組み ・アルゴリズムの表現/構造 ・基本的なアルゴリズムの例 ・データ構造 ・プログラミング基礎 ・データクレンジング ・データ加工 | ・数と表現(2 進数の表現、論理値) 接頭語(k,M,G,T,m,μ,n,pなど)を使った表現) ・文字の表現(ASCII コード、シングルバイト文字、ダブルバイト文字) ・デジタル化(連続値、離散値)、画像・動画(ラスタデータ、ベクタデータ、コーデック) ・インタープリタ言語(ソースコード、機械語、実行) ・構文(変数、代入、計算、分岐、繰り返し)、演算(オブジェクト、四則演算) ・関数(引数、返り値)、制御文(for, while, if 文)、入出力(print 文) ・部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング(Python、R) |
可視化 | ・種々のデータ解析 ・データ活用実践 | ・時系列データ ・解析テキスト解析 ・画像解析 ・教師あり学習 ・教師なし学習 | ・形態素解析、単語分割、ユーザ定義辞書、n-gram、文章間類似度、かな漢字変換の概要 ・教師あり学習による予測 (例: 売上予測、罹患予測、成約予測、離反予測) ・データの収集、加工、分析 ・データ分析結果の共有、課題解決に向けた提案 ・教師なし学習によるグルーピング (例:顧客セグメンテーション、店舗クラスタリング) ・データの収集、加工、分析 ・データ分析結果の共有、課題解決に向けた提案 |
上記の通り、「データ・AIが社会でどのように活用されているのか」「データ分析の手法」「プログラミング」などデータ分析とプログラミングについて幅広く出題されます。
データ分析やプログラミングの学習には下記の『スッキリわかるPython入門』が非常におすすめです。プログラミングの基礎を丹念に解きほぐし、つまずくことなく最後まで読み通せる入門書になっています。
練習問題やよく陥りがちなエラーや落とし穴の対策をまとめた「エラー解決・虎の巻」も収録されているので、DS発展で出題されるPythonコードの書き方についてもしっかり学習することができます。
データ・AIに関する時事問題はG検定・DS検定のテキストから学ぶ!
編集部では時事問題と称していますが、実際は「AI・データサイエンスを活用する際のビジネス寄りの知識」という表現が近いです。社会のなかでAIがどう実装されているかのイメージをつけていくことが大事になります。ある程度実務経験がある方は勉強しやすい領域といえるでしょう。
領域 | 大項目 | 小項目 | 学習すべき用語 |
---|---|---|---|
時事問題 | ・社会におけるデータ・ AI 利活用 ・データ・AI 利活用における留意事項 ・データリテラシー ・データ取得とオープンデータ | ・社会で起きている変化 ・社会で活用されているデータ ・データ・AI の活用領域 ・データ・AI 利活用のための技術 ・データ・AI 利活用の現場 ・データ・AI を扱う/守る上での 留意事項 ・データを読む/説明する/扱う | ・ビッグデータ、IoT、AI、ロボット ・Society 5.0、データ駆動型社会 ・複数技術を組み合わせた AI サービス ・調査データ、実験データ、人の行動ログデータ、機械の稼働ログデータ ・データ解析:予測、グルーピング、パターン発見、最適化、シミュレーション・データ同化 ・データ可視化:複合グラフ、2軸グラフ、多次元の可視化、関係性の可視化、地図上の可視化、挙動 ・軌跡の 可視化、リアルタイム可視化 ・特化型 AI と汎用 AI ・認識技術、ルールベース、自動化技術 |
データ・AIに関する時事問題は、合格者体験談によると出題範囲表と照らし合わせながらわからない単語をネットで検索する学習方法がメインです。
ただしそれだと行き当たりばったりで部分的な学習になってしまう可能性もあるため、語句を網羅的に学習をしたい方はデータサイエンス系の類似資格であるG検定やDS検定のテキストをそちらを活用しましょう。
DS発展対策のおすすめ本3選
ここからは編集部がDS発展対策のおすすめ本をご紹介します。
ただし上述の通り新設の資格であるため、試験範囲となる参考書や公式問題集が存在していません(2022年11月時点)。
【必須】おすすめ本①:基礎から学ぶ統計学
統計学の基礎を学ぶにあたり、編集部が心からおすすめする参考書が「基礎から学ぶ統計学」です。2022年に発売されているのにもかかわらず、Amazonレビューがほかの統計系の書籍と比較しても、ほぼ最高評価(★4.7 *2023年7月時点)です。
著者は北海道大学で20年以上教鞭に立って理系学部2-3年への統計学講義を続けてきた実績があり、カリキュラムは「仮説検定」「相関分析」「単回帰分析」など統計検定2級程度の必須統計知識を非の打ち所がない王道です。
本書の特徴は、①とにかく数学のハードルが低く(高校1-2年程度)、初心者が学習を始めるにあたってのレベルがほどよく、②カラーかつ図でわかりやすく説明していることです。
おすすめ本②:完全独習 統計学入門
「これ以上何かを削ったら、統計学にならない」という、最小限の知識と簡単さで書かれた「超入門書」です。
先ほどもご紹介した通り、統計学について丁寧でわかりやすく書かれているため、データサイエンス初学者には非常におすすめの一冊です。
2部構成になっており、1部では初歩の初歩からスタートしながらも、「検定」や「区間推定」という統計学の最重要のゴールに最短時間で到達することを目指しています。
第2部では、第1部の内容に厚みをつけ、統計学の重要ポイントであるt分布を使った小標本の検定・区間推定に最も効率的にたどりつくことができます。
おすすめ本③:改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎
本書は「大学基礎科目としての統計学の知識と統計的問題解決力を問う」統計検定2級に対応したベストセラー・テキストの改訂版です。
統計学に関する理論だけでなく、データ分析を行う上での重要なポイントや注意点も補足して解説しており、統計学とデータ分析を結びつける考え方も学ぶことができます。
記述統計から推定・検定、線形モデルまで統計解析の基本的な事項を網羅的に解説しており、体系的に統計検定2級の知識を身に付けることができます。
統計学・数学に自信のある方や数式での説明に不安のない方には非常におすすめの一冊です。
おすすめ本④:スッキリわかるPython入門
「スッキリわかるPython入門」では、Python初学者が陥りやすいポイントを踏まえながら着実に基礎を学ぶことができます。
図解や解説文が豊富に含まれているので、初心者にとってわかりにくいと感じるサンプルコードもすんなり理解できるようになっています。
また、本書レビューでも、「プログラミングの初心者がPythonを使ってプログラムの基本的なことを学ぶ為の本」という記載があり、初心者に適した本であることがわかります。Python初学者の方に非常におすすめの一冊といえるでしょう。
DS発展対策のおすすめ講座3選
おすすめ講座①:豊富な演習でゼロから学ぶ統計学入門コース|検定3級レベルの知識をしっかり習得しよう
現役データサイエンティスト兼セミナー講師が作成した「統計学の基礎を俯瞰的に学べる入門講座」です。初めて学ぶ方を対象に、一から必要なことを丁寧に紹介しています。
そのため、統計学の初学者でDS発展の受験を考えている方に非常におすすめの講座です。
5時間・122のレクチャーの動画講座で統計学の基礎知識とデータサイエンスに必要なスキルを身に付けることができます。また、講座の後半には演習問題が多くあり、学んだ知識を問題演習を通じて、定着させることができます。
Udemy Businessにも選出され、世界中の企業から信頼されている高評価の講座に選ばれています。
おすすめ講座②:統計検定®2級対策講座
約9時間の動画レクチャーと200問以上の小テストを通じて統計学の基礎に関する「理解」と「習熟」を目指します。
この講座を受講することで、DS発展の統計学の範囲はすべて網羅することができます。
この講座は、記述統計にはじまり、確率統計、推測統計、仮説検定、線形モデル、という統計学の教科書に準じたオーソドックスな流れでカリキュラムを構成しています。
そのため、統計検定2級の幅広い試験範囲を体系的に学べるようになっています。
おすすめ講座③:データサイエンス|Pythonプログラミング講座 Lv1 ゼロから学ぶ超入門
プログラミング未経験な方、文系出身の方も抵抗なく受講できる内容として設計されており、ゼロからPythonを学び始める方にぴったりな講座です。
Pythonの書き方に加えて、環境設定からプログラミングUIの操作方法に至るまで、Pythonでプログラミングを始めるために必要な要素をすべて学ぶことができます。
さらに、理解するだけでなく定着を図るための演習問題と模擬解答コード、更に講師のサポートをいつでも受けられる質問制度付きオプションもあります。
講義の内容に沿って、サンプルコードを一行ずつ講師と同じ動作で実行していく仕組みで進むため、講義に出ているすべての内容を自ら再現できます。そのため、行き詰まることなく、Pythonを学ぶことができます。
まとめ
今回はDS発展にフォーカスしてご紹介してきました。DS発展の理解は深まったでしょうか。
DS発展は、データ分析に関連する知識に加えて、プログラミング(Python)に関する知識や統計学(統計検定2〜3級)の知識も求められるため、データサイエンスを業務に活用したい方には非常におすすめの資格です。データサイエンスを業務に活用したい方はぜひ受験してみましょう。
「Excel×データ分析」を学ぶことができるDS基礎に興味のある方はぜひこちらの記事もご覧ください。
また、データサイエンスの知識に加えて、プロジェクトマネジメントなどビジネスの知識も学びたいという方には「DS検定」もおすすめです。興味のある方はぜひこちらの記事もご覧ください。