データサイエンスの初学者向けの資格であるデータサイエンティスト検定。
2021年から開始した新設の資格で注目が集まるものの、「どのように対策すればよいか」「本で学ぶ場合、どんな本を選んだ方がよいかわからない」といった方も多いのではないでしょうか?
本記事では現役のデータサイエンティストかつG検定講師に監修いただき、自分に合うDS検定(データサイエンティスト検定)の学習本の選び方と、おすすめ本をご紹介していきます。
Ukatta編集部では他にもおすすめ講座の記事も公開しております。気になる方は下記のリンクからご覧ください。
監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。
DS(データサイエンティスト)検定リテラシーレベルとは?文系でも取得できる?
DS検定とは?
データサイエンティスト(DS検定)は、データサイエンス初学者向けに実務能力と知識を有することを証明する試験です。
データサイエンティスト協会はデータサイエンティストに必要なスキルを、①データサイエンス力、②データエンジニアリング力、③ビジネス力の3つに大別しています。
DS検定を取得することで、3つのスキルに対して、見習いレベルの実務能力や知識、数理統計の知識を有していることを証明できます。
出題範囲・難易度
DS検定の学習カリキュラムは、①スキルチェックリスト ②モデルカリキュラムの大きく2つから構成されています。2つとも一般公開されており、各単元でどのような理解が必要か・どのような難易度かまでしっかりと表にまとめられています。
スキルチェックシートは「データサイエンティスト協会 スキル定義委員会」が定義する、データサイエンティストが求められる知識・スキルをまとめたものです。
この膨大なスキルチェックリストの★がひとつの「アシスタントデータサイエンティスト」レベルに該当するのがDS検定の範囲になります。
モデルカリキュラムは「数理・データサイエンス・AI教育強化拠点コンソーシアム」が、リテラシーとして必要なデータサイエンスのスキルや知識を定義したものです。
どちらも学習範囲は非常に広く、細かい表ですので本記事では深くは説明しませんが、詳細はぜひ下記リンクからご確認ください。
試験形式・問題
試験は選択式で90問、制限時間は90分です。記述や小論文等の問題はないため途中式の解答が必要なく、また問題としても数式を扱って答えを出すような問題は少ないですが、スピーディに回答を作成する必要があります。
基本的には「用語の理解」や「大まかな分析手法の理解」など、数学よりも国語としての理解を問うものが多いため、初心者でも学習しやすい)資格です。
DS(データサイエンティスト)検定の対策本の選び方
次に、DS(データサイエンティスト)検定の対策本を選ぶ際に必ずチェックしておきたい「4つのポイント」をご紹介します。Ukatta編集部では監修者と相談の上、下記の4つの観点で選んでいます。
- 試験範囲を網羅的に学べるか
- サンプル問題の数が豊富か
- 頻出箇所(仮説検定・推論など)を深堀りできるか
- 学習範囲をPythonやSQLなどプログラミングで応用できるか
①試験範囲を網羅的に学ぶなら公式テキスト一冊でOK
AI教育の専門スタートアップの「スキルアップAI」から公式対策本が出版されています。
公式の名前がついている通り、試験範囲の「スキルチェックシート」の各単元に対して1、2ページの解説が書かれており、網羅的に学習することができます。
模擬試験やサンプル問題なども各章末についており、試験の全体像や出題問題のざっくりとしたイメージをつかむには十分でしょう。
②過去問を解く⇔公式書籍のループで対策は可能
データサイエンス検定のありがたいところは、問題集で出ている問題がそのままスキルチェックシートのどこに当たるかがしっかりとわかることです。
過去問を解いて、試験範囲のどこが苦手分野か・どこまで理解できていてどこからは理解できないのかを確かめながら、合格点に近づけていきましょう。
③深堀りしたい箇所は専門書籍でカバー
基本的には上記の2冊でざっくりとした全体像の理解はできますが、公式リファレンスブックは用語の解説がメインとなります。
各単元に対して1-2ページと分量としては多くないため、きちんとした理解のためには難しすぎない専門書籍での学習も必要です。特に配点の多い問題や頻出箇所の分野は深堀りをしておくことがおすすめです。
④Pythonで実践的に学ぶのもアリ
DS検定を受験する方の中には、本格的にRやPythonなどのプログラミング言語を使ったデータ分析をできるようになりたい方もいらっしゃると思います。
微分・積分などの基礎数学・数理統計や、回帰分析など実際にPythonで経験的に学び、より理解を深めたい方には下記の書籍もおすすめします。
DS(データサイエンティスト検定)検定のおすすめ本
前述した選び方のポイントを改めてまとめました。これらの観点で選んだおすすめ本を紹介していきます。
- 試験範囲を網羅的に学べるか
- サンプル問題の数が豊富か
- 頻出箇所(仮説検定・推論など)を深堀りできるか
- 学習範囲をPythonやSQLなどプログラミングで応用できるか
【公式テキスト】最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック
前述の通り、基本的には公式リファレンスブックがあれば試験範囲を網羅的に学習することができます。
ただし、広い試験範囲をそれぞれの単元に1-2ページほどで薄く説明しているため、きちんと理解をしたい方は単元別に自ら調べたり他の本で知識を補いながらの学習が必要になります。
【公式問題集】徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応
こちらもデータサイエンティスト検定の公式の問題集になります。
前述の通り、データサイエンティスト検定では、データサイエンティストが求められる知識・スキルを「スキルチェックリスト」として公開しています。
検定問題集のありがたいところは、問題集で出ている問題がそのまま前述のスキルチェックリストのどこに当たるかがしっかりとわかることです。自身のスキルがチェックリストの中のどこに対して足りていないかを適宜チェックしながら、合格点に近づけていきましょう。
合格対策 データサイエンティスト検定[リテラシーレベル]教科書
また、出題範囲に対してより多角的に理解を深めたい方は、2023年6月に新たに出版された「合格対策 データサイエンティスト検定[リテラシーレベル]教科書」の活用もおすすめです。
今までDS検定はG検定やITパスポートなどの他の資格と異なり教科書形式で解説する対策本が公式リファレンスブック以外になく、受験希望の方にとっては対策手段が限られる資格でしたが、公式リファレンスブックと同様の「単元の解説」+「模擬問題」形式で執筆がされています。
別の切り口からの解説を目にすることで、より理解が深まり対策が進むと思いますのでこちらもおすすめです。
【統計学基礎理解なら】完全独習 統計学入門
こちらはDS検定ではなく、統計検定2級の公式テキストですが、数式よりも国語的な理解を促す初心者向けの書籍です。ボリュームも少なく、1日でも読み切れるレベルの分量です。
統計知識の学習には、下記の『完全独習 統計学入門』がおすすめです。中学校で習う数学(ルートと1次不等式)と丁寧な計算式の解説で、文系読者でも統計検定2〜3級の知識を独習することができます。
「標準偏差」「正規分布」などの統計学の基礎項目から「カイ二乗分布」「t分布」までDS基礎で出題される統計知識を幅広く学ぶことができるので、統計学初学者に非常におすすめです。
統計学の初学者で統計学の前提知識が全くない方や、「まずは数式よりは文字で把握したい」という方にとっては非常におすすめです。
【SQLの練習に】SQL 第2版 ゼロからはじめるデータベース操作 (プログラミング学習シリーズ)
試験範囲の「データエンジニアリング」の領域には実際にSQLの問題も出題されます。実際に業務等で使うことがない方にはコードのイメージがつきづらいと思いますので、ぜひこちらの参考書でSQLのデータベース操作を学びましょう。
また、コードを書けるようになるためには、ProgateのPython・SQL講座の活用もおすすめです。PCやスマホに実際にコードを書いていくことで文法を覚えていくことができますし、難易度がレベル別に分かれているため、段階的に学ぶことができます。
【Pythonの基礎】確かな力が身につくPython「超」入門
基本的な文法だけでなく、画像処理・アプリ開発・WebAPIをつかったスクレイピングまで幅広い用途でのPythonの活用方法を、豊富なイラストでわかりやすく説明するおすすめの一冊です。
【Pythonで応用】Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
PythonとJupyter、NumPy、pandas、Matplotlib、scikit‐learnなどPythonでよく使うライブラリをカバーし、それぞれのトピックについて押さえておくべき基本、tips、便利なコマンドなどを紹介しています。Pythonでデータの操作、変換、可視化、統計的処理、データモデルの構築、科学計算を行う人にとってはいつも手元に置いておきたい「使える」一冊です。