講師が解説!データサイエンスに必要な数学のおすすめ参考書・勉強方法

いざデータサイエンスを学習しようと思っても、多くの方にとってハードルとなるのが数学知識。

そもそも「データサイエンスにどう数学が関連してくるか」「どの程度の勉強をすればいいか」がわかりかねている方も多いと思います。

そこで本記事では現役データサイエンティスト・資格検定講師を務める筆者が、データサイエンスに必要な数学を体系的に解説し、最後にはおすすめの参考書を紹介します。

監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。

【Udemy講座】サイト限定でDS検定講座クーポン配布中!

  • 元リクルート・東大院卒(JAXAと共同研究)監修のデータサイエンティスト検定の対策講座をUdemyで配信中
  • 機械学習に必要な数学知識も基礎から丁寧に解説
  • 期間限定&業界最安!サイト内限定クーポン利用で1,600円で受講可能(正規価格は8,800円)

\ クーポン利用で1,600円/

目次

データサイエンス・機械学習に数学はなぜ必要?

初学者にはデータサイエンスにはなぜ数学知識が必要で、どのように関係してくるのかがイメージつきづらい方も多いと思います。

そもそもデータサイエンティストになるにはどのようなスキル・知識のジャンルが求められ、どれくらいのレベルで習得しておくべきなのでしょうか? まずは、データサイエンス協会の公式資料を参考に考えていきます。

上記の図は、同協会が定義したデータサイエンティストに必要な3つのスキルセットです。データサイエンティストに必要なスキルを、①データサイエンス力、②データエンジニアリング力、③ビジネス力の3つに大別しています。

①データサイエンス力情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
②データエンジニアリング力データサイエンスを意味のある形に使えるように実装・運用できるようにする力
③ビジネス力課題背景を理解した上でビジネス課題を整理し解決する力

この中でもデータサイエンス・データエンジニアリング力には数理・統計の知識が必須となってきます。

たとえばデータサイエンス実務では予測モデルを作成するときに、測モデルの構築に必要な確率論や統計学的手法を理解し、モデルの正確性を向上させることができます。

予測モデルを作成するには回帰分析などの統計知識を使うこともありますし、データサイエンスでは大量のデータが行列で表現されるため、線形代数を使って行列の計算を効率的に行えるようになります。

データサイエンスに必要な数学知識

次は具体的にどんな数学知識がデータサイエンスに必要かをみていきましょう。

データサイエンスに必要な知識は多岐にわたり、細かいものも含めると最適化理論や解析学や難易度の高いものも多く含み、初学者にとってハードルとなることも事実です。

そこで、本記事では「データサイエンスの初学者やこれから学ぶ人にはどんな数学知識があれば十分といえるか」をまとめていきます。

スクロールできます
大分類小分類
確率・統計・確率変数、確率分布、期待値、分散、共分散、中心極限定理、大数の法則、中心極限定理など
・統計的推論、検定、信頼区間、回帰分析、分散分析、因子分析、クラスタリングなど
線形代数ベクトル、行列、行列式、逆行列、固有値、固有ベクトル
微分・積分関数の極限、微分、積分、微分方程式、多変数微積分など

上記の表のとおり、初学者は①確率・統計 ②線形代数 ③微分・積分の3つが理解できていれば十分です。

データサイエンス系の資格で説明すると、「統計検定2級」程度の数学知識がひとつの目安となります。

出題範囲に仮説検定、推論、ベイズ統計、確率密度関数、最小二乗法などの必須の分野が網羅的に含まれているため、統計検定2級取得のための学習をするのもおすすめです。

編集部では統計検定2級の難易度・勉強方法をまとめた記事も執筆していますので、そちらもぜひご確認ください。

より手前の数学知識の学習から始めたい方は「データサイエンス数学ストラテジスト(中級)」もおすすめです。本資格は高校1年レベルまでの数学を問う問題のため、学び直しに適した資格といえるでしょう。

数学知識の参考書の選び方

前の見出しでデータサイエンスに必要な数学が何なのか、ある程度目途がついたと思いますので、次は勉強方法についてみていきましょう。

数学は体系的な学問のため、学び直しや学習モレを防ぐためにも自身のレベルや課題感に合わせて勉強していくことが重要です。

下記は編集部が推奨する、データサイエンスに必要な数学を学ぶ際の参考書の選ぶ上での3つのポイントです。

参考書を選ぶポイント
  1. 自身の数学知識のレベルの確認を忘れない
  2. 目的に合わせた本を選ぶ
  3. コードを書きながら実践的に学べる本を選ぶ

ポイント①:自身の数学知識のレベルの確認を忘れない

学習において多くの人が挫折するポイントが、「XX(ある知識・分野)が理解できないが、どの数学知識から勉強し直せばよいかわからない」というもの。

特に初学者は自身のレベルを見誤ると、前提知識がなく一切の説明がわからない本に出会うことも多いです。

それもそのはずで、データサイエンスに必要な数学知識は高校から大学基礎課程でバラバラと学んでおり、いつ躓いたかがわかりづらいですし、そもそも人によっては習っていない可能性があります。

数学知識に自信のない方は、悲観目に実力を見て学び直しの範囲を広げてみたり、数式に使う記号の説明をしてくれたり、途中式を省略しないような丁寧な解説をした本を選ぶことが重要です。

連立方程式や平方根の計算など、確率・統計の基礎(数Ⅰ+A)に入る前の数学の知識が足りない場合は、下記の本で基本的な数学の復習をしましょう。

ポイント②:目的に合わせた本を選ぶ

データサイエンスに必要な数学は幅広く、手広く学ぼうとしたときに学習しなければいけない量が膨大になってしまうことも多いです。どんな単元を学ぶと何に使えるのかにアタリをつけ、目的に合わせた本を選ぶことが重要です。

下記の表は編集部がデータサイエンスに必要な数学が実際にどのように使われるかをまとめた表です。

スクロールできます
大分類 活用方法
確率・統計・データのモデリング(確率分布を用いて、データをモデル化すること。例:正規分布、ベータ分布、ポアソン分布などに)
・推論(サンプルデータから母集団の特性を推定すること。例:信頼区間、区間推定、点推定)
・仮説検定(標本データを用いて、母集団に対しての仮説を立ててその仮説が正しいかどうかを確率的に評価すること 例:t検定、F検定、カイ二乗検定など)
線形代数・行列計算(大量のデータを効率的に処理するための行列の演算や変換など)
・回帰分析(最小二乗法や多重共線性の解消など)
・機械学習アルゴリズムの構築(線形回帰、ロジスティック回帰、SVM、ニューラルネットワークなど)
微分・積分・確率密度関数や累積分布関数の計算
・確率変数の期待値や分散の計算
・機械学習(勾配法やニュートン法などの最適化アルゴリズム、ロジスティック回帰や線形回帰などのモデルに使用)

また、数学の概念や原理を抽象的なまま学ぶよりも、具体的な問題を通じてその応用方法を実践的な形で理解できるようにしておきましょう。データサイエンスに必要な数学は大学受験で出題される範囲も多いため、問題集を活用した学習方法もおすすめです。

ポイント③:コードを書きながら実践的に学べる本を選ぶ

本記事を読んでいる読者の多くは、目的はデータサイエンスを活用できるようになることで、実現するための手段が数学だと思います。

実務において、数学知識を活用したデータ分析やモデル構築の多くはPythonでコードを書いて表現されます。

ある程度の数学の理論を理解できるようになり問題が解けるようになったら、実践的にモデル構築にチャレンジしてみたり、Pythonで数学知識を表現できるようになるように勉強してみることもおすすめです。

データサイエンスに必要な数学のおすすめ参考書

ここからはいよいよ、データサイエンスに必要な数学である①確率・統計 ②線形代数 ③微分・積分の3つの分野でのそれぞれのおすすめ参考書を紹介していきます。

【全体像理解に】統計学のための数学教室

created by Rinker
¥2,376 (2024/03/04 13:09:58時点 Amazon調べ-詳細)

この一冊で網羅的に学びきるというよりは、データサイエンス・統計学に必要な数学の全体像を確認するための良書です。

数学の勉強の難しいところは、式のどこでつまずいたかがわからなくなってしまうこと。特に説明を省略されると、わからないまま終わってしまいがちです。

その点本書は、公式が出来上がるまでの証明プロセスに焦点を充てて説明しているため、「どこまでは分かっていて、どこでつまづいたか」がわかりやすいのが特徴です。

本書をある意味「手引き」として、各分野を他の専門書を使ってしっかりと深掘りしていくとより効率のよい学習ができることでしょう。

【確率・統計】完全独習 統計学入門

created by Rinker
¥1,426 (2024/03/04 20:25:23時点 Amazon調べ-詳細)

「これ以上何かを削ったら、統計学にならない」という、最小限の知識と簡単さで書かれた「超入門書」なので、統計学を初めて学ぶ方に非常におすすめです。

中学校で習う数学(ルートと1次不等式)から解説してもらえるなど計算式の解説が丁寧であることから、文系読者でも統計検定2〜3級の知識を独習することができます。

2部構成になっており、1部では「ヒストグラム」「標準偏差」など初歩からスタートしながらも、2級の出題範囲である「検定」「区間推定」という統計学の最重要項目に最短時間で到達することを目指しています。

第2部では、第1部の内容を発展させ、t分布を使った小標本の検定・区間推定などデータ分析で活用する統計知識を身に付けることができます。

【線形代数・微分積分】やさしく学べる基礎数学―線形代数・微分積分―

本書を活用するメリットは高校数学~大学数学まで一気通貫で段階的に学べることです。

コンセプトの「やさしく学べる」という言葉通り、序盤は四則演算の延長に過ぎないような計算難易度から始まります。

途中式が省略されずに丁寧に書かれていることや図やグラフが多く、直感的に理解しやすいこともあり、学び直すためのハードルが極限まで下がっているほんといえるでしょう。高校数学が苦手だった大学生にも分かるよう丁寧に解説されていることが特徴です。

年数が経った本にしては珍しくKindle版で購入できることもおすすめのポイントです。3冊買ったとしても、かさばらないことも本を持ちたくない方にとってはメリットでしょう。

created by Rinker
¥1,980 (2024/03/04 20:25:24時点 Amazon調べ-詳細)
created by Rinker
¥1,980 (2024/03/04 20:25:25時点 Amazon調べ-詳細)
created by Rinker
¥1,980 (2024/03/04 20:25:26時点 Amazon調べ-詳細)

また、「やさしく学べるシリーズ」のおすすめポイントは「微分積分」「線形代数」「微分方程式」など、まさにデータサイエンティストに必要な「数学」を網羅的に学ぶことができることです。

本書は線形代数と微分積分がまとめて一冊になっていますが、線形代数・微分積分を1冊で深く解説している本もあります。より集中して学びたい方はそちらも参考にしてみてください。

【Pythonで数学を学べる】文系プログラマーのためのPythonで学び直す高校数学

ディープラーニングでのモデル実装やPythonでのデータ分析を目的に数学を学習したい方は「Pythonを使って数学を学ぶ」のもより実用的でおすすめです。

データサイエンスに数学知識は必須ですが、数学だけを勉強していると何のために勉強しているのか…と目的を見失うことがあったり、気分転換が必要な時期もあるでしょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

「Ukatta!」は資格を一覧、検索できる資格のデータベースサイトです。コンテンツは専門家の監修・指導を受けながら、執筆・編集しています。読者に資格学習のきっかけやモチベーションを提供することで、最短合格を支援します。

目次
閉じる