Probability theory

1.1. Random experiments
1.1.1. Random experiment
1.1.2. Sample space
1.1.3. Event space
1.1.4. Probability space
1.1.5. Measured data
1.1.6. Statistical sample
1.1.7. Sample size
1.1.8. Sample statistic
1.1.9. Descriptive vs. inferential

1.2. Random variables
1.2.1. Random event
1.2.2. Random variable
1.2.3. Random vector
1.2.4. Random matrix
1.2.5. Constant
1.2.6. Discrete vs. continuous
1.2.7. Univariate vs. multivariate
1.2.8. independent and identically distributed

1.3. Probability
1.3.1. Probability
1.3.2. Joint probability
1.3.3. Marginal probability
1.3.4. Conditional probability
1.3.5. Exceedance probability
1.3.6. Statistical independence
1.3.7. Conditional independence
1.3.8. Self-independence
1.3.9. Probability under independence
1.3.10. Mutual exclusivity
1.3.11. Probability under exclusivity

1.4. Probability axioms
1.4.1. Axioms of probability
1.4.2. Monotonicity of probability (1)
1.4.3. Monotonicity of probability (2)
1.4.4. Probability of the empty set (1)
1.4.5. Probability of the empty set (2)
1.4.6. Probability of the complement
1.4.7. Range of probability
1.4.8. Addition law of probability
1.4.9. Bonferroni’s inequality
1.4.10. Boole’s inequality
1.4.11. Law of total probability
1.4.12. Probability of exhaustive events (1)
1.4.13. Probability of exhaustive events (2)

1.5. Probability distributions
1.5.1. Probability distribution
1.5.2. Joint distribution
1.5.3. Marginal distribution
1.5.4. Conditional distribution
1.5.5. Unimodal vs. multimodal distribution
1.5.6. Sampling distribution
1.5.7. Statistical parameter
1.5.8. Location parameter
1.5.9. Scale parameter
1.5.10. Rate parameter
1.5.11. Shape parameter
1.5.12. Degrees of freedom

1.6. Probability mass function
1.6.1. Definition
1.6.2. Probability mass function of sum of independents
1.6.3. Probability mass function of strictly increasing function
1.6.4. Probability mass function of strictly decreasing function
1.6.5. Probability mass function of invertible function

1.7. Probability density function
1.7.1. Definition
1.7.2. Probability density function of sum of independents
1.7.3. Probability density function of strictly increasing function
1.7.4. Probability density function of strictly decreasing function
1.7.5. Probability density function of invertible function
1.7.6. Probability density function of linear transformation
1.7.7. Probability density function in terms of cumulative distribution function
1.7.8. Joint probability density function

1.8. Cumulative distribution function
1.8.1. Definition
1.8.2. Cumulative distribution function of sum of independents
1.8.3. Cumulative distribution function of strictly increasing function
1.8.4. Cumulative distribution function of strictly decreasing function
1.8.5. Cumulative distribution function of discrete random variable
1.8.6. Cumulative distribution function of continuous random variable
1.8.7. Exceedance probability based on cumulative distribution function
1.8.7. Probability integral transform
1.8.8. Inverse transformation method
1.8.9. Distributional transformation
1.8.10. Joint cumulative distribution function

1.9. Other probability functions
1.9.1. Quantile function
1.9.2. Quantile function in terms of cumulative distribution function
1.9.3. Characteristic function
1.9.4. Characteristic function of arbitrary function
1.9.5. Moment-generating function
1.9.6. Moment-generating function of sum of independents
1.9.7. Moment-generating function of arbitrary function
1.9.8. Moment-generating function of linear transformation
1.9.9. Moment-generating function of linear combination
1.9.10. Probability-generating function
1.9.11. Probability-generating function in terms of expected value
1.9.12. Probability-generating function of zero
1.9.13. Probability-generating function of one
1.9.14. Cumulant-generating function

1.10. Expected value
1.10.1. Definition
1.10.2. Sample mean
1.10.3. Non-negative random variable
1.10.4. Non-negativity
1.10.5. Linearity
1.10.6. Monotonicity
1.10.7. (Non-)Multiplicativity
1.10.8. Law of total expectation
1.10.9. Law of the unconscious statistician
1.10.10. Squared expectation of a product
1.10.11. Markov’s inequality
1.10.12. Chebyshev’s inequality
1.10.13. Weak law of large numbers
1.10.14. Expected value minimizes squared error
1.10.15. Expected value of a random vector
1.10.16. Expectation of a quadratic form
1.10.17. Expected value of a random matrix
1.10.18. Expectation of a trace

1.11. Variance
1.11.1. Definition
1.11.2. Sample variance
1.11.3. Pooled sample variance
1.11.3. Partition into expected values
1.11.4. Non-negativity
1.11.5. Variance of a constant
1.11.6. Invariance under addition
1.11.7. Scaling upon multiplication
1.11.8. Variance of a sum
1.11.9. Variance of linear combination
1.11.10. Additivity under independence
1.11.11. Law of total variance
1.11.12. Precision

1.12. Skewness
1.12.1. Definition
1.12.2. Sample skewness
1.12.3. Partition into expected values

1.13. Covariance
1.13.1. Definition
1.13.2. Sample covariance
1.13.3. Partition into expected values
1.13.4. Symmetry
1.13.5. Self-covariance
1.13.6. Covariance under independence
1.13.7. Relationship to correlation
1.13.8. Law of total covariance
1.13.9. Covariance matrix
1.13.10. Sample covariance matrix
1.13.11. Covariance matrix and expected values
1.13.12. Symmetry
1.13.13. Positive semi-definiteness
1.13.14. Invariance under addition of vector
1.13.15. Scaling upon multiplication with matrix
1.13.16. Cross-covariance matrix
1.13.17. Covariance matrix of a sum
1.13.18. Covariance matrix and correlation matrix
1.13.19. Precision matrix
1.13.20. Precision matrix and correlation matrix

1.14. Correlation
1.14.1. Definition
1.14.2. Range
1.14.3. Correlation under independence
1.14.4. Sample correlation coefficient
1.14.5. Relationship to standard scores
1.14.6. Correlation matrix
1.14.7. Sample correlation matrix

1.15. Measures of central tendency
1.15.1. Median
1.15.2. Median minimizes mean absolute error
1.15.3. Mode

1.16. Measures of statistical dispersion
1.16.1. Standard deviation
1.16.2. Sample standard deviation
1.16.3. Pooled sample standard deviation
1.16.4. Full width at half maximum

1.17. Further summary statistics
1.17.1. Minimum
1.17.2. Maximum

1.18. Further moments
1.18.1. Moment
1.18.2. Moment in terms of moment-generating function
1.18.3. Raw moment
1.18.4. First raw moment is mean
1.18.5. Second raw moment and variance
1.18.6. Central moment
1.18.7. First central moment is zero
1.18.8. Second central moment is variance
1.18.9. Standardized moment
Information theory

2.1. Shannon entropy
2.1.1. Definition
2.1.2. Non-negativity
2.1.3. Concavity
2.1.4. Conditional entropy
2.1.5. Joint entropy
2.1.6. Cross-entropy
2.1.7. Convexity of cross-entropy
2.1.8. Gibbs’ inequality
2.1.9. Log sum inequality

2.2. Differential entropy
2.2.1. Definition
2.2.2. Negativity
2.2.3. Invariance under addition
2.2.4. Addition upon multiplication
2.2.5. Addition upon matrix multiplication
2.2.6. Non-invariance and transformation
2.2.7. Conditional differential entropy
2.2.8. Joint differential entropy
2.2.9. Differential cross-entropy

2.3. Discrete mutual information
2.3.1. Definition
2.3.2. Relation to marginal and conditional entropy
2.3.3. Relation to marginal and joint entropy
2.3.4. Relation to joint and conditional entropy

2.4. Continuous mutual information
2.4.1. Definition
2.4.2. Relation to marginal and conditional differential entropy
2.4.3. Relation to marginal and joint differential entropy
2.4.4. Relation to joint and conditional differential entropy

2.5. Kullback-Leibler divergence
2.5.1. Definition
2.5.2. Non-negativity (1)
2.5.3. Non-negativity (2)
2.5.4. Non-symmetry
2.5.5. Convexity
2.5.6. Additivity for independent distributions
2.5.7. Invariance under parameter transformation
2.5.8. Relation to discrete entropy
2.5.9. Relation to differential entropy
Estimation theory

3.1. Basic concepts of estimation
3.1.1. Estimator
3.1.2. Biased vs. unbiased

3.2. Point estimates
3.2.1. Mean squared error
3.2.2. Partition of the mean squared error into bias and variance

3.3. Interval estimates
3.3.1. Confidence interval
3.3.2. Construction of confidence intervals using Wilks’ theorem
Frequentist statistics

4.1. Likelihood theory
4.1.1. Likelihood function
4.1.2. Log-likelihood function
4.1.3. Maximum likelihood estimation
4.1.4. Maximum log-likelihood
4.1.5. MLE can be biased
4.1.6. Likelihood ratio
4.1.7. Log-likelihood ratio
4.1.8. Method of moments

4.2. Statistical hypotheses
4.2.1. Statistical hypothesis
4.2.2. Simple vs. composite
4.2.3. Point/exact vs. set/inexact
4.2.4. One-tailed vs. two-tailed

4.3. Hypothesis testing
4.3.1. Statistical test
4.3.2. Null hypothesis
4.3.3. Alternative hypothesis
4.3.4. One-tailed vs. two-tailed
4.3.5. Test statistic
4.3.6. Size of a test
4.3.7. Power of a test
4.3.8. Significance level
4.3.9. Critical value
4.3.10. p-value
4.3.11. Distribution of p-value under null hypothesis
4.3.12. Minimum detectable effect
4.3.13. Minimum required sample size
Bayesian statistics

5.1. Probabilistic modeling
5.1.1. Generative model
5.1.2. Likelihood function
5.1.3. Prior distribution
5.1.4. Prior predictive distribution
5.1.5. Prior predictive distribution is marginal of joint likelihood
5.1.6. Full probability model
5.1.7. Joint likelihood
5.1.8. Joint likelihood is product of likelihood and prior
5.1.9. Posterior distribution
5.1.10. Posterior density is proportional to joint likelihood
5.1.11. Combined posterior distribution from independent data
5.1.12. Posterior predictive distribution
5.1.13. Posterior predictive distribution is marginal of joint likelihood
5.1.14. Maximum-a-posteriori estimation
5.1.15. Marginal likelihood
5.1.16. Marginal likelihood is integral of joint likelihood

5.2. Prior distributions
5.2.1. Flat vs. hard vs. soft
5.2.2. Uniform vs. non-uniform
5.2.3. Informative vs. non-informative
5.2.4. Empirical vs. non-empirical
5.2.5. Conjugate vs. non-conjugate
5.2.6. Maximum entropy priors
5.2.7. Empirical Bayes priors
5.2.8. Reference priors

5.3. Bayesian inference
5.3.1. Odds ratios
5.3.2. Bayes’ theorem
5.3.3. Bayes’ rule
5.3.4. Empirical Bayes
5.3.5. Variational Bayes
Machine learning

6.1. Scoring rules
6.1.1. Scoring rule
6.1.2. Proper scoring rule
6.1.3. Strictly proper scoring rule
6.1.4. Log probability scoring rule
6.1.5. Log probability is strictly proper scoring rule
6.1.6. Brier scoring rule
6.1.7. Brier scoring rule is strictly proper scoring rule

Table of Contents

Chapter I: General Theorems

Chapter II: Probability Distributions

Chapter III: Statistical Models

Chapter IV: Model Selection