Jeffrey Leek, Phó giáo sư về thống kê sinh học tại Trường Y tế công cộng John Hopkins Bloomberg, đã xác định sáu (6) phân tích nguyên mẫu. Như ông đã trình bày, chúng trải rộng từ ít phức tạp đến phức tạp nhất về kiến thức, chi phí và thời gian. 6 kiểu phân tích nguyên mẫu đó là:
- Descriptive
- Exploratory
- Inferential
- Predictive
- Causal
- Mechanistic
- Descriptive(Mô tả) (cần ít công sức nhất): Mô tả các đặc trưng chính của tập dữ liệu.
- Đặc trưng là kiểu phân tích đầu tiên được thực hiện trên tập dữ liệu.
- Thường dùng cho các khối dữ liệu lớn như dữ liệu về dân số.
-Quá trình mô tả và giải thích là những bước khác nhau.
- Univariate và Bivariate là hai loại phân tích mô tả thống kê.
- Kiểu dữ liệu được sử dụng: Census Data Set – toàn bộ dân số
Ví dụ dữ liệu dân số:

2. Exploratory (Khai phá): Phương pháp phân tích tập dữ liệu để tìm ra các mối quan hệ chưa được biết trước đó.
- Mô hình khai phá rất tốt cho việc khám phá ra những kết nối mới.
- Chúng cũng hữu ích cho việc định nghĩa các nghiên cứu, câu hỏi trong tương lai.
- Phân tích khai phá thường chưa có những câu trả lời rõ ràng, dứt khoát cho các câu hỏi được đặt ra mà mới chỉ ở bước khởi đầu.
- Phân tích khai phá đơn lẻ không nên được sử dụng để khái quát hay dự đoán.
- Nên nhớ rằng: tương quan (correlation) không phải là quan hệ nguyên nhân – kết quả (causation)
- Kiểu dữ liệu được sử dụng: Census and Convenience Sample Data Set (đặc trưng là không đồng nhất) – một mẫu ngẫu nhiên với nhiều biến số đo lường.
Ví dụ: Phân tích dữ liệu vi mảng (Microarray Data Analysis)

3. Inferential (Suy luận): Mục đích là để kiểm tra các lý thuyết về bản chất thế giới nói chung (hoặc một phần của nó) dựa trên mẫu của đối tượng được lấy từ đó. Cụ thể là sử dụng dữ liệu mẫu tương đối nhỏ để nói về quần thể lớn hơn.
- Suy luận thường là mục tiêu của mô hình thống kê.
- Suy luận liên quan đến việc ước tính cả về số lượng bạn quan tâm lẫn độ không chắc chắn trong ước tính của bạn.
- Suy luận phụ thuộc nhiều vào cả quần thể và chương tình lấy mẫu
- Kiểu dữ liệu thường dùng: Observational, Cross Sectional Time Study và Retrospective Data Set – các mẫu ngẫu nhiên của quần thể
Ví dụ: phân tích suy luận

4. Predictive(dự đoán): Các phương thức khác nhau dựa trên việc phân tích các sự kiện hiện tại và trong quá khứ để dự đoán về các sự kiện trong tương lai. Về bản chất, dùng dữ liệu của một số đối tượng để dự đoán giá trị cho đối tượng khác.
- Mô hình dự đoán không phải do các biến độc lập tạo ra.
- Độ dự đoán chính xác phụ thuộc nhiều vào độ đo lường của các biến.
- Mặc dù có cả những mô hình tốt và tồi tệ nhưng nhiều dữ liệu cùng với một mô hình đơn giản thì vẫn hoạt động tốt.
- Dự đoán rất khó, đặc biệt là dự đoán về các tham chiếu trong tương lai.
- Các kiểu dữ liệu thường dùng: Prediction Study Data Set – một tập dữ liệu huấn luyện và kiểm nghiệm từ cùng một quần thể
Ví dụ: phân tích dự đoán

Một ví dụ khác về phân tích dự đoán

5. Causal(quan hệ nhân – quả): Tìm những gì xảy ra với một biến khi thay đồi một biến khác.
- Việc thực hiện thường yêu cầu những nghiên cứu phải là ngẫu nhiên.
- Có nhiều phương pháp để suy luận nguyên nhân – kết quả trong các nghiên cứu không ngẫu nhiên.
- Mô hình quan hệ nhân quả được gọi là “tiêu chuẩn vàng” trong phân tích dữ liệu.
- Kiểu dữ liệu thường dùng: Randomized Trial Data Set – dữ liệu từ những nghiên cứu được thực hiện một cách ngẫu nhiên.
Ví dụ: Phân tích quan hệ nhân – quả

6. Mechanistic(phân tích cơ học) (cần nhiều công sức nhất): Hiểu chính xác sự thay đổi trong những biến này sẽ dẫn đến sự thay đổi của những biến khác trong các cá thể.
- Rất khó để suy luận ngoại trừ những trường hợp đơn giản.
- Thường được mô hình hóa tập các phương trình xác định (vật lý/khoa học kỹ thuật)
- Thông thường các thành phần ngẫu nhiên của dữ liệu là sai số đo lường.
- Nếu biết các phương trình nhưng không biết các tham số thì chúng có thể được suy luận bằng phân tích dữ liệu.
- Kiểu dữ liệu thường dùng: Randomized Trial Data Set – dữ liệu về tất cả các thành phần cấu thành của hệ thống
Ví dụ: phân tích cơ học

Theo tạp chí datascientistinsight.com, ngày 29/01/2013.