代写INT401: Fundamentals of Machine Learning Fall Semester Lab 6: Naive Bayes Classifier代写Python编程

INT401: Fundamentals of Machine Learning

Fall Semester

Lab 6: Naive Bayes Classifier

6.1    Objectives

•  Understand the knowledge on Naive Bayes classifier.

•  Learn how to create a Naive Bayes classifier to solve a toy problem on prediction.

6.2    Dataset Description

This is atoy dataset, which contains 21 attribute feature columns and one class label column.  The dataset is a two-class classification problem, where the first column is the class label.  All attributes have been mapped from text descriptions to numbers, where the same numbers in the same column represent the same attribute values. The dataset is divided into a training set toy train.csv and a test set toy test.csv, where the training set and the test set contain 7600 samples and 524 samples respectively.

6.3    Naive Bayes Classifier

6.3.1    Load dataset

•  (10 marks)  Read the training dataset into a dataframe.

•  (10 marks)  Read the test dataset, which will be used to estimate the classification accuracy.

6.3.2    Maximum Likelihood Estimation

When X contains M attributes which satisfy the conditional independence assumption, we have

where Xi  is the i-th attribute and Y is the class label.  Our goal is to train a classifier that will output the probability distribution over possible values of Y , which will take on its possible value k = 1, 2, ···,K is

Note that for any example X, the probability P(X) = P(X1 , X2, ···, XM ) is constant.  We can estimate these parameters using maximum likelihood estimates.

•  (20 marks)  Estimate the prior probability

•  (30 marks)  Estimate the conditional probability

It is noted that the #D{x} operator denotes the number of elements in the set D that satisfy property x and Nj  means that attribute Xj  has Nj  different values.

6.3.3    Model Inference

•  (20 marks)  For K categories, we calculate the posterior probability of each category separately for X = [x1 , x2, ···, xM ]T  and get  

Note:  If the conditional probability P(ˆ)(Xj  = xj |Y = yk ) that does not appear in the training set is needed in the test set, then the conditional probability under class k should be

     •  (10 marks)   For each X, we assign X to the class with the largest posterior probability logP(ˆ)(Y = yk |X).

6.4    Lab Report

• Write a short report which should contain a concise explanation of your implementation, results and observations.

For the score of each step, such as 15 points, the proportion of the three parts to the total score is as follows:

  Explanation of the execution of this step ( 50% ): how to design the data structure, how to design the algorithm to realize this step; how do you think about this problem

–  Code and comments ( 30% ): Whether the code is correct, attach comments to help understand the code

  Results and interpretation ( 20% ): Whether the running results are correct, explain the results to a certain extent, or what you find from them.  Please insert the clipped running image into your report for each step.

•  Submit the report and the python source code with the suitable comments electronically into the learning mall.

 It is highly recommended to use the latex typesetting language to write reports.

•  The report in pdf format and python source code of your implementation should be zipped into a single file. The naming of report is as follows:

e.g. StudentID LastName FirstName LabNumber.zip (123456789 Einstein Albert   1.zip)

6.5    Hints

Please refer to the lecture slides.

  Latex IDE: texstudio

  Python IDE: pycharm or vscode

  Use the python numpy and scipy library flexibly.


热门主题

课程名

mktg2509 csci 2600 38170 lng302 csse3010 phas3226 77938 arch1162 engn4536/engn6536 acx5903 comp151101 phl245 cse12 comp9312 stat3016/6016 phas0038 comp2140 6qqmb312 xjco3011 rest0005 ematm0051 5qqmn219 lubs5062m eee8155 cege0100 eap033 artd1109 mat246 etc3430 ecmm462 mis102 inft6800 ddes9903 comp6521 comp9517 comp3331/9331 comp4337 comp6008 comp9414 bu.231.790.81 man00150m csb352h math1041 eengm4100 isys1002 08 6057cem mktg3504 mthm036 mtrx1701 mth3241 eeee3086 cmp-7038b cmp-7000a ints4010 econ2151 infs5710 fins5516 fin3309 fins5510 gsoe9340 math2007 math2036 soee5010 mark3088 infs3605 elec9714 comp2271 ma214 comp2211 infs3604 600426 sit254 acct3091 bbt405 msin0116 com107/com113 mark5826 sit120 comp9021 eco2101 eeen40700 cs253 ece3114 ecmm447 chns3000 math377 itd102 comp9444 comp(2041|9044) econ0060 econ7230 mgt001371 ecs-323 cs6250 mgdi60012 mdia2012 comm221001 comm5000 ma1008 engl642 econ241 com333 math367 mis201 nbs-7041x meek16104 econ2003 comm1190 mbas902 comp-1027 dpst1091 comp7315 eppd1033 m06 ee3025 msci231 bb113/bbs1063 fc709 comp3425 comp9417 econ42915 cb9101 math1102e chme0017 fc307 mkt60104 5522usst litr1-uc6201.200 ee1102 cosc2803 math39512 omp9727 int2067/int5051 bsb151 mgt253 fc021 babs2202 mis2002s phya21 18-213 cege0012 mdia1002 math38032 mech5125 07 cisc102 mgx3110 cs240 11175 fin3020s eco3420 ictten622 comp9727 cpt111 de114102d mgm320h5s bafi1019 math21112 efim20036 mn-3503 fins5568 110.807 bcpm000028 info6030 bma0092 bcpm0054 math20212 ce335 cs365 cenv6141 ftec5580 math2010 ec3450 comm1170 ecmt1010 csci-ua.0480-003 econ12-200 ib3960 ectb60h3f cs247—assignment tk3163 ics3u ib3j80 comp20008 comp9334 eppd1063 acct2343 cct109 isys1055/3412 math350-real math2014 eec180 stat141b econ2101 msinm014/msing014/msing014b fit2004 comp643 bu1002 cm2030
联系我们
EMail: 99515681@qq.com
QQ: 99515681
留学生作业帮-留学生的知心伴侣!
工作时间:08:00-21:00
python代写
微信客服:codinghelp
站长地图