2024-2025 COURSEWORK
	PART II (Second, Third and Final Year)
	MANAGEMENT SCIENCE
	MSCI 212 Statistical Methods for Business
	
		Tasks [Worth 100% of the marks]
	
	
		You currently work for a multinational company. The marketing department has a dataset that con- tains different budgets for marketing campaigns delivered across YouTube, Facebook, newspapers, and magazines for 170 products. You, as their business analyst, have been asked to develop a re- gression model to assess the relationship between different marketing channels and the sales. You also need to use the model to predict the sales from marketing campaigns for two other products. The dataset is already prepared (see file MarketingData.sav, adapted from kaggle.com). The data description is as follows and budget expenditures are in thousands of US dollars:
	
	
		•  Sales – sales of each product;
	
	
		•  YouTube – marketing budget spent on the product’s YouTube campaign;
	
	
		•  Facebook – marketing budget spent on the product’s Facebook campaign;
	
	
		•  Newspaper – marketing budget spent on the product’s Newspaper campaign;
	
	
		•  Magazine – marketing budget spent on the product’s Magazine campaign.
	
	
		1.  Preliminary analysis [20 marks]
	
	
		(a)  Carry out a preliminary analysis of the data using scatterplots, and comment on the findings between the dependent and the explanatory variables and between the ex- planatory variables.
	
	
		(b)  Extend the analysis from (a) using correlations.  Comment on the findings as well be- tween the dependent and the explanatory variables and between the explanatory vari- ables.
	
	
		2.  Modelling [30 marks]
	
	
		(a)  How would you evaluate the quality of a multiple linear regression model?
	
	
		(b)  Use stepwise  regression starting with an “no-variable” model and identify “the best” model based on your answer in (2.a). Justify your answer.
	
	
		(c)  Repeat (2.b) but use stepwise regression starting with an “all-in variable” model. Identify the “best” model based on your answer in (2.a). Justify your answer.
	
	
		(d)  Based on your answers  in (2.b) and (2.c), compare and discuss which model is the best. Write down your final/preferred model in an equation.
	
	
		3.  Residual diagnostics [20 marks]
	
	
		Based on your final model in (2.d), you need to produce the residual errors and assess whether they follow the assumptions of a linear regression model.
	
	
		(a)  Plot a histogram of the residual errors.  Comment on any observations about the his- togram.
	
	
		(b)  Conduct a for normality on the residual errors. Interpret your results.
	
	
		(c)  Conduct analysis to check whether the errors are homoscedastic.
	
	
		(d)  Plot your errors with each explanatory variable and the predicted values. Comment on each relationship.
	
	
		(e)  Summarise your findings on the residual diagnostics and compare them with the linear regression model assumptions.
	
	4.  Interpretation [10 marks]
	(a)  Interpret your final model and discuss the significance of each variable in detail.
	(b)  Assess the quality of the model. Interpret the criterion accordingly.
	5.  Predictions [20 marks]
	Your company has developed two new products, and they have suggested marketing cam- paign budgets across each marketing channel.  The budgets for each channel and product are stated below:
	
		
			| 
					Product
				 | 
					YouTube
				 | 
					Facebook
				 | 
					Newspaper
				 | 
					Magazine
				 | 
		
			| 
					Product X
				 | 
					100
				 | 
					22
				 | 
					50
				 | 
					3
				 | 
		
			| 
					Product Y
				 | 
					400
				 | 
					80
				 | 
					150
				 | 
					15
				 | 
	
	(a)  Use your final model:
	i.  to produce point predictions. Comment on their interpretation.
	ii.  to produce the 95% confidence intervals.
	iii.  to produce 95% prediction intervals.
	(b)  Comment on the predictions, taking into consideration the results of residual diagnostics and the descriptive statistics of your data.