代做lab3_jupyter_webscraping代写数据结构语言程序

lab3_jupyter_webscraping

April 4, 2025

Webscraping in R

Estimated time needed:  15 minutes

0.1    Objectives

After completing this lab you will be able to:

•  Understand HTML via coding practice

•  Perform basic webscraping using rvest Table of Contents

<ul>

<li><a href="#Overview-of-HTML">Overview of HTML</a></li>

<li><a href="#The-rvest-library">The rvest library</a></li>

Table of Contents

<ul>

<li><a href="#Overview-of-HTML">Overview of HTML</a></li>

<li><a href="#The-rvest-library">The rvest library</a></li> Overview of HTML

•  HTML stands for Hypertext Markup Language and it is used mainly for writing web pages.

•  An HTML page consists of many organized HTML nodes or elements that tell a browser how to render its content.

•  Each node or element has a start tag and an end tag with the same name and wraps some textual content.

One key feature of HTML is that nodes can be nested within other nodes, organizing into a tree-like structure like the folders in a file system. Below is a basic HTML node structure:

•  <html> node is the root node,

•  <html> node has two children:  <head> and <body>.

•  Since the <head> and <body> nodes have the same parent <html> node they are siblings to each other.

•  Similarly, the <body> node has two child nodes, the <h1> and <p> nodes.

It is important to understand this tree-structure when writing a new HTML page or extracting data from an existing HTML page.

The revest library

The rvest package is a popular web scraping package for R. After rvest reads an HTML page, you can use the tag names to find the child nodes of the current node.

[ ]: library(rvest)

We also need to import httr library to get some HTML pages by sending HTTP GET request

[ ]: library(httr)

First let’s warm-up by reading HTML from the following character variable simple_html_text

[ ]:  # A simple HTML document in a character variable

simple_html_text <- "

<html>

<body>

<p>This is a test html page</p>

</body>

</html>"

Then use the read__html function to create the HTML root node, i.e., the html node by loading the simple_html_text

[ ]:  # Create the root html node by reading the simple HTML string

root_node <- read_html(simple_html_text)

root_node

You can also check the type of root_node [ ]: class(root_node)

You can see the class is xml_node because rvest load HTML pages and convert them using XML format internally.  XML has similar parent-child tree structure but more suitable for storing and tranporting data than HTML.

Next, let’s try to create a HTML node by loading a remote HTML page given a URL

[ ]: ibm_html_node <- read_html("http://www.ibm.com") ibm_html_node

Sometimes  you  want  to  download  some  HTML  pages  and  analyze  them  offline,  you  could  use download.file to do so:

Coding Exercise: in the code cell below, download a html node using any URL you like.

[ ]: # Write your code below.  Don't forget to press Shift+Enter to execute the cell

Now you know how to read an HTML page from a character variable, a URL, or a local HTML file. Next let’s see how to parse and extract data from a specific node(s) starting from the root node

[ ]: simple_html_text <- "

<html>

<body>

<p style=\"color:red;\">This is a test html page</p>

</body>

</html>"

root_node <- read_html(simple_html_text)

root_node

Get the <body> node by using its parent node <html>

[ ]:  # Get the child <body> node from <html> root_node

body_node <- html_node(root_node, "body")

body_node

You can see it has a child node paragraph <p>

Let’s get the content of the <p>

[ ]:  # Get the child <p> node from its <body> node

p_node <- html_node(body_node, "p")

p_content<-html_text(p_node)

p_content

The <p> node also has style attribute with value color:red;, which means we want the browser to render its text using red color.   To get an attribute of a node, we can use a function called html_attr("attribute name")

[ ]: # Use the p_node as the first argument to get its attribute

style_attr <- html_attr(p_node, "style")

style_attr

In the code cell below, the downloaded r.html file  (from https://www.r-project.org)  has an <img> node representing an image URL to R logo image (a relative path on its web server), let’s try to find the image URL and download it.

Your need to paste the relative path in <img> with the the https://www.r-project.org to get the full URL of the image, and use the GET function to request the image as bytes in the response

Then use writeBin() function to save the returned bytes into an image file.

Now, from the file list on the left, you should be able to find a saved r.png file.

In HTML, many tabluar data are stored in <table> nodes.  Thus, it is very important to be able to extract data from <table> nodes and preferably convert them into R data frames.

Below is a sample HTML page contains a color table showing the supported HTML colors, and we want to load it as a R data frame so we can analyze it using data frame-related operations.

[ ]: table_url <- "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.

。cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html"

Like other HTML nodes, let’s first get the <table> node using html_node function [ ]: root_node <-read_html(table_url)

table_node <- html_node(root_node, "table")

table_node

You can see the table node in a messy HTML format.  Fortunately, you dont need to parse it by yourself, rvest provides a handy function called html_table() to convert <table> node into R dataframe.

But you could see the table headers were parsed as the first row, no worries, we could manually fix that

[ ]: names(color_data_frame)

That’s it for webscraping in R, there is a lot more you can do check out rvest.

0.2    Authors

Hi, this is Yan Luo the author of this notebook.

I hope you found it easy to learn how to do webscraping in R! Feel free to connect with us if you have any questions.

0.2.1    Other Contributors

##

© IBM Corporation 2021. All rights reserved.

<!– ## Change Log

Date (YYYY-MM-DD)

Version

Changed By

Change Description

2021-03-05

1.0

Yan

Initial version created

–!>


热门主题

课程名

mktg2509 csci 2600 38170 lng302 csse3010 phas3226 77938 arch1162 engn4536/engn6536 acx5903 comp151101 phl245 cse12 comp9312 stat3016/6016 phas0038 comp2140 6qqmb312 xjco3011 rest0005 ematm0051 5qqmn219 lubs5062m eee8155 cege0100 eap033 artd1109 mat246 etc3430 ecmm462 mis102 inft6800 ddes9903 comp6521 comp9517 comp3331/9331 comp4337 comp6008 comp9414 bu.231.790.81 man00150m csb352h math1041 eengm4100 isys1002 08 6057cem mktg3504 mthm036 mtrx1701 mth3241 eeee3086 cmp-7038b cmp-7000a ints4010 econ2151 infs5710 fins5516 fin3309 fins5510 gsoe9340 math2007 math2036 soee5010 mark3088 infs3605 elec9714 comp2271 ma214 comp2211 infs3604 600426 sit254 acct3091 bbt405 msin0116 com107/com113 mark5826 sit120 comp9021 eco2101 eeen40700 cs253 ece3114 ecmm447 chns3000 math377 itd102 comp9444 comp(2041|9044) econ0060 econ7230 mgt001371 ecs-323 cs6250 mgdi60012 mdia2012 comm221001 comm5000 ma1008 engl642 econ241 com333 math367 mis201 nbs-7041x meek16104 econ2003 comm1190 mbas902 comp-1027 dpst1091 comp7315 eppd1033 m06 ee3025 msci231 bb113/bbs1063 fc709 comp3425 comp9417 econ42915 cb9101 math1102e chme0017 fc307 mkt60104 5522usst litr1-uc6201.200 ee1102 cosc2803 math39512 omp9727 int2067/int5051 bsb151 mgt253 fc021 babs2202 mis2002s phya21 18-213 cege0012 mdia1002 math38032 mech5125 07 cisc102 mgx3110 cs240 11175 fin3020s eco3420 ictten622 comp9727 cpt111 de114102d mgm320h5s bafi1019 math21112 efim20036 mn-3503 fins5568 110.807 bcpm000028 info6030 bma0092 bcpm0054 math20212 ce335 cs365 cenv6141 ftec5580 math2010 ec3450 comm1170 ecmt1010 csci-ua.0480-003 econ12-200 ib3960 ectb60h3f cs247—assignment tk3163 ics3u ib3j80 comp20008 comp9334 eppd1063 acct2343 cct109 isys1055/3412 math350-real math2014 eec180 stat141b econ2101 msinm014/msing014/msing014b fit2004 comp643 bu1002 cm2030
联系我们
EMail: 99515681@qq.com
QQ: 99515681
留学生作业帮-留学生的知心伴侣!
工作时间:08:00-21:00
python代写
微信客服:codinghelp
站长地图