Big Data là gì? Data Scientist là gì? Hãy để “Tiến sĩ Cambridge” trả lời Utphighschools.Vn

Blog 0 lượt xem

Dữ liệu lớn là gì? Dữ liệu lớn là tập hợp dữ liệu quá lớn (có cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh chóng và phức tạp đến mức các công nghệ hoặc phần mềm truyền thống không thể xử lý trong một khoảng thời gian.

Số lượng chính xác của dữ liệu lớn không quan trọng (có thể là vài petabyte hoặc exabyte), điểm mấu chốt là nếu được khai thác đúng hướng, dữ liệu lớn sẽ mang lại tiềm năng cạnh tranh lớn cho doanh nghiệp.

Để tìm hiểu thêm về Dữ liệu lớn, ITviec đã nói chuyện với anh Dang Hoang Wu – Nhà khoa học trưởng của Tập đoàn FPT và đã “khai thác” được nhiều thông tin hữu ích.

Xem thêm các công việc về dữ liệu lớn trên trang web ITviec

Dữ liệu lớn là gì?

Dữ liệu lớn là gì?

Theo ông Wu, dữ liệu lớn là dữ liệu lớn, thay đổi nhanh và phức tạp. Tuy nhiên, thực sự không có định nghĩa duy nhất về Dữ liệu lớn là gì. Ví dụ: vì IBM định nghĩa Dữ liệu lớn là 4V, bao gồm:

  • Âm lượng: Khối lượng dữ liệu
  • tốc độ: Tốc độ dữ liệu
  • đa dạng: Dữ liệu đa dạng
  • độ tin cậy: Tính xác thực của dữ liệu

Trên thực tế, thuật ngữ Dữ liệu lớn cũng rất hợp thời. Có nghĩa là, đôi khi người ta vẫn áp dụng tên gọi Big Data cho dữ liệu ở quy mô bình thường, và không phải lúc nào cũng áp dụng cho dữ liệu ở quy mô lớn.

Ông Wu khẳng định dữ liệu lớn không chỉ thực sự cần thiết mà còn là “xương sống” của hầu hết các công nghệ.

Ví dụ, mọi sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.

Các công ty truyền thống cũng sử dụng Dữ liệu lớn để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ như một nhà tiếp thị …

Xem thêm: Những siêu sức mạnh mà dữ liệu lớn mang lại cho doanh nghiệp

Khó khăn khi làm việc với Dữ liệu lớn là gì?

Sẽ có những khó khăn lớn khi làm việc với Dữ liệu lớn, như sau:

  • Chất lượng dữ liệu không được đảm bảo
READ  Bất Động Sản 101 Ebook PDF/PRC/MOBI/EPUB Utphighschools.Vn

Trong quá trình làm việc với Big Data, ông Wu cho biết khâu thu thập và xử lý dữ liệu là phần tốn nhiều thời gian và công sức nhất. Tại thời điểm đó, anh phải làm việc với nhiều bộ phận khác nhau, dẫn đến nguồn dữ liệu không thống nhất và chất lượng dữ liệu kém.

  • Kết quả thực hiện không đạt yêu cầu

Với kinh nghiệm làm việc của mình, anh cho rằng sai lầm phổ biến nhất là đánh giá và thực hiện kết quả dựa trên dữ liệu đã thu thập và xử lý. Nhiều khi dân kỹ thuật thường đưa ra các tiêu chí theo lý thuyết hoặc các trường hợp có sẵn, nhưng điều này không phù hợp với quy trình kinh doanh thực tế.

Trước đó, anh đã làm việc với một khách hàng nổi tiếng trong lĩnh vực thương mại điện tử (anh không thể nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm được bán trên trang web.

Sau khi phân tích và đánh giá dựa trên dữ liệu thu thập được, nhóm của ông quyết định rằng việc cho phép khách hàng xem càng nhiều sản phẩm càng tốt sẽ kích thích hành vi mua hàng.

Kết quả là khách hàng ở lại website lâu hơn và lướt qua nhiều sản phẩm hơn hàng thật nhưng kết quả kinh doanh không được cải thiện. Nguyên nhân là do họ cảm thấy “choáng ngợp”, không biết phải quyết định như thế nào nên không mua thêm.

Rõ ràng, mặc dù đáp ứng được tiêu chí tự đặt ra để kích thích hành vi xem sản phẩm, nhưng nó không mang lại lợi ích thực sự cho doanh nghiệp.

Theo ông, các công ty làm ra Dữ liệu lớn không thực sự quan tâm đến định nghĩa chính xác Dữ liệu lớn là gì. Họ chỉ quan tâm đến kết quả cuối cùng mà quá trình truy xuất dữ liệu mang lại, vì vậy những người làm việc với Big Data cần hiểu rõ ràng mục tiêu cuối cùng là gì.

Nghề “làm” dữ liệu lớn là gì? Hãy là một chuyên gia dữ liệu!

Công việc hàng ngày của một chuyên gia dữ liệu

Anh Vũ chia sẻ về những “bước đi” trong công việc hàng ngày của Data Scientist:

  • Phân tích vấn đề cần giải quyết, mục tiêu của dự án, tiêu chí thành công …
  • Thu thập và xử lý dữ liệu
  • Xây dựng mô hình và thuật toán để đạt được kết quả
  • Kiểm tra, đánh giá kết quả
  • Ra mắt

Ở bước triển khai, công ty sẽ sử dụng các kết quả, dự báo, khuyến nghị… thu được từ dữ liệu để đầu tư vào hoạt động kinh doanh và tiếp thị, như ông Wu đã đề cập trong phần chia sẻ trên.

READ  Mẫu đơn xin gia hạn hợp đồng làm việc Utphighschools.Vn

Các kỹ năng cần thiết để trở thành chuyên gia dữ liệu

Để trở thành chuyên gia dữ liệu, bạn cần học nhiều kỹ năng và công cụ:

  • Tất nhiên, kỹ năng đầu tiên bạn cần là lập trình. Bạn cần học ngôn ngữ lập trình Python
  • Ngoài Python, có các công cụ cho SQL, Spark, R hoặc cao hơn như H2O, hoạt cảnh
  • Các công cụ của Nhà khoa học dữ liệu: Numpy, Pandas, Matplotlib, Scikit-learning
  • Công cụ học máy: Tensorflow, Keras, Pytorch
  • Hiểu biết rõ ràng về Dữ liệu lớn, các khuôn khổ như Hadoop hoặc Scala
  • Thống kê cơ bản

Ngoài kỹ năng cứng về mặt kỹ thuật, bạn cũng cần có kỹ năng mềm. Nghề này cần tư duy rõ ràng và nhất quán và bạn cần biết cách làm việc với Data Engineer.

Kỹ sư dữ liệu là người xử lý và chuẩn bị dữ liệu cho Nhà khoa học dữ liệu để phân tích. Khi làm việc cùng nhau, mọi người sẽ giúp đỡ một số công việc của người kia, nhưng trách nhiệm chính là như nhau.

Có rất nhiều kỹ năng và kiến ​​thức mà bạn cần phải cải thiện, tất nhiên, nó có thể hơi khó khăn lúc đầu, nhưng bạn có thể làm được và học được cùng lúc.

Xem thêm: 20 tài liệu học lập trình Python

Cơ hội nghề nghiệp với Dữ liệu lớn

Ông Wu nhận xét rằng cơ hội nghề nghiệp cho những ai muốn làm việc với Big Data là vô cùng rộng mở. Tất nhiên, so với sự nghiệp tổng thể của một nhà phát triển, số lượng công việc liên quan đến Dữ liệu lớn sẽ ít hơn nhiều. Tuy nhiên, vì là hàng hiếm nên mức thu nhập cũng khá. Công việc cũng mang đến một cái nhìn tổng thể hơn về hiệu suất của sản phẩm mà bạn đang gia công.

Xem ngay: Việc làm nhà khoa học CNTT tại ITviec

Trên cương vị của mình, anh cũng tham gia tuyển dụng Nhà khoa học dữ liệu. Kể từ đó, ông Wu đã chia sẻ một số tiêu chí mà ông dựa trên để tuyển dụng người làm việc:

  • Khả năng rõ ràng, mã nhất quán.
  • Kiến thức cơ bản về Python. Nếu bạn biết về máy học, cơ sở dữ liệu hoặc toán học thống kê là một lợi thế lớn.
  • Tinh thần tốt. Đặc biệt là không được cứng đầu, vì làm sai mà bị nhắc nhở là chuyện bình thường.
  • Khả năng giao tiếp, diễn đạt và lắng nghe người khác. Hãy nhớ rằng, đây không phải là một vị trí độc lập.
READ  Tìm hiểu bác sĩ thú y là gì và mức thu nhập hấp dẫn của họ Utphighschools.Vn

Tài nguyên dữ liệu tham khảo

  • Thiết kế các ứng dụng chuyên sâu về dữ liệu: Cuốn sách được viết vào năm 2017 bởi Martin Klepman, vẽ nên một bức tranh toàn cảnh về dữ liệu lớn và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
  • Dữ liệu lớn: Nguyên tắc và phương pháp hay nhất của hệ thống dữ liệu có thể mở rộng theo thời gian thực: Trả lời câu hỏi Dữ liệu lớn là gì và nó phải làm gì với các hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: Hướng dẫn cuối cùng: được viết bởi Tom White, một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là tất cả những gì bạn cần biết + ví dụ cụ thể khi làm việc với Hadoop.
  • High Performance Spark: Cuốn sách cơ bản dành cho những ai muốn tìm hiểu về Apache Spark với nhiều hình ảnh minh họa thiết thực.

Ngoài ra, các khóa học dữ liệu lớn trực tuyến của Coursera cũng đáng được quan tâm.

Các chuyên gia dữ liệu trong ngành nói gì?

Ông Wu đã chia sẻ một quan niệm sai lầm, một sự hiểu lầm mà ông đã nghe thấy trong quá trình làm việc với Dữ liệu lớn nói chung, với tư cách là Nhà khoa học dữ liệu nói riêng.

Có một số người cho rằng Data Scientist là một nhà khoa học hay làm Data Scientist thì cần phải toán nhiều nhưng thực tế không phải vậy. Nếu bạn giỏi toán thì không sao, nhưng viết mã còn quan trọng hơn.

Nhà khoa học dữ liệu là người giải quyết các vấn đề kinh doanh bằng cách phân tích dữ liệu, không phải là nhà khoa học nghiên cứu những điều mới.

Có lẽ vì từ nhà khoa học Đây là một nghề được nhiều người đánh giá là một nghề đòi hỏi nhiều rủi ro và thỏa hiệp. Thật ra là không. Data Scientist không mạo hiểm, chỉ cần trình độ tư duy tốt và tinh thần học hỏi là đủ.

Dữ liệu lớn là gì?

An Wu (thứ 2 từ trái sang) cùng các đồng nghiệp.

Môn lịch sử: Sau khi hoàn thành bằng tiến sĩ toán học tại Đại học Cambridge, ông Wu làm kỹ sư phần mềm cho Tập đoàn HP (Hewlett-Packard) ở Vương quốc Anh. Ở đây anh tôi làm về machine learning, xử lý ảnh nên khi về Việt Nam, anh ấy cũng chọn làm các dự án về khoa học dữ liệu.

Năm 2014, anh trở về Việt Nam và gia nhập FPT với vai trò Nhà khoa học dữ liệu. Anh hiện là Trưởng ban Nghiên cứu Khối Công nghệ của Tập đoàn FPT.

Robi2

Bạn có nghĩ rằng những thông tin chi tiết về dữ liệu lớn này thực sự có ý nghĩa không? Hoặc bài viết này có thể giúp các nhà phát triển khác không? Chia sẻ ngay bây giờ để giúp cộng đồng nhà phát triển cùng nhau phát triển.

Và đừng quên liệt kê các công việc về dữ liệu lớn tại ITviec nhé!

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Protected with IP Blacklist CloudIP Blacklist Cloud