Data is the fuel of AI. 数据是 AI 的燃料。
Data is a set of observations that we use to learn an A→B mapping. 数据是一组观测样本,用来学习从 A 到 B 的映射。
In machine learning, data often comes as pairs (A, B), where A is input and B is output/label. 机器学习里,数据常以 **(A,B) 样本对 ** 出现:
- A = input(输入)
- B = output /label(输出 / 标签)
📌典型案例
- Housing price prediction A:Size, location, floor(面积、位置、楼层) B:House price(房价) Data:Many rows of (A,B) → 模型学会 A→B 映射
- Cat photo detection A:Image(图片) B:Yes/No(是不是猫) Data:Lots of images + labels
🧩两类数据:结构化 / 非结构化
- Structured data(结构化数据) Tables, spreadsheets, databases(表格、Excel、数据库) Example: User ID, age, income(用户 ID、年龄、收入)
- Unstructured data(非结构化数据) Images, audio, text, video(图片、语音、文本、视频)
💡 吴恩达金句(高频、必背)
- Data > Algorithm > Compute 数据 > 算法 > 算力
- It's not just big data; it's good data. 不在于大数据,而在于高质量数据。
- 80% of AI is data. AI 80% 是数据。
🔗 跟你前面 "A→B 映射" 的关系(他课里直接连)
Today's AI = ANI = learning fixed A→B mappings from data. 现在的 AI = 弱 AI = 从数据学固定的 A→B 映射。