Skip to content

Commit c7cd00a

Browse files
committed
add
1 parent 41ff670 commit c7cd00a

File tree

3 files changed

+80
-1
lines changed

3 files changed

+80
-1
lines changed

deploy.sh

Lines changed: 35 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,35 @@
1+
#!/bin/bash
2+
3+
# 使用 pwd 命令获取当前脚本所在目录作为项目根目录
4+
PROJECT_DIR=$(pwd)
5+
# 定义打包后文件存放的目录
6+
BUILD_DIR="$PROJECT_DIR/docs/.vuepress/dist"
7+
# 定义服务器上项目部署的目录
8+
DEPLOY_DIR="/www/wwwroot/oldbird.run"
9+
# 定义远程服务器的 IP 地址和用户名
10+
11+
# 定义 SSH 端口
12+
SSH_PORT=2002
13+
14+
# 进入项目目录
15+
cd $PROJECT_DIR
16+
17+
# 使用 Yarn 安装依赖
18+
export NODE_OPTIONS=--openssl-legacy-provider
19+
yarn docs:build
20+
21+
22+
# 检查打包是否成功
23+
if [ $? -eq 0 ]; then
24+
echo "项目打包成功"
25+
# 提示用户确认是否上传
26+
rsync -avz -e "ssh -p $SSH_PORT" $BUILD_DIR/ $SERVER:$DEPLOY_DIR
27+
# 检查上传是否成功
28+
if [ $? -eq 0 ]; then
29+
echo "文件上传成功"
30+
else
31+
echo "文件上传失败"
32+
fi
33+
else
34+
echo "项目打包失败"
35+
fi

docs/.vuepress/config/sidebarConf.js

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -134,7 +134,8 @@ module.exports = {
134134
children: [
135135
"",
136136
"supervised-vs-unsupervised-learning-concepts-and-differences",
137-
"classification-and-regression-in-ml", // 新增文章文件名
137+
"classification-and-regression-in-ml",
138+
"dataset-and-feature" // 新增文章文件名
138139
],
139140
},
140141
],

docs/ai/ml/dataset-and-feature.md

Lines changed: 43 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,43 @@
1+
---
2+
title: "数据集与特征:机器学习的基础要素"
3+
date: 2025-02-19
4+
tags:
5+
- ai
6+
- ml
7+
- 机器学习
8+
- 数据集
9+
- 特征
10+
sitemap:
11+
exclude: false
12+
changefreq: monthly
13+
---
14+
15+
## 1. 数据集概述
16+
数据集是机器学习模型训练和评估的基础。它是由一组数据样本组成的集合,每个样本包含多个特征和可能的标签。
17+
18+
### 1.1 数据集的类型
19+
- **监督学习数据集**:包含输入特征和对应的目标标签,用于训练有监督的机器学习模型,如分类和回归任务。
20+
- **无监督学习数据集**:只包含输入特征,没有明确的标签,用于挖掘数据中的潜在结构和模式,如聚类和降维。
21+
22+
### 1.2 数据集的质量
23+
高质量的数据集是构建有效机器学习模型的关键。数据集应具备准确性、完整性、一致性和代表性。
24+
25+
## 2. 特征的重要性
26+
特征是数据集中每个样本的属性或变量,用于描述样本的特定方面。特征的选择和处理对模型的性能有重要影响。
27+
28+
### 2.1 特征的类型
29+
- **数值特征**:具有数值表示的特征,如年龄、身高、收入等。
30+
- **分类特征**:表示不同类别的特征,如性别、职业、颜色等。
31+
- **文本特征**:由文本数据组成的特征,如评论、文章、标题等。
32+
33+
### 2.2 特征工程
34+
特征工程是从原始数据中提取、转换和选择特征的过程,旨在提高模型的性能。常见的特征工程技术包括:
35+
- **特征提取**:从原始数据中提取有意义的特征,如从图像中提取边缘、纹理等特征。
36+
- **特征转换**:对特征进行数学变换,如标准化、归一化、对数变换等。
37+
- **特征选择**:从众多特征中选择最具代表性和相关性的特征,以减少特征维度。
38+
39+
## 3. 数据集与特征的关系
40+
数据集和特征是相互依存的。数据集提供了特征的载体,而特征则是描述数据集的具体信息。合理选择和处理特征可以提高数据集的质量,从而提升模型的性能。
41+
42+
## 4. 总结
43+
数据集和特征是机器学习的基础要素。了解数据集的类型和质量要求,掌握特征的类型和特征工程技术,对于构建高效、准确的机器学习模型至关重要。

0 commit comments

Comments
 (0)