K-近邻
线性分类器--SVM 逻辑回归
两层NN
numpy
数据驱动方法
¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
K-近邻
线性分类器--SVM 逻辑回归
两层NN
numpy
重点:图像分类
语义鸿沟:计算机不认识猫
数据驱动:数据集 训练 模型 识别
训练函数 预测函数
最近邻算法
曼哈顿距离:绝对值相加
K-最近邻算法:根据距离选K个点投票决定颜色,K越大边缘越平滑
白色区域:没有最近的点(超过阈值))
“语义鸿沟”就是:由于计算机获取的图像的视觉信息与用户对图像理解的语义信息的不一致性而导致的低层和高层检索需求间的距离。
加油字幕君你是最棒的
cifar10
challenges:
机器视觉算法的来源:
图像在计算机上的存储是一个矩阵,你并不知道什么样的矩阵对应着什么样的图像。
1.相同的图像在不同的角度上矩阵完全不同,不同的视角
2. 不同的关照
3.图像的变形,背景
4.物体本身的动作
思想的转变:
旧:输入一张图片,返回具体的信息。旧有的传统的算法,建立在你可以枚举所有可能性的前提下。
旧方法:物体的特性,比如猫有眼睛,鼻子。然后计算图像的边缘,统计边,角,通过这些规则来识别到猫的存在
旧算法缺点:1,实际效果不是很好,2.更改识别内容,等于重新来一遍
新:使用数据驱动的算法,我们写的算法并不是去识别这个物体而是去通过大量的数据去生成识别到此物体的模型 或者说函数
numpy
向量化操作
线性分类器
k-means
svm
图像分类:
把图片与标注统一起来
思想的转变:
以前的思想:输入一个图片,识别他是以是什么,输出
现在的思想:输入一堆图片,得到一个模型 training函数
然后是一个预测函数,接受一个模型和一个图像,输出预测。
CIFAR10数据集
分类任务:
1.训练函数:输入数据 标签,输出模型
2.预测函数:输入模型,输出结果
图像分类
谷歌云
python3 numpy
api
edges
conners
not good
最近邻:fast train, slow training
cifar-10
曼哈顿距离
K最近邻
图像分类-数据驱动犯方法
8. First clssifier:Nearest Neighbor
def train(images, labels):
# Machine learning!
return model
def predict(model, test_images):
# Use model to predict labels
return test_labels