人工智能与大模型最新资讯与技术博客

亚马逊最新发布Feature Store简介

在2020年的亚马逊reInvent发布会上，亚马逊正式发布了一项新的服务，即Amazon SageMaker Feature Store，中文简介是适用于机器学习特征的完全托管的存储库。 Feature Store是这两年兴起的另一个关于人工智能系统的基础设施，应该也是未来几年最重要的人工智能基础设施之一。本文将介绍一下Feature Store是什么以及为什么很多企业开始推广这个东西。

2021/06/11 21:22:50 阅读 5712

AI/FeatureStore/云计算/人工智能/机器学习

运行dask程序报错：Task exception was never retrieved

运行本地dask集群的时候出错Task exception was never retrieved的解决方法

2021/06/07 22:42:03 阅读 6155

dask/python/编程

Python报Memory Error或者是numpy报ValueError: array is too big; `arr.size * arr.dtype.itemsize` 的解决方法

有的时候使用Python遇到内存溢出的问题，但其实机器剩余内存很多。需要注意Python版本是否正确

2021/06/07 22:19:11 阅读 4126

python/编程

SCI、SCIE、SSCI和EI期刊的含义与区别

SCI期刊可能是国内科研活动中与期刊最相关的话题内容。类似的，包括SCIE、SSCI和EI期刊也是常见的话题。本文将对这几个名词进行解释，并着重说明SCIE是否属于SCI、以及SCI和EI、SSCI的区别。

2021/05/16 00:47:08 阅读 6098

SCI/期刊/科研

学术工具

为学术新人提供的学术工具列表

2021/04/29 10:19:04 阅读 2491

学术/论文检索

博客转移

新浪博客转入

2021/03/08 12:05:54 阅读 2252

关注数据/学习数据/挖掘数据

NumPy新版本发布了~~1.20.0横空出世

NumPy是Python中非常优秀的一个数据科学工具包，使用Python做数据分析的童鞋几乎是必备的工具。NumPy的提供了非常丰富的计算能力，但是底层是C语言实现的，因此既有Python语法的低门槛，速度上却依然非常好。NumPy本身也和Pandas、SciPy一起成为一种生态了。今天，NumPy发布了1.20.0最新版本，这个版本的改动很大。值得童鞋们关注~

2021/01/31 16:31:21 阅读 4112

numpy/python

Seq2Seq的建模解释和Keras中Simple RNN Cell的计算及其代码示例

RNN的应用有很多，尤其是两个RNN组成的Seq2Seq结构，在时序预测、自然语言处理等方面有很大的用处，而每个RNN中一个节点是一个Cell，它是RNN中的基本结构。本文从如何使用RNN建模数据开始，重点解释RNN中Cell的结构，以及Keras中Cell相关的输入输出及其维度。我已经尽量解释了每个变量，但可能也有忽略，因此可能对RNN之前有一定了解的人会更友好，本文最主要的目的是描述Keras中RNNcell的参数以及输入输出的两个注意点。如有问题也欢迎指出，我会进行修改。

2020/07/12 21:25:13 阅读 4016

Keras/RNN/Seq2Seq/SimpleRNNCell/深度学习

半导体市场概览

美国对华为的制裁让我们看到半导体领域核心技术国产化的重要性，尽管国内互联网发展迅速，也产生了阿里、腾讯、美团等巨头，但是底层的硬件技术依然依赖于西方国家。其实我个人觉得也不是我们多么希望自己自力更生，实在是被逼无奈，时不时断供一下，这谁能受得了。最近个人也在补充这些知识，把一些学习的这些东西记录下来，如有问题也希望大家指出。

2020/06/07 18:10:06 阅读 2483

半导体

Let's Encrypt的Certbot自动生成证书和自动更新证书

网站启用HTTPS必须制作证书，而证书的制作需要定期更新。这里介绍了Certbot证书自动生成工具和自动更新的方法。并描述了Tomcat如何配置pem证书。

2020/06/06 21:34:41 阅读 4275

编程/网站

Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

在使用Dask进行两个dataframe的concatenate操作的时候抛出ValueError，本文记录这个错误以及解决方案。

2020/05/31 17:42:24 阅读 3247

dask/dataframe

TEST

2020/05/31 14:21:11 阅读 2594

TEST

Dask调度器简介

Dask支持多种调度器，从单线程、多线程、多进程到本地分布式和集群分布式，各种调度器在不同情况下有不同的作用，本文来源于Dask官方文档的翻译，主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

2020/05/24 18:34:06 阅读 6896

Dask/Python/分布式处理

Dask的Merge操作性能对比

在前面的博客中，我们已经对`Dask`做了一点简单的介绍了，在这篇博客中我们来对比一下`Dask`的`DataFrame`在不同条件下的运算性能，主要是连接操作的性能（merge)。

2020/05/24 18:32:52 阅读 3739

dask/python/分布式计算

Dask分布式任务中包含写文件的方法时候，程序挂起不结束的解决方案

使用Dask进行分布式处理的时候一个最常见的场景是有很多个文件，每个文件由一个进程处理。这种操作经常会遇到一个程序挂起的问题，使得程序永远运行，无法结束。本文描述如何解决。

2020/05/08 20:25:14 阅读 2377

dask/python

pandas.DataFrame.to_csv和dask.dataframe.to_csv在windows下保存csv文件出现多个换行结果

使用pandas的DataFrame和dask的DataFrame保存数据到csv文件时候会出现两个换行符的情况。本文描述如何解决。

2020/05/08 17:20:04 阅读 3844

dask/pandas/python

dask的dataframe的值变成1和foo的解决方法

2020/05/08 14:30:53 阅读 2918

dask/python

通过命令行的方式建立Dask集群

Dask的集群启动创建也很简单，有好几种方式，最简单的是采用官方提供dask-scheduler和dask-worker命令行方式。本文描述如何使用命令行方法建立Dask集群。

2020/05/06 11:41:09 阅读 3614

dask/python/分布式编程

并行计算中如何提高处理效率——来自Dask的提示

当数据量达到一定程度，单机的处理能力会无法达到性能的要求，采用并行计算，并利用多台服务器进行分布式处理可能会提升数据处理的速度，达到性能要求。然而如果使用不当，并行处理可能并不会提升处理的速度。这篇博客介绍了Dask中关于并行处理的一些效率方面的建议，尽管是针对Dask的说明，但对于所有的并行处理来说都是适用的。

2020/03/31 15:43:31 阅读 4256

Dask/Python/分布式数据处理