这个转换阶段可能会遍历这些 Web 服务器日志的每一行,然后将其转换成一个实际的表,在该表中,我从每个 Web 日志行中提取诸如会话 ID,它们查看的页面,时间, 引用来源以及类似的内容,我可以将其组织成表格结构,然后可以将其加载到数据仓库本身中,作为数据库中的实际表。 因此,随着数据变得越来越大,该转换步骤可能成为一个实际问题。 考虑一下要处理 Google,Amazon 或任何大型网站上的所有 Web 日志并将其转换为数据库可以吸收的内容需要多少处理工作。 这本身就成为可伸缩性的挑战,并且可能在整个数据仓库管道中引入稳定性问题。
这里的想法是,我们将像以前一样从一组 Web 服务器日志中提取我们想要的信息。 但是,然后,我们将直接将其加载到我们的数据存储库中,并且将使用存储库本身的功能来实际进行转换。 因此,这里的想法是,与其做一个脱机过程来将我的 Web 日志转换为结构化格式,例如,我只是将它们作为原始文本文件并一次一行地通过它们, ,借助 Hadoop 之类的强大功能,将其实际转换为结构化的格式,然后我就可以在整个数据仓库解决方案中进行查询。
有 K 折交叉验证的变体,也可以将其随机化。 因此,您可以每次都随机选择训练数据集是什么,而只是保持随机地将事物分配给不同的存储桶并测量结果。 但是通常,当人们谈论 K 折交叉验证时,他们谈论的是这种特定技术,即您保留一个存储桶用于测试,其余的存储桶用于训练,然后在测试数据集相对于测试数据集评估时 您为每个模型建立一个模型。
有 K 折交叉验证的变体,也可以将其随机化。 因此,您可以每次都随机选择训练数据集是什么,而只是保持随机地将事物分配给不同的存储桶并测量结果。 但是通常,当人们谈论 K 折交叉验证时,他们谈论的是这种特定技术,即您保留一个存储桶用于测试,其余的存储桶用于训练,然后当您为每个桶建立一个模型时,相对于测试数据集评估全部训练数据集。