接下来,我找到了 Gus 的 Python 脚本的副本,该脚本使用 pandas、numpy 和 scikit-learn 来处理该文件。 运行脚本 如果您已正确清理数据并且 CSV 文件的命名和格式正确,您应该能够: 按 Colab 笔记本中的“播放”按钮。
发现有一个空单元格。 包括: 附加栏目 文件名无效 法国电话号码表 无效的列名 嵌入列中的错误数据(您在配置和查看该列时会发现)。 اسکرین شاٹ سکیمنگ فراگ سے CSV آؤٹ پٹ میں خالی سیل کی ایک مثال کی خرابی دکھا رہا ہے۔ 例如,我在“嵌入”列中遇到了导致错误的空单元格。
我只是删除了该行,将清理后的文件重新导出为 file.csv,刷新 Google Colab 笔记本,然后重试。 保存结果并将其导入 Google 表格。 处理完成后,我下载了生成的文件并将其导入到我现有的 Google Sheets 工作簿中,并带有“all_inlinks”选项卡。
我将这个新选项卡命名为“相关页面”。 它看起来分“相关页面”列。
目标 URL 在 A 列中,前 5 个最密切相关的 URL 在 B 列中。 为了将它们分开,我在单元格 C2 中使用了这个公式。 =SPLIT(SUBSTI将此公式复制到该列下方,它将 URL 从 C 列拆分到 G 列。
接下来,我将 C 列从“相对 URL 5”重命名为“相对 URL 1”。 复制并粘贴为值。 将 C 列复制到 G 并将它们粘贴为像显示了左括号,但您将寻找右括号]。
我删除了原来的“相关 URL”列(B 列),留下了六列:URL 和相关 URL 1-5。 它看起在我们准备将这些信息付诸实践。
在此阶段可能发生的其他错误示例
-
- Posts: 190
- Joined: Mon Dec 23, 2024 3:33 am